Потрошим файлы PDF

Joined
Mar 26, 2019
Messages
546
Reaction score
140
Age
82
Автор: МК

Потрошим файлы PDF

Иногда возникает задача изменения файла PDF, например для его перевода или редактирования. Вроде бы существует специальное приложение Adobe Acrobat, которое по замыслу его создателей должно обеспечить редактирование наших файлов (заметим, что бесплатная программа Acrobat Reader служит исключительно для просмотра файлов PDF). В Интернете можно найти множество советов "бывалых" пользователей, рекомендующих использовать для редактирования PDF именно Adobe Acrobat, но очевидно, что эти люди никогда сами не проводили такой операции, хотя как говорится "советы в нашей стране бесплатны".

Итак, небольшой собственный опыт локализации файлов PDF позволяет поделиться с читателями реальными и проверенными на практике советами. Начнем с безопасности. Не все файлы PDF допускают хоть какое-либо изменение. Во время создания файла можно задать разнообразные параметры безопасности, определяющие допустимость разных операций с этим файлом. Если файл PDF вообще не удается открыть в Acrobat Reader (здесь и далее мы ведем речь о шестой версии этой программы), значит файл защищен паролем, который и будет запрошен во время открытия (это очень редкая ситуация, характерная только для конфиденциальной информации). Если же файл открывается, то выполняем команду File/Document Properties и выбираем раздел Security, где перечислены заданные для файла ограничения. Нас интересует пункт Content Copying and Extraction (копирование и извлечение информационного содержимого), позволяющий залезать и копировать фрагменты файла, т.е. определяющий допустимость операции извлечения данных из файла. Значением параметра может быть Allowed (разрешено) или Not Allowed (запрещено). В первом случае разрешены операции Select Text (выделение текста) и Select Image (выделение рисунка). Выделение это выполняется мышью, причем в контекстном меню присутствует пункт Copy To Clipboard (копировать в буфер [обмена Windows]), вроде бы позволяющий перенести фрагменты файла в другое приложение. Получается это не всегда, причем лучше сказать никогда (если файл PDF английский), но об этом ниже.

Закрываем "читатель" Acrobat Reader и открываем "редактор" Adobe Acrobat (рассматривается версия 6.0 Professional, хотя есть еще Standard). По сравнению с Acrobat Reader появится дополнительная команда Select Table (выделение таблицы), а в окне сохранения File/Save As показано множество форматов для сохранения файла, включая формат DOC редактора Word, а не только PDF и текстовый формат, как это было в Acrobat Reader. Более того, выделенный текстовый фрагмент теперь удачно вставляется в документ Word, даже если раньше аналогичная операция из Acrobat Reader приводила к горизонтальным линиям в документе DOC. Дело конечно не в том, что "Adobe Acrobat лучше Acrobat Reader", просто теперь Adobe Acrobat передает системе Windows информацию об исходном шрифте, что позволяет этой системе при вводе текста в Word заменить шрифт Type 1 на подходящий шрифт TrueType (обычно Times New Roman). Заметим, что Word все равно показывает имя исходного шрифта, хотя на самом деле шрифт был заменен другим (трюк этот проходит и для преобразования Type 1 в TrueType). Однако в Adobe Acrobat, во-первых, не всегда удается выделить текст, а во-вторых - удачно его вставить. Чтобы разобраться в этих мистических превращениях, нужно немного поговорить о шрифтах, форматах и преобразованиях.

Если в документе PDF запрещено копирование (Content Copying and Extraction = Not Allowed), можно использовать одну из программ снятия защиты (скажем Advanced PDF Password Recovery Pro от отечественной ElcomSoft). Для редактирования текста (если это возможно) непосредственно в Adobe Acrobat необходимо установить на компьютер все шрифты Type 1 (или TrueType), использованные в документе (см. File/Document Properties/Fonts), причем для локализации эти шрифты должны поддерживать кириллическую кодировку. Современные шрифты Type 1 в некотором смысле подобны Unicod, поскольку допускают работу с любой кодировкой, в том числе и с русскими символами (отмечены именами afii10049). Встроенные в документ шрифты этого не обеспечивают (ведь документ английский), поэтому подобрать все шрифты вряд ли удастся. Кроме того, некоторые тексты в документах PDF вообще являются рисунками, поэтому не допускают никакого "текстового" редактирования. Adobe Acrobat не имеет никаких средств для замены шрифтов (несмотря на специальный файл Fontmap для отображения шрифтов при выводе) или изменения языка (кодировки уже готового документа), поэтому в Word мы сможем передать (не всегда успешно) только то, что выделяется мышью в окне Adobe Acrobat или то, что попадает в документ Word после сохранения файла PDF в формате DOC.

Здесь возникает резонный вопрос: "Почему все так сложно?". Ответ прост: файл PDF является "окончательным" вариантом, не предназначенным для редактирования (не случайно эти файлы получаются в процессе вывода на печать через драйвер Adobe PDF или Acrobat Distiller). Правильной последовательностью действий была бы работа с "исходными" файлами других приложений, из которых и был получен документ PDF. Но найти такие файлы обычно не представляется возможным, поскольку из-за больших размеров их стирают сами авторы первичных английских документов PDF. Стандартные средства локализации, например TRADOS, предполагают, что все файлы PDF должны создаваться в приложении FrameMaker, поэтому поддерживают работу только с файлами mif, для которых и обеспечивают подстановку шрифтов. Между тем, исходный документ для страницы файла PDF можно создать в любом приложении Windows, поддерживающим вывод на печать. Существует способ импорта готового файла PDF обратно в приложение FrameMaker с "расшивкой" по отдельным страницам. Но в этом случае отдельные страницы файла трактуются как рисунки. В Интернете можно найти множество программ для извлечения информации из файлов PDF (вспомним бесплатную pdf995 от Software995 или коммерческую Gemini Solo от Iceni), но работают они гораздо хуже рассмотренных нами выше стандартных способов сохранения файла PDF из Adobe Acrobat в другом формате (поскольку утилиты были созданы тогда, когда Adobe Acrobat "не умел" записывать файл в другом формате).

К счастью, вводить PDF в виде графики научилась программа распознавания текстов Abby FineReader 7.0, поэтому вне зависимости от графической или текстовой сущности текстового фрагмента после ввода и распознавания можно получить обычный текст Windows в шрифтах TrueType.

Таким образом, "потрошить" файлы PDF можно тремя способами: * Копирование/вставка непосредственно в окне Adobe Acrobat (причем отдельно для текста, рисунков и таблиц); * Сохранение в формате DOC (или любом другом из поддерживаемых) из Adobe Acrobat; * Ввод с последующим распознаванием в FineReader и дальнейшим сохранением в формате DOC.

Полученный текст собирается вместе исходя из правила "наилучшей сохранности" (распознавание всегда сопровождается некоторым незначительным количеством ошибок), затем редактируется или переводится. Отдельно создаются локализованные версии рисунков (с измененными надписями). Все это нужно собрать в новый файл PDF, во время выполнения так называемой "верстки". Попутно отметим новое средство Adobe Acrobat 6.0 - Snapshot Tool, позволяющее сделать графический "снимок" с экрана любой части страницы PDF, вне зависимости от ее сущности (текст, рисунок или таблица). Особенно рекомендуем это средство для "обрезания" больших рисунков с последующей вставкой в любой графический редактор.

Если бы были под рукой исходные файлы, то верстка не создавала бы никаких проблем . достаточно было бы заменить английский текст русским. Однако после "потрошения" мы получаем некоторый набор рисунков, фрагментов текста и таблиц, которые нужно максимально точно сопоставить с исходным макетом файла. Поэтому основным принципом верстки станет наложение новых текстовых фрагментов на графическое изображение исходной страницы PDF, либо "верстка с нуля" с использованием всех полученных ранее компонентов. Первый способ рекомендуется для сложных страниц с множеством визуальных эффектов. Можно использовать графический редактор Photoshop, который позволяет успешно ввести любую страницу из многостраничного файла PDF. Далее удаляет графические изображения английских текстовых фрагментов (предварительно можно записать "пипеткой" исходный цвет), восстанавливаем фон на удаленной области и вставляем переведенный "русский" фрагмент, подстроив его цвет и шрифт. Графический редактор Photoshop так и не удалось заставить переносить текст не только по переносам (дефисам), но и по словам, поэтому после вставки приходится вручную расставлять клавишей Enter символы завершения строк. Для страниц с преобладанием текста верстку можно провести непосредственно в Word. В обоих случаях мы получаем отдельную страницу готового документа, а после перевода (исправления) всех страниц нужно собрать все эти страницы в один файл PDF. Вот здесь и пригодится Adobe Acrobat: File/Create PDF/From Multiple Files, щелкаем Add Files и указываем все страницы в правильной последовательности. Затем остается только сохранить готовый файл PDF, но предварительно можно уменьшить его размер, если вместо типографской печати предполагается только публикация в Интернете. Для этого служит команда File/Reduce File Size.
 
S

SAmigos

Попробуй вот эту прогу.
Найти нашел, а руки опробовать не доходят. Зацени!
Scansoft PDF Converter Pro v3.0

Данное приложение позиционируется разработчиками как комплексное и качественно решение для бизнес-пользователей.
ScanSoft PDF Converter Professional3 обеспечивает такие возможности, как быстрое и
безопасное создание PDF-файлов; их редактирование, включая форматирование текста и манипуляцию изображениями; преобразование PDF-форм с целью обеспечения возможности их заполнения в электронном виде; и преобразование PDF-документов в другие форматы, включая Microsoft Word и Excel, а также Corel WordPerfect.

Качать:
http://www210.fixdown.com/arn-pd05-2005-06-13.rar
Ключ:
http://www.qfile.de/dl/49775/pdfcp3.0.rar.html
Пароль на архив: www.2baksa.net
 

di35e1

Premium Member
Platinum
Legendary
Joined
Jun 6, 2016
Messages
758
Reaction score
179
Age
43
•cRomweLL• said:
Первый способ рекомендуется для сложных страниц с множеством визуальных эффектов. Можно использовать графический редактор Photoshop, который позволяет успешно ввести любую страницу из многостраничного файла PDF. Далее удаляет графические изображения английских текстовых фрагментов (предварительно можно записать "пипеткой" исходный цвет), восстанавливаем фон на удаленной области и вставляем переведенный "русский" фрагмент, подстроив его цвет и шрифт. Графический редактор Photoshop так и не удалось заставить переносить текст не только по переносам (дефисам), но и по словам, поэтому после вставки приходится вручную расставлять клавишей Enter символы завершения строк.


по моему для этого больше иллюстратор подходит : )
 

chifram

Member
Joined
Sep 16, 2004
Messages
34
Reaction score
1
SAmigos
правильный пароль писал бы ! (да и зачем он ?)
"www.2baksa.net" (без кавычек естественно)
 

Smile

Member
Joined
Mar 12, 2004
Messages
30
Reaction score
2
Age
27
Есть еще ABBYY PDF Transformer
Из справки:
Что такое ABBYY PDF Transformer 1.0?

Программа ABBYY PDF Transformer 1.0 предназначена для конвертирования PDF-документов в форматы, позволяющие редактировать содержимое документов. В основе ABBYY PDF Transformer лежит признанная в мире система оптического распознавания символов (OCR) и технология анализа документов ABBYY FineReader, благодаря которой ABBYY PDF Transformer 1.0 является наиболее полным решением для конвертирования PDF-документов, позволяющим не только конвертировать PDF-файл в редактируемый формат, но и сохранить исходное форматирование страницы.

ABBYY PDF Transformer позволяет обрабатывать все PDF-файлы, независимо от того, каким образом они были созданы. ABBYY PDF Transformer поддерживает аутентичные Adobe установки защиты PDF-файлов. Для обработки PDF-файлов, защищенных паролем, необходимо указать пароль.

ABBYY PDF Transformer интегрируется с Проводником (Windows Explorer) и с приложениями Microsoft Office (Word, Excel, Outlook). Вы можете конвертировать PDF-файл непосредственно из этих программ, а затем открыть новый документ в Microsoft Word и Microsoft Excel для последующего редактирования или же сохранить конвертированный документ в одном из редактируемых форматов:

DOC,

RTF,

XLS,

HTML,

TXT.

Достоинством программы ABBYY PDF Transformer является гибкость настроек, позволяющая:

ускорить и упростить работу с объемными PDF-документами за счет конвертирования не всего документа, а лишь выбранных страниц;

повысить точность конвертирования, указав языки, на которых написан обрабатываемый документ;

уменьшить размер конечного файла за счет уменьшения разрешения и выбора качества для изображений, присутствующих конечном файле.

Программа проста и удобна в использовании. Для удобства работы в программе есть Мастер конвертирования ABBYY PDF Transformer, который последовательно проведет вас по всем этапам процесса конвертирования.
 

Duck12

Member
Joined
Jul 12, 2004
Messages
20
Reaction score
0
Age
46
ВСе это фигня! Всем пользоваться СолидКонвертер!!!!!
 

XPEHOMETP

Member
Joined
Oct 21, 2005
Messages
245
Reaction score
58
Age
62
Location
С.-Петербург
Smile said:
Есть еще ABBYY PDF Transformer .
Прога хорошая и удобная, но (в отличие от Fine Reader) не позволяет по ходу дела подкорректировать результат оптического распознавания. И получается, что где-то какие-то значки не так поняты, а где-то рисунок, записанный в векторном формате, изображен как набор бессмысленных значков... Но таких ляпов не так уж много. И удалось получить приличный документ даже из такой хренотени, где чуть ли не строчка на строчку наезжает (не знаю, как уж они такое в PDF записали).
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
ABBYY PDF Transformer это просто упрощённая версия ABBYY Fine Reader.

----
http://dumpz.ru/showthread.php?t=25757 - обсуждение конвертеров PDF в другие форматы
 

tantony

Member
Joined
Feb 16, 2009
Messages
6
Reaction score
0
Age
34
Обратите внимание на Infix
может и не потребуется переходить в другие форматы
 
Top