Формат DjVu(ДеЖаВю)

Status
Not open for further replies.

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Полный вариант раздобыл, спасибо.

---
В облегчённой версии пробовал именно такие настройки. Выдаёт какую-то ошибку. Попробую в полной версии, если опять будет ошибка напишу.
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
okun said:
Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default

OCR слой в полученном djvu проверяю в djvu_Browser Plugin

Вот так и сделал. Галочку напротив OCR не ставил. Документ получился без OCR.

И самое главное, такое впечатление будто программа его пережимает не как черно-белое изображение. а там ч/б. Если поставить именно ч/б профиль, то пережимается раз в 10 где-то. А с профилем documenttodjvu получается тот же самый размер.

Вот файл над которым я ломаю голову:

http://rapidshare.de/files/23150537/1.rar.html

точнее это фрагмент на 500 кб.

---
Можно ли как-то заставить программу использовать для временных файлов не системный диск? Проблемы со свободным местом, а книжка на 900 страниц...
 
Last edited by a moderator:

okun

Legendary
Joined
May 3, 2014
Messages
6,047
Reaction score
2,975
Deposit
$ 500
По накатонному пути тоже ничего не вышло. Начал "копать".

Вот выдержка из раздела справки Ent:
PDFtoDjVu Known Issues
Text from OCR Layer Not Readable
PDF documents that contain text extracted from an OCR layer can not expose this text to the current version of pdftodjvu. No text is extracted. However, the hidden text layer can easily be regenerated in DjVu using djvujoin or djvubundle (standard tools in DocumentExpress Enterprise Edition) with the ocr option.
И действительно - установив галку OCR, в полученном djvu текст появился.

Далее опытном путем выяснилось:
не сохраняется слой OCR при кодировке в djvu у тех документов pdf, у которых текст расположен ПОД изображением. У тех где НАД, всё нормально. Как поменять такой порядок размещения в документе pdf, не выяснил.

Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

По поводу Временных папок - попробуй все переменные Temp (и пользовательские и системные) перенаправить на другой раздел, ну и файл подкачки тоже. Или разбить исходный pdf на несколько файлов и перекодировать их в djvu по-отдельности, собрав потом в единый файл.
 
Last edited by a moderator:

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?
 

okun

Legendary
Joined
May 3, 2014
Messages
6,047
Reaction score
2,975
Deposit
$ 500
Msha said:
Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?

Да, такую заливку можно сделать в Adobe Acrobat, но тут начинается двоение текста, получается, что слой "заливаемого" текста становится на место текста, который расположен НАД изображением - отсюда и двоение (два слоя текста НАД и ПОД). Но, вроде нашел способ как от этого избавиться :) По крайней мере в представленном файле.

Открываем исходный pdf в Acrobat, Меню Просмотр->Вкладки навигации->Содержимое. На вкладке Содержимое раскрываем Страницу, выделяем объект Текст и в его свойствах ставим заливку черным цветом. Далее на вкладке Содержимое удаляем Путь доступа и получаем на выходе чистый текст без слоя Изображения. Такой файл легко кодируется в djvu с сохранением OCR.

Вобщем, думаю надо детально изучить вопрос о составляющих Содержимое PDF документа. Работа со слоями текста и изображения, пути доступа и т.д.
 

Vadimir

Member
Joined
Dec 8, 2004
Messages
56
Reaction score
13
Msha
Очередной вопрос. . Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?
А может не напрямую, старым дедовским способом? Перераспознать в ФР 7,0 и утилитой от Генчо вставить в djvuку. Все же в автоматическом режиме, запустил и делай дела. Потом (если часто придется такое делать), есть так называемый конвейр (набор скриптов), который заточен на такие дела, но я про него только краем уха слышал, но народ активно пользуется.
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Я вопрос решил просто распознав по новой в Documents Express. Не охота было долго возится, да и получилось вполне приемлемо - скан хороший, текст распознался вполне нормально.

Вот появилось у меня пара книг, найти вариантов нормальных мне не удалось, только громадные сканы. Думаю их выложить, может у кого получится привести их в нормальный вид ).

Вот одна книга:

http://rapidshare.de/files/26000791/p1.rar.html 28.37 MB
http://rapidshare.de/files/26002052/p2.rar.html 28.28 MB
http://rapidshare.de/files/26003283/p3.rar.html 28.40 MB
(картинки в формате tiff g4, 600 dpi)

"Munson B.R., Young D.F., Okiishi T.H. Instructor's Manual to Accompany Fluid Mechanics 4th ed."

Wiley, 2001
1305s

У меня при сжатии в djvu в таком разрешении книга получается размером 56 Мб, многова-то. Сделал в 300 dpi - плучил 28 Мб. Может я чего-то не так делал, если у кого получится картинки в 600 dpi сжать посильнее, было бы здорово.

http://rapidshare.de/files/26088597..._Manual_to_Accompany_Fluid_Mechanics.rar.html 28.99 MB

вот что получилось у меня (300 dpi)

---
Над второй книгой сейчас издеваюсь. :).
 
Last edited by a moderator:

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
http://rapidshare.de/files/26069654/Horowitz_And_Hill_-_The_Art_Of_Electronics.part4.rar.html 15.68 MB
http://rapidshare.de/files/26071166/Horowitz_And_Hill_-_The_Art_Of_Electronics.part2.rar.html 47.68 MB
http://rapidshare.de/files/26072622/Horowitz_And_Hill_-_The_Art_Of_Electronics.part3.rar.html 47.68 MB
http://rapidshare.de/files/26074034/Horowitz_And_Hill_-_The_Art_Of_Electronics.part1.rar.html 47.68 MB

Horowitz, Hill. The Art Of Electronics

В книге около 1100 страниц, скан серый, судя по всему файл собран из jpeg, разрешение 600 dpi. Книга в неплохом виде, но уменя собранный djvu файл смтрится не очень...
 

e-lena

Member
Joined
Oct 1, 2006
Messages
5
Reaction score
0
Location
Москва
Website
imagination-forum.com
Мне очень нравится этот формат, сама часто им пользуюсь. Сканирую разные книги-журналы. Очень маленькие файлы получаются по сравнению с Jpeg.
 

toro

Member
Joined
Jun 10, 2005
Messages
127
Reaction score
141
Age
25
Ищу программу.

Есть ли кого этот экземпляр?
Буду очень признателен.

Document Express Editor 6.0.1.1320
 

Vicci

ex-Team DUMPz
Joined
Apr 19, 2004
Messages
5,115
Reaction score
3,355
Age
63
Location
Градъ Петровъ
Document Express Editor 6.0.1.1320


Конечно есть! Кто ищет тот находит!
И Новый Год
с подарками
приходит!

Залил вот сюда
[hide=5]ifolder.ru/758570[/hide]
 

toro

Member
Joined
Jun 10, 2005
Messages
127
Reaction score
141
Age
25
Vicci,спасибо за заботу ,но есть просьба.У меня не получается скачать с этого сервера(слишком много ошибок пишет \Regetом тяну\ не мог бы выложить на другой сервер?)
 

toro

Member
Joined
Jun 10, 2005
Messages
127
Reaction score
141
Age
25
Напиши пожалуйста пароль на архив. Заранее благодарю.
Большое спасибо.Уже не надо.Пароль нашел)
 
Last edited by a moderator:

andybs

Member
Joined
Feb 12, 2004
Messages
44
Reaction score
9
Age
59
формат, конечно, отстойный, но ввиду присутствия кучи литературы - приходится использовать
 

telenin20

Member
Joined
Jan 27, 2004
Messages
22
Reaction score
4
Age
74
andybs
формат, конечно, отстойный, но ввиду присутствия кучи литературы - приходится использовать

Формат достойный. А кто не умеет готовить качественные сканы книг - это уже "второй" вопрос.
 

jankagman

Member
Joined
Jan 12, 2005
Messages
48
Reaction score
4
Age
43
Согласен, формат- приличный, сам 2 книжки года 3 назад делал именно в нём. Ни каких проблем. Сейчас как раз решил перезалить для наглядности. 652 листа, и всего 7 мб в очень читабельном качестве.
 

Stompfp

Member
Joined
Aug 12, 2005
Messages
18
Reaction score
3
Age
40
Location
СПБ
Перезалейте плиз Document Express Editor 6.0.1.1320 (или последнюю), а то ссылки удалены.
 
Status
Not open for further replies.
Top