Формат DjVu(ДеЖаВю)

Msha · Jun 15, 2006

Полный вариант раздобыл, спасибо.

---
В облегчённой версии пробовал именно такие настройки. Выдаёт какую-то ошибку. Попробую в полной версии, если опять будет ошибка напишу.

Msha · Jun 15, 2006

okun said:
Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default

OCR слой в полученном djvu проверяю в djvu_Browser Plugin

Вот так и сделал. Галочку напротив OCR не ставил. Документ получился без OCR.

И самое главное, такое впечатление будто программа его пережимает не как черно-белое изображение. а там ч/б. Если поставить именно ч/б профиль, то пережимается раз в 10 где-то. А с профилем documenttodjvu получается тот же самый размер.

Вот файл над которым я ломаю голову:

http://rapidshare.de/files/23150537/1.rar.html

точнее это фрагмент на 500 кб.

---
Можно ли как-то заставить программу использовать для временных файлов не системный диск? Проблемы со свободным местом, а книжка на 900 страниц...

okun · Jun 15, 2006

По накатонному пути тоже ничего не вышло. Начал "копать".

Вот выдержка из раздела справки Ent:
PDFtoDjVu Known Issues

Text from OCR Layer Not Readable
PDF documents that contain text extracted from an OCR layer can not expose this text to the current version of pdftodjvu. No text is extracted. However, the hidden text layer can easily be regenerated in DjVu using djvujoin or djvubundle (standard tools in DocumentExpress Enterprise Edition) with the ocr option.

И действительно - установив галку OCR, в полученном djvu текст появился.

Далее опытном путем выяснилось:
не сохраняется слой OCR при кодировке в djvu у тех документов pdf, у которых текст расположен ПОД изображением. У тех где НАД, всё нормально. Как поменять такой порядок размещения в документе pdf, не выяснил.

Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

По поводу Временных папок - попробуй все переменные Temp (и пользовательские и системные) перенаправить на другой раздел, ну и файл подкачки тоже. Или разбить исходный pdf на несколько файлов и перекодировать их в djvu по-отдельности, собрав потом в единый файл.

Msha · Jun 16, 2006

Далее, даже если текст расположен в pdf ПОД изображением, можно его сделать видимым в djvu путем установки его заливки черным (или любым) цветом (свойства текста-кнопка Заливка). По умолчанию на кнопке стоит знак вопроса. Но текст при этом начинает немного двоиться. Пока всё.

Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?

okun · Jun 16, 2006

Msha said:
Т.е. в исходном ПДф файле я заливаю текст чёрным и затем спокойно конвертирую в djvu?

Да, такую заливку можно сделать в Adobe Acrobat, но тут начинается двоение текста, получается, что слой "заливаемого" текста становится на место текста, который расположен НАД изображением - отсюда и двоение (два слоя текста НАД и ПОД). Но, вроде нашел способ как от этого избавиться

По крайней мере в представленном файле.

Открываем исходный pdf в Acrobat, Меню Просмотр->Вкладки навигации->Содержимое. На вкладке Содержимое раскрываем Страницу, выделяем объект Текст и в его свойствах ставим заливку черным цветом. Далее на вкладке Содержимое удаляем Путь доступа и получаем на выходе чистый текст без слоя Изображения. Такой файл легко кодируется в djvu с сохранением OCR.

Вобщем, думаю надо детально изучить вопрос о составляющих Содержимое PDF документа. Работа со слоями текста и изображения, пути доступа и т.д.

Vadimir · Jun 16, 2006

Msha

Очередной вопрос. . Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?

А может не напрямую, старым дедовским способом? Перераспознать в ФР 7,0 и утилитой от Генчо вставить в djvuку. Все же в автоматическом режиме, запустил и делай дела. Потом (если часто придется такое делать), есть так называемый конвейр (набор скриптов), который заточен на такие дела, но я про него только краем уха слышал, но народ активно пользуется.

Msha · Jul 17, 2006

Я вопрос решил просто распознав по новой в Documents Express. Не охота было долго возится, да и получилось вполне приемлемо - скан хороший, текст распознался вполне нормально.

Вот появилось у меня пара книг, найти вариантов нормальных мне не удалось, только громадные сканы. Думаю их выложить, может у кого получится привести их в нормальный вид ).

Вот одна книга:

http://rapidshare.de/files/26000791/p1.rar.html 28.37 MB
http://rapidshare.de/files/26002052/p2.rar.html 28.28 MB
http://rapidshare.de/files/26003283/p3.rar.html 28.40 MB
(картинки в формате tiff g4, 600 dpi)

"Munson B.R., Young D.F., Okiishi T.H. Instructor's Manual to Accompany Fluid Mechanics 4th ed."

Wiley, 2001
1305s

У меня при сжатии в djvu в таком разрешении книга получается размером 56 Мб, многова-то. Сделал в 300 dpi - плучил 28 Мб. Может я чего-то не так делал, если у кого получится картинки в 600 dpi сжать посильнее, было бы здорово.

http://rapidshare.de/files/26088597..._Manual_to_Accompany_Fluid_Mechanics.rar.html 28.99 MB

вот что получилось у меня (300 dpi)

---
Над второй книгой сейчас издеваюсь.

.

Msha · Jul 17, 2006

http://rapidshare.de/files/26069654/Horowitz_And_Hill_-_The_Art_Of_Electronics.part4.rar.html 15.68 MB
http://rapidshare.de/files/26071166/Horowitz_And_Hill_-_The_Art_Of_Electronics.part2.rar.html 47.68 MB
http://rapidshare.de/files/26072622/Horowitz_And_Hill_-_The_Art_Of_Electronics.part3.rar.html 47.68 MB
http://rapidshare.de/files/26074034/Horowitz_And_Hill_-_The_Art_Of_Electronics.part1.rar.html 47.68 MB

Horowitz, Hill. The Art Of Electronics

В книге около 1100 страниц, скан серый, судя по всему файл собран из jpeg, разрешение 600 dpi. Книга в неплохом виде, но уменя собранный djvu файл смтрится не очень...

e-lena · Oct 3, 2006

Мне очень нравится этот формат, сама часто им пользуюсь. Сканирую разные книги-журналы. Очень маленькие файлы получаются по сравнению с Jpeg.

RainMan2704 · Nov 27, 2006

вопрос: а в windjvu поиск нормально работает?

toro · Dec 30, 2006

Ищу программу.

Есть ли кого этот экземпляр?
Буду очень признателен.

Document Express Editor 6.0.1.1320

Vicci · Dec 31, 2006

Document Express Editor 6.0.1.1320

Конечно есть! Кто ищет тот находит!
И Новый Год
с подарками
приходит!

Залил вот сюда
[hide=5]ifolder.ru/758570[/hide]

toro · Dec 31, 2006

Vicci,спасибо за заботу ,но есть просьба.У меня не получается скачать с этого сервера(слишком много ошибок пишет \Regetом тяну\ не мог бы выложить на другой сервер?)

Vicci · Dec 31, 2006

Хорошо, залил на рапиду!
Вот ссылка
[hide=5]rapidshare.com/files/9623056/DEE6011320.rar.html[/hide]

toro · Jan 1, 2007

Напиши пожалуйста пароль на архив. Заранее благодарю.
Большое спасибо.Уже не надо.Пароль нашел)

andybs · Feb 22, 2007

формат, конечно, отстойный, но ввиду присутствия кучи литературы - приходится использовать

telenin20 · Feb 23, 2007

andybs
формат, конечно, отстойный, но ввиду присутствия кучи литературы - приходится использовать

Формат достойный. А кто не умеет готовить качественные сканы книг - это уже "второй" вопрос.

jankagman · May 17, 2007

Согласен, формат- приличный, сам 2 книжки года 3 назад делал именно в нём. Ни каких проблем. Сейчас как раз решил перезалить для наглядности. 652 листа, и всего 7 мб в очень читабельном качестве.

Stompfp · Sep 18, 2007

Перезалейте плиз Document Express Editor 6.0.1.1320 (или последнюю), а то ссылки удалены.

aHAPXuCT · Jan 12, 2008

можно конечно

Формат DjVu(ДеЖаВю)

Msha

ex-Team DUMPz

Msha

ex-Team DUMPz

okun

Msha

ex-Team DUMPz

okun

Vadimir

Member

Msha

ex-Team DUMPz

Msha

ex-Team DUMPz

e-lena

Member

RainMan2704

Member

toro

Member

Vicci

Member

toro

Member

Vicci

Member

toro

Member

andybs

Member

telenin20

Member

jankagman

Member

Stompfp

Member

aHAPXuCT

New member