Формат DjVu(ДеЖаВю)

Status
Not open for further replies.

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Document Express Enterprise всё равно что-то плющит :(.

---
Нужен совет ...

Есть вот такая страница:
http://rapidshare.de/files/22013869/page008.rar.html (480 Кб)

При кодировании в DjvuEditor получается вот такой чёрно-белый вариант:
http://rapidshare.de/files/22014028/page008.djvu.html 0.03 MB

А как бы мне изменить порог чёрно-белого изображения? Прикодировании серые цвета урезаются слишком сильно и буквы становятся тонкими и плохо разборчивыми. Что хдесь можно сделать?
 
Last edited by a moderator:

karpinskiy1

Member
Joined
Feb 23, 2004
Messages
283
Reaction score
89
Age
45
Msha, вся беда, по-моему, в том, что изначально рисунок серый, а кодируется в черно-белый DJVU.
Я пробовал конвертить твою страницу программой Document Express Editor 50016 lite-версией (обрезана, работает без установки, ocr нет, весит 6 мб).
Если конвертить в серый DJVU, то появляется размытость на тексте (обычный глюк DJVU при работе с серыми и цветными картинками).
Если конвертировать в черно-белый DJVU получается как и у тебя (чуть получше), немного повысить качество позволяет установка наивысшего качества (без потерь). Сам кодировщик не сможет качественно закодировать этот файл.
Нужно вначале каким нибудь редактором (Photoshop пойдет, пакетной обработкой) перевести серые страницы в черно-белые, при этом выставить необходимый порог. А уже потом кодировать в DJVU.
Я, например, сразу сканирую в черно-белый вариант, просто вначале сканирую несколько пробных страниц на которых отрабатываю порого яркости. Но многие в интернете советуют сканировать именно в градациях серого цвета, а потом уже переводить в черно-белый.
Кстати, кроме фотошопа, для этого подойдут специальные программы для обработки сканов. Допустим, ScanKromsator, там куча всего есть, позволяет и очистить сканы от мусора, выровнять страницы и перевести в черно-белый вариант (порог преобразования там тоже устанавливается).
 
Last edited by a moderator:

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
karpinskiy1 said:
вся беда, по-моему, в том, что изначально рисунок серый, а кодируется в черно-белый DJVU.

Именно в этом и беда :(. Но у меня другого исходника нет. Попробую прогармму которую ты посоветовал. Я думал про Фотошоп, но в 6й версии, котторая у меня стоит нет возможности (я не нашёл) произвести пакетную обработку по собственному сценарию. И установку порога я там не нашёл...
 
Last edited by a moderator:

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Vadimir said:
закодировать, не забыв выставить словарь для кодирования на все 1600 страниц (экономия в 30% гарантированна).

А это не скажется на скорости загрузки документа? Поропбовал выставить словарь на 779 страниц (книгу кодировал с 779 страницами), пыхтело 3 часа, своп съел почти 1Гб, файл открывается и подгружается неск. секунд.
 
Last edited by a moderator:

karpinskiy1

Member
Joined
Feb 23, 2004
Messages
283
Reaction score
89
Age
45
Msha said:
Попробую прогармму которую ты посоветовал. Я думал про Фотошоп, но в 6й версии, котторая у меня стоит нет возможности (я не нашёл) произвести пакетную обработку по собственному сценарию. И установку порога я там не нашёл...
Вроде и там (в 6-ой версии) это уже можно было сделать. Хотя правильно, лучше ScanKromsator использовать: работает без установки, небольшой по размеру, на различных форумах в сети уже много рекомендаций по работе с ним появилось (у него интерфейс англоязычный, а функций много, по-началу это вызывает затруднение).
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Я уже затруднился. Но я нашёл как в Documents Express выставить порог ч/б изображения. Получается вполне нормально :). Осталось раздобыть 30Гб свободжного места, чобы книгу на tiff'ы разложить ))
 

Vadimir

Member
Joined
Dec 8, 2004
Messages
56
Reaction score
13
Msha
А это не скажется на скорости загрузки документа?
Скажется, но заметно будет только на древних компах, и как мне кажется, загрузив один раз словарь, при листании не будет пауз, как если бы подгружался новый словарь.
Поропбовал выставить словарь на 779 страниц
Вроде бы Document Express Enterprise должен справится, не понимаю, почему он не идет у Вас.
Вот попробовал, на скорую руку, обработать страничку. Размер великоват получился, но тут надо возится.
0001.djvu (61 KB)
Вообще то странно, исходник в 600 dpi, но такая гадость. Обычно, при сканировании в 300 dpi в серых тонах, получается очень неплохой результат.
 
Last edited by a moderator:

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Vadimir said:
Вроде бы Document Express Enterprise должен справится, не понимаю, почему он не идет у Вас.

Да нет, Вы не поняли. Всё идёт, просто процесс длился очень долго, а получившийся файл при открытии загружался несколько секунд. Я поковырялся в настройках и удалось добится лучшего результата.


Vadimir said:
Вот попробовал, на скорую руку, обработать страничку. Размер великоват получился, но тут надо возится

А с какими настройкми и какой профиль вы использовали? У меня получилось близко к этому, но всё же немного хуже.
 

Vadimir

Member
Joined
Dec 8, 2004
Messages
56
Reaction score
13
Во первых про число страниц на словарь. Я тут конечно проявил экстремизм. Как правило достаточно один словарь на 200 стр., дальнейшее увеличение даст, в лучшем случае, только несколько процентов выигрыша в размере, зато кодироваться будет действительно пёс знает сколько времени. Но бещанное мною уменьшение размера файла на 30% обычно бывает на хороших сканах, на таком паршивом повторяемость символов будет мала, соответственно и результат будет похуже.
Насчет этой странички. Посмотрел ее внимательно, заодно заглянул в её EXIF, стало все ясно. Т.е. это как всегда был серый скан на 150 dpi, к томуже пожатый в jpeg, загнанный в pdf (не понимаю лбдей которые это делают, вроде время тратят. сканируют, что бы сделать такое г...?) Потом этот pdf раскодировали через ghost printer с повышением dpi аж до 600!
Может конечно есть кудесники, мастера в любом деле существуют, которые могут сделать из этого что-то приличное, но стандартными средствами вряд ли.
А страничку я обработал сканкромсатором.
Методика изложена, правда корявым языком, зато в картинках здесь.
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Vadimir,

1) Я тоже не сидел сложа руки и поэкспериментировав решил остановится примерно на такой же цифре. Если поставить все 779, то файл при загрузке подтормаживает, хотя комп. у меня не слабый. Это не сильно принципиально, но напрягает. Уменьшение размера файла действительно заметил, причём если словарь на 50 страниц, то размер 11.500.000, а если на все 779, то 10.052.000 . Разница приличная, уместно поискать оптимум. При 200 страницах подтрмаживает только в сам момент загрузки, на этом количестве я и остановлюсь.

2) Страничка которую я тут представил - из скачанной мной книги (это не я её так уродовал! :)). Я получил примерно такой же резуьтат, не обрабатывая страницу, а просто установиви в DEE порог чёрно-белого изображения где-то 190. Не думаю что стоит тратить время на дополнительную обработку. Хорошо что вы мне подсказали на счёт разрешения (150 dpi), а то я выдирал поставив аж 600, т.к. пока ещё не очень хорошо ориентируюсь во всём этом.

Стоит ли, если исходник имеет 150 dpi повышать разрешение. Даст ли это какой-то результат? Форму букв это не улучшит, понятно, но может хоть как-то на визуальные ощущения повлияет? Или бесполезно?
 
Last edited by a moderator:

Vadimir

Member
Joined
Dec 8, 2004
Messages
56
Reaction score
13
Про 150 dpi это на глаз, может там целых 200 :).
По моему скромному опыту, повышать разрешение все таки нужно, но с обработкой, например в кромсаторе, визуально становится несколько лучше.
Да кстати, можно все таки примерно узнать (может у Вас есть инфа), кто же гонит этот ужасный вал 100 метровых pdfефов? В чем сермяга этого? Может мужики не в курсе :)?
 
Last edited by a moderator:

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Скачивал из ослосети. Редкостный случай когда не удалось найти нормального варианта в djvu. Вот другую книгу я вполне успешно переделал - там был очень качественный чёрно-белый скан. А это что-то страшное, паршивый скан.
 

karpinskiy1

Member
Joined
Feb 23, 2004
Messages
283
Reaction score
89
Age
45
Vadimir said:
Да кстати, можно все таки примерно узнать (может у Вас есть инфа), кто же гонит этот ужасный вал 100 метровых pdfефов? В чем сермяга этого? Может мужики не в курсе ?
По-моему, все это распространяет медиго, похоже там главное не качество, а количество. С другой стороны, никто больше таких объемов своих сканов в сети еще не выдает. Есть к чему стремиться. Но только не к таким размерам файлов.
 

okun

Legendary
Joined
May 3, 2014
Messages
6,047
Reaction score
2,975
Deposit
$ 500
Msha, для оптимизации страниц в pdf, посмотри также на Adobe Acrobat 7.xx. Меню Инструменты->Допечатная подготовка.
Кроме представленных там возможностей есть пункт "Оптимизация pdf" и далее "Отсканированные страницы". Поиграйся с фильтрами...
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Подскажите мне ещё такую вещь. Как быстро и, главное, удобно поменять страницы местами в djvu документе? В djvuEditor'e я не нашёл ничего похожего, приходится хватать страницу мышкой и тащить к нужному месту. Периодически старница при этом ''срывается''. Кроме того, чтобы тащить вниз нужно всё время вести мышку вниз. В общем жутко неудобно, когда страницу надо переместить на 700 позиций вниз. А мне надо полкниги так скомпоновать.
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Очередной вопрос. :). Есть ПДФ файл, в котором поверх отсканированой картинки наложен текст. Есть ли возможность перевести это в djvu сохранив OCR?
 

okun

Legendary
Joined
May 3, 2014
Messages
6,047
Reaction score
2,975
Deposit
$ 500
Есть, Document Express Ent.
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
okun, а как? Я попробовал, напрямую у меня не переводит. А если ставить галочку ''perform OCR'', то это уже получается не напрямую, а с повторным распознаванием.

---
Кстати, у меня облегчённая версия, без OCR модуля. Кто-нибудь необходимые файлы может выложить?
 

okun

Legendary
Joined
May 3, 2014
Messages
6,047
Reaction score
2,975
Deposit
$ 500
Msha, использую полную версию Ent.

Raster Profile - documenttodjvu (Default)
PDF Profile - Electronic PDF - Default

OCR слой в полученном djvu проверяю в djvu_Browser Plugin

Размер полного дистрибутива Ent. в архиве - 196 Мб. Размер папки IRIS_OCR в установочном каталоге - 43 Мб в архиве.

Временно ограничен в выкладывании, но на сайте вроде ссылки были.
 
Last edited by a moderator:
Status
Not open for further replies.
Top