Формат DjVu(ДеЖаВю)

Status
Not open for further replies.

DigitalM

Member
Joined
Jun 4, 2008
Messages
15
Reaction score
1
А в чем преимущества этого формата книг?
 

Ognev

ex-Team DUMPz
Joined
Aug 20, 2018
Messages
2,104
Reaction score
902
Age
25
А в чем преимущества этого формата книг?
Малый объем и возможность добавления текстового слоя. Напомню, что формат создан для хранения сканенных книг.
 

kum

Member
Joined
Feb 21, 2004
Messages
1,167
Reaction score
1,875
1212770393_1208797612_scan_and_share.jpg
DjVu - графический формат, оптимизированный для хранения отсканированных документов. В частности он идеально подходит для создания электронных книг. Существует два традиционных способа хранения отсканированной книги: для энтузиастов это распознавание (OCR) с последующей подготовкой полноценного текстового электронного документа, менее терпеливые люди выкладывают непосредственно "сканы" - отсканированные картинки, часто собранные в pdf документ. В первом случае требуется прорва работы, во втором получаются файлы размером в десятки и даже сотни мегабайт.
Отныне существует компромиссный вариант - перевод отсканированных картинок в формат DjVu (дежа-вю). При этом текст и контрастные рисунки сохраняются с разрешением 300dpi, все остальное считается фоном и сохраняется с пониженным разрешением. Это позволяет хорошо сжать электронный документ без потери его читаемости. В DjVu размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что вполне приемлемо.
Особое значение этот формат приобретает для переноса в сеть математической и вообще технической литературы, где обилие схем и формул делает распознавание и перевод в текстовый формат практически невыполнимым. В настоящее время формат DjVu становится фактическим стандартом для электронных библиотек. Файлы с расширением DjVu, перестают быть экзотикой на просторах сети.
DjVu: Краткое техническое введение
Несмотря на растущую важность Интернета, большая часть знаний в виде культурного и образовательного материала уже существующего сегодня, всё ещё доступна лишь в бумажной форме. Внедрение данного информационного богатства в цифровую область, в схожем с оригиналом виде, с лёгким доступом и поиском, является основным шагом к созданию Всемирной Интернет Библиотеки.
DjVu (произносится как "дэжа вю") это технология сжатия, файловый формат и универсальная платформа специально спроектированная для создания цифровых библиотек на основе печатного, сканированного или цифрового материала. Так например для сканированного документа, размер DjVu файла обычно в 3-10 раз меньше чем чёрно-белый TIFF или PDF и в 5-10 чем цветной JPEG.
Обычная страница из книги, журнала или древней рукописи отсканированная в цвете и 300dpi содержит порядка 8 миллионов пикселей и занимает 24MB в несжатом виде. Традиционные технологии сжатия такие как JPEG обладают следующими минусами:
• Типичные размеры JPEG файла на страницу находятся в рамках между 400KB и 2MB в лучшем качестве, что является абсолютно непригодным для удалённого доступа.
• Острые грани (в символьных структурах) - причина многочисленных потраченных впустую бит и/или неприятных артефактов.
• Большие изображения очень медленно рендрятся, требуя объёмный буфер памяти для распаковки в клиенте, а ещё их проблематично увеличить или распечатать в существующих браузерах.
• Текст обычно не отделяется от изображения и по этому не может быть подвергнут OCR, индексированию и поиску.
• Ничего не сделано для многостраничных документов, потому приходиться формировать изображения в контейнерный формат типа PDF, ещё больше теряя в эффективности.
DjVu избавляет от этих проблем обрабатывая двутональные документы, низкоцветовые (индексированные) изображения, изображения с непрерывным спектром тонов (фотографии и т.д), сканированные цветные и чёрно-белые документы, цифровые документы (например в Postscript или формате PDF).
Двутональные документы закодированы методом JB2 который формирует сжатую библиотеку из повторяемых форм в документе (например символов) и кодирует их место появление на каждой странице. Низкоцветовые изображения сжаты аналогичным путём, с добавлением цветовой палитры и цветового индекса для каждой формы. Изображения с непрерывным спектром тонов сжаты прогрессивным "wavelet-based" методом IW44, равным JPEG-2000 в отношении шумового коэффициента, но чей декодер/рендер более эффективен, занимает меньше памяти и оптимизирован для более быстрой работы (в 3 раза быстрей чем быстрый режим JPEG-2000). Внутренние кодеры обширно используют новый бинарный адаптивный арифметический кодер, названный "Z-coder".
Цветной отсканированный документ разбивается на передний и фоновый план. Передний план содержит текст, линии и кривые сжатые как двутональное или низкоцветовое изображение с максимальным разрешением (используется JB2), сохраняя резкость и удобочитаемость текста. Фоновый план содержит изображения и бумажные текстуры сжатые в уменьшенном разрешении с IW44. Фоновый план, находясь под приоритетными компонентами, сглаживается для уменьшения размера. Сегментатор переднего и фонового плана сначала обнаруживает объекты резко противопоставленные их окружению и затем классифицирует их в передний или фоновый план используя несколько критериев, типа их цветовой однородности, геометрии и веса.
Цифровые PDF и PostScript документы превращаются в список команд рисования нижнего уровня, используя популярный инструментарий GhostScript. Далее этот список транслируется в список форм которые впоследствии классифицируются в передний или фоновый слой используя эвристический анализ. Затем слои сжимаются как сканированные документы.
Двутональные DjVu документы обычно занимают 5-30KB на страницу в 300dpi, что в 3-8 раз меньше чем Group 4 (используемый в Fax машинах, в TIFF файлах и в PDF). Низкоцветовые изображения, например иконки, обычно в 2 раза меньше чем GIF, но могут быть и в 10 раз меньше если содержат много текста. Фотографии в 2 раза меньше чем JPEG и схожи по размеру с JPEG-2000 в быстром режиме для SNR. Интересный аспект "wavelet" кодер-декодера IW44 - то, что он позволяет оперативную декомпрессию/рендеринг области видимой в окне на экрана дисплея (и не больше), если например пользователь увеличивает какие-то фрагменты и балуется с панорамированием. Это позволяет сохранять изображения в сжатой форме в оперативной памяти клиентской машины и отображать больше изображения без требования чрезмерных объёмов памяти. Сканированные цветные и чёрно-белые документы в DjVu обычно занимают 30-100KB на страницу в 300dpi, что в 5-10 раз меньше чем JPEG и около 2-3 раз меньше чем MRC/T.44 или TIFF/FX. Цифровые документы с большим объёмом текста обычно в 1-3 меньше чем PDF или сжатый gzip'ом PostScript в 300dpi, но могут быть и значительно меньше если документ содержит изображения.
DjVu документы могут быть отображены через вэб браузер с помощью очень маленького plug-in'а (доступного для всех основных платформ). Всё в дизайне DjVu было оптимизировано чтобы уменьшить задержку между решением пользователя рассмотреть страницу и её отображением на экране. Многопоточная программная архитектура с умным кэшированием позволяет индивидуальным компонентам документа быть загруженными и преддекодированными по требованию. Страницы загруженные по требованию, дают произвольный доступ без предшествующей загрузки полного документа. Компоненты страницы (передний план, фоновые куски) загружаются последовательно и рендрятся отдельным потоком как только загрузка считается завершённой. Всё это даёт прогрессивный рендеринг и улучшает качество изображения. Страница, которая следует за страницей, в настоящее время отображаемой, предзагружена, преддекодирована и кэширована, посредством чего автоматически уменьшается задержка между перелистыванием страниц. Просмотрщик DjVu файлов обладает своим "независимым" графическим интерфейсом пользователя который позволяет быстро изменять масштаб изображения, панорамирование и зеркальное отражение страницы одним кликом мыши или нажатием клавиши на клавиатуре.
Передний слой может быть подвергнут OCR, а результат внедрён назад в файл DjVu как доступный для поиска уровень "скрытого текста". Существует и соответствующий инструментарий для извлечения такого текста и перевода его в ряд форматов, которые включают каждое слово с координатами его ограничивающего прямоугольника на странице. Форматы также включают структуру документа (страницы, столбцы, параграфы, строки, слова). Гиперссылки, аннотации, эскизы страниц и другие метаданные тоже могут быть внедрены в документы DjVu.
DjVu может рассматриваться как основная открытая платформа для обмена документами так как библиотека DjVu, включая многопоточный декодер/рендер, кодер IW44, кодер палеттизированного изображения, а также кодеры простых двутональных и цветных документов теперь являются свободным программным обеспечением доступным под GNU GPL и могут быть использованы как платформа для разработки новых кодеков, схем сегментации, механизмов передачи данных, интерфейсов просмотрщика и систем контент-анализа.
• Бумаги, примеры, тесты и цели доступы на http://www.djvuzone.org.
• Исходные коды доступы на http://djvu.sourceforge.net.
• Plug-in'ы, компрессоры, SDK и коммерческое программное обеспечение может быть найдено на http://www.djvu.com.
• Сервера которые способны конвертировать почти любой формат в DjVu доступы на http://openlib.djvuzone.org, http://bib2web.djvuzone.org и http://any2djvu.djvuzone.org.
DjVu как формат состоит как бы из целых четырёх технологий сжатия:
• DjVuPhoto (то есть IW44): это как вы уже наверное поняли как раз таки сжатие с потерей качества. Потери ощутимые и артефакты присутствуют, правда здесь главное найти золотую середину в настройках и тогда действительно можно получить изображение в несколько раз меньшее чем аналог в JPEG, да и опять же не забывайте про такие вещи как zooming, быструю загрузку (помните сжатое изображение в RAM?) всякое там разное сглаживание.
• DjVuBitonal (это JB2): здесь красота разумеется уже другая, красота жёстких линий, китайских иероглифов и индексированного изображения. И всё это удаётся сжать до невероятных размеров. Здесь выигрыш у PDF огромный.
• DjVuDocument: сам документ действительно делится на передний и задний слой. Передний как несложно догадаться JB2, а задний IW44.
• BZZ: это обычное подобие bz2 для "скрытого текста", очень полезная вещь.
Любопытное чудо в виде DjVuDocument которое бы мне вам хотелось показать наглядно на примере карты Ирака.
1212771488_1208719181_djvu_ira.png
Именно так выглядит обычный Багдад на обычной карте Ирака, в необычном DjVuDocument файле. Что собственно необычного? Ну мы же с вами проходили, помните? Передний план, фоновый план, а вот как это выглядит на деле.
1212771483_1208797692_fore_ira.png
1212771489_1208718134_back_ira.png
Несложно догадаться где передний, а где фоновый. Передний (первое изображение) сжат JB2 и содержит всё основное, фоновый (второе изображение) сжат IW44 и ничего важного не содержит. Более того, если вы обратили внимание он очень сильно сглажен/сжат, в общем то сделано это специально, для уменьшения размера. На обычном изображении где передний план накладывается на фоновый, данное сглаживание/сжатие не очень то и бросается в глаза, а вот если бы его не было, размер файла вырос бы в два, а то и три раза. Более того обратите внимание как DjVu самостоятельно определил где у изображения важные детали, а где второстепенные. Все эти его хваленные анализы действительно работают, чёрт побери, да ещё как работают. Ни одного названия, или даже символа не уехало на фоновый план.
При подготовке информаци использованы открытые источники сети Интернет.​
На мой взгляд лучшая на сегодняшний день программа для просмотра книг в djvu формате WinDjView-0.5 (русская версия)
WinDjView-0.5
А здесь находится архив в котором:
- Вышеописанные сведения (в формате PDF)
- Сведения по созданию книг в формате DjVu (в формате PDF)
- Пособие по Сканкромсатору (в формате PDF)
- Мануал по Сканкромсатору (в формате PDF)
- Инструкция ScanAndShare 1.07 с примерами (в формате PDF)
- ScanKramsator v 5.81 rus
- Office2DjVu (небольшое дополнение в Office 2007, позволяющее сохранять документы напрямую из Word в DjVu)
Rapidshare
Easy-share

Lizardtech DjVu Document Express Editor Pro 6.0.1 Build 1320 & Rus​
Одна из наиболее распространенных и корректно работающих программ для создания и просмотра DjVu-документов от правопреемника самого стандарта DjVu компании LizardTech - Document Express Editor. В Document Express Editor, можно открывать и конвертировать файлы следующих форматов: DjVu (*.djvu, *.djv), BMP (*.bmp), GIF (*.gif), JPEG (*.jpeg, *.jpg), PNM (*.pnm, *.ppm, *.pgm, *.pbm), TIFF (*.tiff, *.tif), PICT (*.pict). При сохранении файла программа предложит выбрать настройки: распознавать ли текст; профиль; разрешение (от 100 до 600 dpi); качество текста (возможны 5 уровней от «агрессивного», т.е. со значительной потерей качества до «без потери»), сохранять изображения каждое в отдельном или в виде единого файла. Имеется семь профилей настройки где пользователь сам выбирает тип документа, а программа автоматически подстраивается под этот тип изображения: «Нормальный»; «Электронный»; «Фото»; «Битональный»; «Рукопись» и «Карта». Этими настройками, как правило, можно добиться вполне приемлемого результата. После того, как настройки заданы, необходимо выбрать место на локальном диске для сохранения файла в формате DjVu. Программа Document Express Editor 6.0.1 умеет распознавать около 100 языков, в том числе и русский.
Разработчик : http://www.lizardtech.com
Рег. код : есть
Язык интерфейса : включая русский
Платформа : Microsoft Windows 98, ME, NT 4.0 SP 6, 2000 SP 4, XP SP1
Формат: exe/rar/54.8 Mb
Rapidshare
Еasy-share
 

Afina

New member
Joined
Sep 13, 2008
Messages
1
Reaction score
0
Location
Kirov
тока программ для просмотра этого формата на смартфонах мало.. что то никак не могу найти для симбиан
 

qawsed543

New member
Joined
Sep 26, 2008
Messages
1
Reaction score
0
Age
36
а можно книги Формата DjVu(ДеЖаВю) переделать в txt. у меня телефон только txt читает
 

Ognev

ex-Team DUMPz
Joined
Aug 20, 2018
Messages
2,104
Reaction score
902
Age
25
Вопрос сродни - а можно ли картинку переделать в текст. Можно - с помощью программ OCR, таких как FineRider, например. Хотя формат DjVu поддерживает текстовый слой и если он в файле есть, то его можно сохранить отдельно.
 

kum

Member
Joined
Feb 21, 2004
Messages
1,167
Reaction score
1,875
Из PDF как вычленить текст в Word?
Отвечу, хотя вопрос и не по теме:
1. необходимо наличие Adobe Acrobat Professional
Жмём: Файл/Сокранить как/выбираем в типе файла - Документ Microsoft Word (*doc)
2. необходимо наличие например ABBYY FineReader Professional Edition
Жмём: Открыть-находим документ на винчестере в формате PDF/распознаём/сохраняем как Документ Microsoft Word (*doc)
 

Ognev

ex-Team DUMPz
Joined
Aug 20, 2018
Messages
2,104
Reaction score
902
Age
25
Только текст из pdf-ок (если он там есть) можно сохранить практически любым просмотрщиком, например, Acrobat Reader: Файл -> Сохранить как текст.
 

alexpadal

Member
Joined
Jan 21, 2009
Messages
5
Reaction score
0
а вообще я только за дежавю - это страшно экономит размер!
 

swar-60

New member
Joined
Dec 3, 2008
Messages
1
Reaction score
0
Age
64
Перегонял журналы "Юнный Техник" в Дежавю. Всё бы хорошо. Только после 34 журнала сканер накрылся.
А формат действительно хороший, ёмкий и с файлами можно, что угодно делать. Хоть в *.doc , хоть в *.pdf перегоняй. Кстати такой поисковик, как Архивариус 3000, ищет в дежавю любой текст.
 

pazdak

Member
Joined
Aug 7, 2007
Messages
78
Reaction score
165
К сожалению остался не доволен данным форматом...
пытался сделать скан книги с цветными картинками с достаточно мелкими деталями на картинках.
Так вот в итоге все это хозяйство сохранил в PDF (конечно же в ущерб размеру, но не качеству), DJVU при этом размывал эти самые картинки пятнами, а если и удается достичь сносного результата, то размер был уже не такой и маленький по сравнению с PDF.
Для w/b сканов наверное это действительно вещь :5:
А так :bac:
 

Roman_ekb

Member
Joined
May 23, 2009
Messages
11
Reaction score
0
Age
41
с точки зрения экономии места, формат отличный!
 

esperz

Member
Joined
Jun 24, 2009
Messages
8
Reaction score
0
Age
50
Как сделать так чтобы он автоматом асоциировался со всеми книжкамив Djvu, а то постоянно этот эдитор приходится запускать в ручную !
 

-=Alex=-

Member
Joined
Jul 14, 2004
Messages
5
Reaction score
1
Age
51
Location
Kiev, Ukraine
Website
i.org.ua
Как сделать так чтобы он автоматом асоциировался со всеми книжкамив Djvu, а то постоянно этот эдитор приходится запускать в ручную !
попробуй через правую кнопку в Эксплорере на файле проставить ассоциацию.
 

cartinka

Banned
BANNED
Joined
Sep 17, 2009
Messages
5
Reaction score
0
дежавюкниги рулят - вес просто радует. минус - не открываются пока что на мобильных телефонах
 

parampa

New member
Joined
Nov 2, 2009
Messages
4
Reaction score
0
Я пользовалась неоднократно им - когда журналы из сети скачивала. Вполне удобная штука.
 

Papyruslv

Member
Joined
Jan 14, 2010
Messages
12
Reaction score
0
Age
41
Крайне не доволен таким ридером из-за неудобства навигации, ну и интерфейс не нравится!
 

viz71

Member
Joined
Jul 22, 2010
Messages
6
Reaction score
1
отличный формат для книг и руководств по эксплуатации, какой програмулей можно перегнать из pdf в Djvu, есть мануалы по ремонту Мазда MPV 1999-2001 и 2002-2006 в pdf больно много весят по 300-400 метров

Добавлено через 12 минут
К сожалению остался не доволен данным форматом...
пытался сделать скан книги с цветными картинками с достаточно мелкими деталями на картинках.
Так вот в итоге все это хозяйство сохранил в PDF (конечно же в ущерб размеру, но не качеству), DJVU при этом размывал эти самые картинки пятнами, а если и удается достичь сносного результата, то размер был уже не такой и маленький по сравнению с PDF.
Для w/b сканов наверное это действительно вещь :5:
А так :bac:

Для ч/б книжного исполнения и расчитан формат, а картинки можно и отдельно вставлять в другом формате:D
 
Last edited by a moderator:

kum

Member
Joined
Feb 21, 2004
Messages
1,167
Reaction score
1,875
какой програмулей можно перегнать из pdf в Djvu
Pdf2DjVu Portable
Часть триального пакета DEE 5.1. Это по сути конвертер для прямого преобразования Pdf -> DjVu. Внутри есть хелп. Портабельная версия.
 
Status
Not open for further replies.
Top