to OCR or not to OCR

cwiz · Feb 10, 2005

Многоуважаемый all, предлагаю отказаться от OCR.
Дело в том, что отсканировать средний томик в грейскейле в р-ии 300dpi занимает не больше полутора часов. А вот OCR'ить гораздо сложнее — велико число ошибок разпознавателя, чтобы от них избавиться приходится делать по 2-3 прохода. Врему уходит на очистку от артефактов, следов пылинов и т.д.
Так вот, предлагаю отказаться от OCR'а в пользу png или djvu. Вы тратите меньшн времени, нам удобее и легче читать. Те кому книга понравится могут сделать КАЧЕСТВЕННЫЙ OCR и поделиться с нами. Посмотри на всякие DDU, LiB — они выкладывают либо полный, хороший OCR книжек, либо вообще книги без OCR. До качественного OCR'a русского текста требуется много опыта и времени, что врядли выполнимо. Итак, кто за отмену OCR'a в пользу DJVU, png, etc?

Ashcraft · Feb 12, 2005

Не согласен насчет "нам удобнее и легче читать". Я лично большинство закачиваемых книг читаю с КПК. Читать на КПК image-based форматы (djvu, png иже с ним) невозможно (теоретически, конечно, возможно, но чертовски геморройно). Если же читаю на компьютере, то чтение при помощи, скажем, ICE book reader с включенной автопрокруткой все равно удобнее, чем перевигать страницу мышой.

P.S. Все сугубо IMHO

cwiz · Feb 12, 2005

Зато не придётся догадываться что имелось ввиду из-за кривого Ocr.
Вобщем-то есть 2 вариант : или хорший Ocr или вообще без оного.

Egoizte · Feb 14, 2005

cwiz said:
...или хорший Ocr или вообще без оного.

Правильно, меня например очень раздражает когда в тексте много ошибок, а вот хороший OCR сделать непросто, придется поработать.

Msha · Feb 14, 2005

Ну я лично предпочёл бы подождать лишнее время, но получить в итоге книгу с хорошим OCR. Дело в том, что djvu это хорошо, но поскольку это картинки, то текст не скопируешь - надо самому страницу выдирать и распознавать. А часто (если научную литературу изучаешь) требуется именно скопировать кусок текста или картинку.
И вообще, очень раздражает, когда отсканированные листы идут под разным углом. То с наклоном влево, то вправо.

Да и распечатывать текст (из pdf, chm) гораздо удобнее и на листе выглядит лучше (я часто книги распечатываю)

Brainman · Feb 18, 2005

Msha said:
И вообще, очень раздражает, когда отсканированные листы идут под разным углом. То с наклоном влево, то вправо.

Вообще-то это проблема не формата хранения данных, а проблема изготовителя скана

(сам иногда делал криво, пока не познакомился со Scankromsator'ом). Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок. Кстати, никто не мешает к djvu добавлять вторым слоем OCR, тогда проблем с копированием текста не возникает, а возможные неточности OCR можно исправить - ведь оригинальный текст перед глазами

Meshuger · Feb 19, 2005

Brainman said:
Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок.

Эт только в плохих pdf. В нормальных - текст в формате текста, картинки - в формате картинок. (Чем и ценятся) Так что все (как обычно) зависит от компетентности изготовителя.

Msha · Feb 20, 2005

Вообще-то это проблема не формата хранения данных, а проблема изготовителя скана (сам иногда делал криво, пока не познакомился со Scankromsator'ом). Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок. Кстати, никто не мешает к djvu добавлять вторым слоем OCR, тогда проблем с копированием текста не возникает, а возможные неточности OCR можно исправить - ведь оригинальный текст перед глазами

Ну я понимаю, что это не проблема формата. Но к сожалению мало кто сканирует каечственно и следит за углом, под которым располагается книга.

Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.

PDF-формат вообще-то также может содержать и текст. В него картинки запихивать не целесообразно, они меньше места занимают в DjVu. А вот текст, наоборот.

Baka · Feb 22, 2005

Msha said:
Ну я понимаю, что это не проблема формата. Но к сожалению мало кто сканирует каечственно и следит за углом, под которым располагается книга.

Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.

PDF-формат вообще-то также может содержать и текст. В него картинки запихивать не целесообразно, они меньше места занимают в DjVu. А вот текст, наоборот.

Вообще-то djvu, содержащий OCR слой с виду ничем не отличается от обычного, просто текст есть - для поиска, и когда найдено слово выделяется фрагмент страницы, содержащий это слово. А если печатать, то либо пофигу, что страницы немного под разными углами, либо проще самому через skancromsator прогнать выделенные страницы.

Brainman · Feb 26, 2005

Meshuger

Эт только в плохих pdf. В нормальных - текст в формате текста

Вот и опять пришли к тому же - к качественному OCR. Ведь текст там не сам появляется

Msha

Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.

Если распознавание тескта проводится FineReader'ом, и если текст потом в скане не править, то расположение будет один к одному. (Проверено на FineReader версии 7.0, про другие не скажу - не пробовал).

Meshuger · Feb 26, 2005

Brainman said:
Вот и опять пришли к тому же - к качественному OCR. Ведь текст там не сам появляется

Всеми руками за! Качество и еще раз качество! Я и бОльше скажу - вообще мало что самО появляется! всюду надо руки/голову приложить, чтобы нечто пУтное получилось.

Shish · Dec 22, 2005

А проблема, ребята, совсем в другом - надо просто общими усилиями (а нас -компьютерщиков - скоро станет почти миллиард) постепенно переводить ВСЁ культурное достояние человечества в цифровую форму. Что-то будет сделано лучше, что-то хуже, но специфика ИТ, в отличии от старых технологий, заключается в том, что позволяет вносить изменения на любом этапе. Сравните обычную пишущую машинку и самый примитивный текстовый редактор. А уж о мультиедийных средах я и не говорю, когда на одном носителе можно записать ВСЕ виды инфформации.

Yoxel · Dec 24, 2005

Для меня OCR имеет смысл, если конечно абстрагироваться от размера файла, для литературы, с которой нужно РАБОТАТЬ а не ЧИТАТЬ. Например для справочной литературы, энциклопедий и т.д.
Для простого чтения мне формат абсолютно ортогонален.

to OCR or not to OCR

cwiz

Ashcraft

Member

cwiz

Egoizte

ex-Team DUMPz

Msha

ex-Team DUMPz

Brainman

Member

Meshuger

Member

Msha

ex-Team DUMPz

Baka

Member

Brainman

Member

Meshuger

Member

Shish

New member

Yoxel

Member