to OCR or not to OCR

C

cwiz

Многоуважаемый all, предлагаю отказаться от OCR.
Дело в том, что отсканировать средний томик в грейскейле в р-ии 300dpi занимает не больше полутора часов. А вот OCR'ить гораздо сложнее — велико число ошибок разпознавателя, чтобы от них избавиться приходится делать по 2-3 прохода. Врему уходит на очистку от артефактов, следов пылинов и т.д.
Так вот, предлагаю отказаться от OCR'а в пользу png или djvu. Вы тратите меньшн времени, нам удобее и легче читать. Те кому книга понравится могут сделать КАЧЕСТВЕННЫЙ OCR и поделиться с нами. Посмотри на всякие DDU, LiB — они выкладывают либо полный, хороший OCR книжек, либо вообще книги без OCR. До качественного OCR'a русского текста требуется много опыта и времени, что врядли выполнимо. Итак, кто за отмену OCR'a в пользу DJVU, png, etc?
 

Ashcraft

Member
Joined
Jul 17, 2004
Messages
39
Reaction score
0
Age
46
Не согласен насчет "нам удобнее и легче читать". Я лично большинство закачиваемых книг читаю с КПК. Читать на КПК image-based форматы (djvu, png иже с ним) невозможно (теоретически, конечно, возможно, но чертовски геморройно). Если же читаю на компьютере, то чтение при помощи, скажем, ICE book reader с включенной автопрокруткой все равно удобнее, чем перевигать страницу мышой.

P.S. Все сугубо IMHO
 
C

cwiz

Зато не придётся догадываться что имелось ввиду из-за кривого Ocr.
Вобщем-то есть 2 вариант : или хорший Ocr или вообще без оного.
 

Egoizte

ex-Team DUMPz
Joined
Jun 23, 2004
Messages
783
Reaction score
217
Age
40
Location
Сегодня ЗДЕСЬ, а завтра ТАМ
cwiz said:
...или хорший Ocr или вообще без оного.
Правильно, меня например очень раздражает когда в тексте много ошибок, а вот хороший OCR сделать непросто, придется поработать.
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Ну я лично предпочёл бы подождать лишнее время, но получить в итоге книгу с хорошим OCR. Дело в том, что djvu это хорошо, но поскольку это картинки, то текст не скопируешь - надо самому страницу выдирать и распознавать. А часто (если научную литературу изучаешь) требуется именно скопировать кусок текста или картинку.
И вообще, очень раздражает, когда отсканированные листы идут под разным углом. То с наклоном влево, то вправо.

Да и распечатывать текст (из pdf, chm) гораздо удобнее и на листе выглядит лучше (я часто книги распечатываю)
 

Brainman

Member
Joined
Nov 2, 2004
Messages
142
Reaction score
2
Age
56
Location
Samara reg.
Msha said:
И вообще, очень раздражает, когда отсканированные листы идут под разным углом. То с наклоном влево, то вправо.
Вообще-то это проблема не формата хранения данных, а проблема изготовителя скана ;) (сам иногда делал криво, пока не познакомился со Scankromsator'ом). Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок. Кстати, никто не мешает к djvu добавлять вторым слоем OCR, тогда проблем с копированием текста не возникает, а возможные неточности OCR можно исправить - ведь оригинальный текст перед глазами :)
 

Meshuger

Member
Joined
Dec 8, 2004
Messages
181
Reaction score
29
Age
56
Location
SPb
Brainman said:
Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок.
Эт только в плохих pdf. В нормальных - текст в формате текста, картинки - в формате картинок. (Чем и ценятся) Так что все (как обычно) зависит от компетентности изготовителя.
 

Msha

ex-Team DUMPz
Hacker
Professional Carder
Joined
Oct 12, 2014
Messages
7,156
Reaction score
2,481
Вообще-то это проблема не формата хранения данных, а проблема изготовителя скана (сам иногда делал криво, пока не познакомился со Scankromsator'ом). Что касается копирования текста, для его дальнейшей вставки, так такая же проблема и с pdf - там текст тоже в виде картинок. Кстати, никто не мешает к djvu добавлять вторым слоем OCR, тогда проблем с копированием текста не возникает, а возможные неточности OCR можно исправить - ведь оригинальный текст перед глазами

Ну я понимаю, что это не проблема формата. Но к сожалению мало кто сканирует каечственно и следит за углом, под которым располагается книга.

Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.

PDF-формат вообще-то также может содержать и текст. В него картинки запихивать не целесообразно, они меньше места занимают в DjVu. А вот текст, наоборот.
 

Baka

Member
Joined
Nov 17, 2004
Messages
8
Reaction score
0
Msha said:
Ну я понимаю, что это не проблема формата. Но к сожалению мало кто сканирует каечственно и следит за углом, под которым располагается книга.

Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.

PDF-формат вообще-то также может содержать и текст. В него картинки запихивать не целесообразно, они меньше места занимают в DjVu. А вот текст, наоборот.

Вообще-то djvu, содержащий OCR слой с виду ничем не отличается от обычного, просто текст есть - для поиска, и когда найдено слово выделяется фрагмент страницы, содержащий это слово. А если печатать, то либо пофигу, что страницы немного под разными углами, либо проще самому через skancromsator прогнать выделенные страницы.
 

Brainman

Member
Joined
Nov 2, 2004
Messages
142
Reaction score
2
Age
56
Location
Samara reg.
Meshuger
Эт только в плохих pdf. В нормальных - текст в формате текста
Вот и опять пришли к тому же - к качественному OCR. Ведь текст там не сам появляется ;)


Msha
Если делать в два слоя, то, как я понимаю один накладывается на другой. причём в оригинальном тексте интервал и размер шрифта одни, а в распознаном другой. Это ещё больший геморой, чем просто распознать и проверить.
Если распознавание тескта проводится FineReader'ом, и если текст потом в скане не править, то расположение будет один к одному. (Проверено на FineReader версии 7.0, про другие не скажу - не пробовал).
 
Last edited by a moderator:

Meshuger

Member
Joined
Dec 8, 2004
Messages
181
Reaction score
29
Age
56
Location
SPb
Brainman said:
Вот и опять пришли к тому же - к качественному OCR. Ведь текст там не сам появляется ;)
Всеми руками за! Качество и еще раз качество! Я и бОльше скажу - вообще мало что самО появляется! всюду надо руки/голову приложить, чтобы нечто пУтное получилось.
 

Shish

New member
Joined
May 7, 2005
Messages
1
Reaction score
0
Age
88
Location
Санкт-Петербург
А проблема, ребята, совсем в другом - надо просто общими усилиями (а нас -компьютерщиков - скоро станет почти миллиард) постепенно переводить ВСЁ культурное достояние человечества в цифровую форму. Что-то будет сделано лучше, что-то хуже, но специфика ИТ, в отличии от старых технологий, заключается в том, что позволяет вносить изменения на любом этапе. Сравните обычную пишущую машинку и самый примитивный текстовый редактор. А уж о мультиедийных средах я и не говорю, когда на одном носителе можно записать ВСЕ виды инфформации.
 

Yoxel

Member
Joined
Aug 11, 2005
Messages
44
Reaction score
25
Website
primus.mylivepage.com
Для меня OCR имеет смысл, если конечно абстрагироваться от размера файла, для литературы, с которой нужно РАБОТАТЬ а не ЧИТАТЬ. Например для справочной литературы, энциклопедий и т.д.
Для простого чтения мне формат абсолютно ортогонален.
 
Top