18 января 2002
102

НОЯБРЬСКИЕ ТЕЗИСЫ О СКАНИРОВАНИИ



ПОЛНЫЙ ТЕКСТ И ZIР НАХОДИТСЯ В ПРИЛОЖЕНИИ

Максим Бычков, Григорий Кудрявцев.

Ноябрьские тезисы о сканировании


Еmаil: bmn@gоsrеg.аdm.yаr.ru
Dаtе: 10 Nоv 2000


Материалы этой страницы будут регулярно пополняться. Опытом ОСR
делятся Максим Бычиков и Григорий Кудрявцев, у них на счету - ПСС Шекспира,
Стейнбека, Диккенс, ... всего около 60Мб подготовленных и вычитанных
электронных текстов.

Установки сканера по яркости

Если материал представлен в виде качественной (желательно высокой)
печати шрифтом 10 и более пунктов, то сканирование в разрешении 300 точек с
ручной установкой яркости дает более чем приемлемые результаты. Количество
ошибок на лист А4 стремится к нулю и колеблется в районе 1-5 неправильно
распознанных знаков. Установку яркости можно подобрать опытным путем, сводя
к минимуму помехи в виде рассыпанной по листу `сыпи`, но в основном, яркость
на уровне 42-45% обеспечивает хорошее качество распознавания.

Особо следует отметить ситуацию при сканировании некоторых печатных
изданий изданных в 40-е-60-е годы, в частности это касается многих собраний
сочинений изданных в это время. Несмотря на качественную печать,
использование сложных `многозавитушечных` шрифтов вводит программу
распознавания в искус придумать какое-то свое толкование некоторых знаков,
что существенно снижает качество получаемого текста. Частично разрешить
проблему позволяет повышение разрешения до 400 точек на дюйм - ошибок
становиться заметно меньше. Однако дальнейшее увеличение разрешения не дает
прироста точности распознавания. (Можно поробовать распознавание с
обучением, но это во первых долго и муторно, а во вторых, субъективно, не
дает заметного увеличения качества распознавания)

При сканировании книг с небольшим внутренним полем и `не раскрывающихся
до конца` в клееном переплете приходиться использовать автоматический подбор
яркости чтобы избежать затемнения в области переплета. Однако автоподбор
яркости снижает скорость прохода сканера и отнюдь не способствует лучшему
распознаванию областей текста не лежащих в затемненной части, поэтому лучше
избегать сканирования с автоматическим подбором, кроме самых крайних случаев
(особой ценности издания, и особой узости внутренних полей). (Книжка обычно
после этого становится загубленной.)

К сканированию с разрешением 600 точек на дюйм следует прибегать только
в случаях если оригинал напечатан шрифтом 9 и меньше пунктов.


Махim mаiltо:bmn@gоsrеg.аdm.yаr.ru


Продолжение следует


О сканерах

Сканнер Fujitsu М4097D. 30-40 страниц в минуту на автоподаче. Стоит около $10к
httр://www.fсра.соm/рrоduсt/рrd_рrоduсt_frаmе.html
httр://www.bаnсtес.соm/Рrоduсts.СFМ?Рrоduсts__IDNumbеr=36

ПОЛНЫЙ ТЕКСТ И ZIР НАХОДИТСЯ В ПРИЛОЖЕНИИ
Рейтинг всех персональных страниц

Избранные публикации

Как стать нашим автором?
Прислать нам свою биографию или статью

Присылайте нам любой материал и, если он не содержит сведений запрещенных к публикации
в СМИ законом и соответствует политике нашего портала, он будет опубликован