|
|
От
|
amyatishkin
|
|
|
К
|
ZaReznik
|
|
|
Дата
|
09.09.2003 20:11:15
|
|
|
Рубрики
|
1936-1945 гг.;
|
|
Советы по сканированию
Советы по сканированию
Скорость сканирования у меня на сканере c LPT интерфейсом на книге с размером страниц 200х125 мм составляет примерно 35 с на разворот (среднее, компьютеры РI-150, Celeron-400, выше). На других типах сканеров и компов может быть и быстрее.
Программа — Fine Reader 4, 5, 6. Пятый-шестой лучше по качеству работы и может делить страницы.
Настройки:
Сканирование/открытие: Интерфейс Fine Reader, страницы не делить, яркость программно, горизонтальное расположение, не останавливаться, 300 dpi. На очень крупных шрифтах может прокатить и 200, но это как в детской книжке, на мелких лучше сделать 400. В среднем сканирование займет 1/3 времени обработки – так что сами решайте, на чем можно сэкономить.
Книга в Fine Reader сканируется так:
Несколько страниц из середины по одной для установки яркости (она сама установиться) и полей (вручную, надо захватить без обрезов страниц, чем меньше – тем быстрее сканирование). При перерывах мне каждый раз приходиться делать 1-2 холостых прогона для прогрева лампы – на других сканерах может быть все по другому.
Можно заодно оценить качество печати. При хорошем качестве выходит порядка 2-3 ошибок на страницу. Плохо сканируются Fine Reader’ом книги на серой бумаге (плохо выравнивается яркость при проходе внутренних полей) и наоборот – на белой бумаге (текст просвечивает насквозь). Такие рассмотрим отдельно.
Потом окно Fine Reader располагается так, чтобы был нормально видно качество отсканированного разворота.
Одной рукой прижимаем книгу и присматриваем за качеством сканирования. Постепенно достигается автоматизм: сканер заканчивает проход — книга перелистывается. Книга в твердой обложке прижимается, в основном, за заднюю крышку. Давить стараться кистью – а то пальцы начнут загибаться наружу. Необходимо продавливать сгиб так, чтобы черная полоса не доходила до текста. Если одна-две страницы слегка подпортятся — не беда, если же дело серьезнее, надо тут же отсканировать еще раз, изменив прижим. На книгах с серой бумагой может получиться так, что лучше слегка не додавить – тогда лучше обработаются внутренние поля. Как-то при обработке такой книжки я приклеил полоску изоленты к стеклу напротив сгиба. В принципе, если черная полоса таки дошла до текста, но не захватила букв – это еще можно пропустить.
После окончания сканирования пакет сохраняется, создаем новый пакет, включаем в опциях деление страниц и добавляем изображения из отсканированного пакета. Потом изменяем нумерацию страниц, чтобы совпала с реальной, и делаем проверку на недостающие/лишние страницы. Достаточно идти с шагом страниц в 20 и проверять соответствие номеров, при отклонении — подгонять.
На выходе имеем пакет, где один файл — одна страница с тем же номером.
Если Fine Reader не справляется с белой или серой бумагой, или в книге схемы на каждой второй странице, а фотографии – на каждой первой, то приходиться сканировать в Grayscale. Вообще же при сканировании в Grayscale качество выходит получше.
Сканирование производиться через драйвер сканера, я при этом использую программу ACDSee версии 3.1 и выше. Она может автоматом нумеровать отсканированные рисунки. Опции: Acquire Setup – название файла хотя бы с 3 цифрами, формат несжатый TIFF с 300 dpi.
Потом Acquire – и пошли сканировать. Под страницы с рисунками лучше подкладывать что-то черное по размеру страницы – чтоб не просвечивало. Подойдет пара листков цветной черной бумаги.
Скорость выходит поменьше, чем при работе в Fine Reader, и сильнее зависит от системы, требуется много места (~150 страниц – 1 Gb), приходиться каждый раз жать кнопку на мышке или клавишу, полученные файлы приходиться обрабатывать перед Fine Reader’ом.
Чтобы не размениваться по пустякам, для обработки таких файлов воспользуемся Фотошопом.
Пакетная обработка:
1) поворачиваем по часовой на 90 град.
2) Режем на четные /нечетные страницы (два прохода с сохранением в разные каталоги). Без этого можно обойтись, но потом проще работать с рисунками.
3) Через ACDSee переименовываем так, чтобы страницы пошли правильно, например к нечетным справа добавляем что-нибудь. Переписываем все в один каталог и переименовываем для совпадения нумерации с реальной. Проверяем наличие отсутствия пропущенных страниц.
4) Для серой бумаги: В Fine Reader делаем новый пакет, опции: страницы не делить, серые приводить к ч/б. Загоняем в него изображения. Все готово.
5) Для белой бумаги: берем страницу, лучше из середины, через «кривые» в Фотошопе делаем белые места белее, а черные – чернее. В основном требуется убрать просвечивающие через бумагу строчки. Хороший результат дает щелчок по «Авто» и ручной подгон белого. Сейчас посмотрел последний использованный макрос: 52/0 и 194/255. Можно сделать несколько вариантов, загоняя каждый в Fine Reader и проверяя количество ошибок при распознавании. Лучшим из полученных обрабатываем пакет, разумеется, сохраняя все в другой каталог – чтобы была возможность отката. Потом см. пункт 4).
Советы по распознаванию и DjVu будут потом.
- !!! (-) - Игорь~ 09.09.2003 23:55:08 (15, 0 b)