О проекте
Чем помочь
Чем делать
Делается
@контакты
Как делать

Естественно, вряд ли можно всё необходимое объять сразу, так что, в ходе работы проясним - при задавайте технологические вопросы на форуме, в этой ветке.

DjVu

Сейчас по djvu довольно много материалов в сети (вот для затравки), так что я буду узок. В 9-й версии Файнридера (по-моему, с 662-й сборки) появилась возможность напрямую импортировать файлы djvu в Файнридер для распознавания, наподобие PDF файлов. Но, поскольку 9-я версия ФР есть не у всех, а импорт djvu в Файнридер - лишь одна из задач, я распишу цепочку, как сделать djvu с текстовым слоем, в общем, сборка-разборка djvu.

1. Потрошение DjVu

Надо открыть программу DjVuOCR 2.3, нажать кнопку Декодирование DjVu файла и в открывшемся окне добавить файлы, которые надо распотрошить, указать, куда сохранять картинки, в каком формате, и т. д. То есть, выставить необходимые параметры, и нажать кнопку Обработать. А с получившимися картинками можно делать, что угодно, в т. ч. вставит их в Файнридер.

2. Создание OСR-слоя в существующем DjVu

Тут есть нюанс - можно внедрить текстовый слой в уже имеющийся файл DjVu, тот, который вы распотрошили на картинки. Для этого надо в той же программе DjVuOCR нажать кнопку Ручной режим OCR manager, а там проставить пути. Папка с проектом FineReader - к пакету ФР, Результат OCR в TXT файл - тут можно прописать любой файл, а если вы обрабатываете несколько книг, то можно перезаписывать один и тот же. Создать DjVu файл - выбрать тот DjVu файл, который был распотрошён. Нажимаете кнопку Обработка, и через некоторое время изначальный DjVu файл превратится в DjVu файл с текстовым слоем. Но могут быть проблемы. 1. Вы потрошите DjVu файл, загоняете картинку в Файнридер, распознаёте, но если вы удалите какие-нибудь страницы в этой пакете, либо если в DjVu книжка была сделана разворотом, а вы порежете её на отдельные страницы, то есть - если будут какие-то изменения по сравнению с DjVu файлом, то ничего не выйдет. Поэтому, если вы хотите вставлять текстовый слой в существующие DjVu файлы, следите за соответствием.

3. Создание OСR-слоя в новом DjVu

Чтоб ни о чём заботиться, надо создавать DjVu из пакета Файнридера. Для этого следует из открытого пакета с распознанными и готовыми страницами, экспортировать куда-нибудь изображения (Процесс / Сохранить результаты / Сохранить изображения или попросту Ctrl+Alt+S), выбрать Сохранить страницы - Все, формат - TIFF, серый, Packbits. Ну, и из полученных картинок создать DjVu той программой, которой вам это удобнее делать (я использую Document Express 5.1.0). А потом уже в этот DjVu файл внедрить OCR слой, как это описано выше. В этом случае можно как угодно изменять структуру старого DjVu перед распознаванием.

OCR слой можно внедрять и в книги со старой, до 1918 г. орфографией, но поиск будет ограничен, т. к. OCR слой - это простой текст, и яти с фитами в нём не отображаются.

Cайт сделал Hoaxer в марте 2001 г. Переделал 5.II.2002 г. Доделал 5.X.2002 г. Обновил 3.I.2004. Реформировал 1.IV.2009. Улучшил 12.I.2012. Новая версия запущена 20.01.2014. Яндекс.Метрика