О проекте
Чем помочь
Чем делать
Делается
@контакты
Как делать

Естественно, вряд ли можно всё необходимое объять сразу, так что, в ходе работы проясним - при задавайте технологические вопросы на форуме, в этой ветке.

Распознавание

1. Ввод сканов. Это если вы сперва отсканировали книгу не в Файнридере, и теперь надо эти сканы в ФР экспортировать. Если вы сканировали две страницы за один проход (разворот), чтобы была возможность проставить нумерацию страниц, надо, чтобы при экспорте сканов в Файнридер стояла функция Делить разворот книги. (В 8-й версии Файнридера, например, это Опции / Общие / Дополнительные опции).

Ну а если вы за однин проход сканировали одну страницу, или не хотите разбивать разворот на две страницы (например, делаете текстовый djvu из пакета), то эту опцию уберите, а то Файнридер может порезать страницы в самых неожиданных местах. Если при вводе поделить разворот на 2 страницы не получилось (такое бывает), это можно сделать в самом Файнридере (с 8-й версии), как и обрезать лишнее у страниц. Если возможности позволяют (место на дисках имею в виду я), то при вводе уберите флажок с опции Приводить изображение к ч/б - вставляйте серое или цветное, это значительно повышает качество распознавания.

2. Расстановка блоков. Если вёрстка в книге простая, не многоколоночная, без картинок среди текста (т.е. это обычная книга - мемуары, проза и т.д. ), то отдельно блоки расставлять нет смысла, сразу надо распознавать. Блоки надо расставить до распознавания, если вёрстка сложная. Дело вот в чём. Как правило в книгах со сложной вёрсткой не все блоки корректно расставляются (ненужный текст на картинках, картах, колонтитулах определяется для распознавания, две колонки определяются как одна и т.п.) и после распознавания приходится просматривать их все, поправлять, и т.д. Потом надо будет перераспознавать. Если же вы сперва расставите блоки и проверите их, удалите ненужное, а потом сразу всё распознаете, сэкономите время.

3. Распознавание. Сперва выберите языки распознавания. Имеет смысл по умолчанию поставить 4 языка: русский, английский, немецкий и французский (на тот случай, если вдруг попадутся буквы с умляутами и апострофами).

Если книга в старой русской орфографии (до 1918 г.), надо выбрать русский (старая орфография) + русский. Это сочетание даёт, в большинстве случаев, лучшее качество распознавание, особенно на книгах, изданных в конце XIX - нач. XX вв., в которых гарнитуры практически не отличаются от современных.

Порою есть смысл распознавать с обучением (или с использованием пользовательского эталона). Чтобы создать свой эталон, вначале нужно обучить программу. Например, если сканируются книги одного издательства, одной серии, оформленные одной гарнитурой (те же военные мемуары) - обучение целесообразно (чтобы из-за холма показывались не 'тапки врага', а 'танки врага'). Эта опция особенно полезна для работы с книгами в старой орфографии.

Что касается распознавания PDF файлов, в Файнридере есть функция Извлечь текст из PDF, которая позволяет, если PDF был сохранён как текстовый, очень быстро 'распознать'. Но иногда PDF файлы случаются в неудобочитаемой кодировке, бывают проблемы со шрифтами, с вёрсткой таблиц, с тегами и пр., так что иногда удобнее поставить функцию Распознать PDF как изображение. Зависит от состояния файла PDF. В любом случае советую сперва расставить блоки, выбрав опцию Распознать PDF как изображение, даже если потом будете выберете для распознавания Извлечь текст из PDF, т. к. бывает, что при этой опции блоки расставляются некорректно, особенно если шрифт моноширинный.

Бывают книги, в которых есть врезки (подглавки, подразделы), которые обтекаются основным текстом. Такие страницы, как правило, плохо распознаются, либо же требуется вручную расставлять блоки. Однако, если это pdf, и там имеется распознанный текст, то имеет смысл сперва поставить флажок Распознавать PDF как изображение, потом расставить блоки (не распознавая), потом поставить флажок на Извлечь текст из PDF-документа, и после этого уже распознавать.

4. Сохранение. Сохранять оптимально в RTF, все страницы в один файл, без сохранения картинок. Поскольку полученный файл предназначается для дальнейшей правки (а не будет использоваться как есть), то нужно выбрать Оформление: таблицы, абзацы, шрифты, т.е. чтобы осталось минимальное форматирование от оригинала.

Если книга распознаётся из PDF (извлекается текст), то смело можно ставить флажок: Удалять мягкий перенос, и не сохранять разбиение на строки.

Но в большинстве случаев, когда книга отсканирована, распознаётся как изображения, нужно сохранять деление на страницы (если будет проставляться нумерация страниц). Оформление: таблицы, абзацы, шрифты. Сохранять деление на строки. В общем, вот:

Для чего надо сохранять деление на строки - чтобы в словах, в которых принудительно расставлен перенос не было дефисов. Дело в том, что при вёрстке книги программа расставляет т. н. мягкие переносы, разбивающие слова на слоги, и слово переносится в этих местах на другую строку. Но некоторых слов (обычно это имена собственные: фамилии, названия населённых пунктов и т. п.) нет в словарях верстальных программ, и мягкие переносы в них, соответственно, не расставляются. Чтобы справиться с неудобной строкой, некоторые верстальщики ставят в таких словах жёсткие переносы - обычные дефисы. Само собой, если книга версталась до того, как появились DTP-программы, набор её был ручным, и в этом случае, поставив в Файнридере опцию 'убрать мягкие переносы' (либо убрав их в Ворде), вы всё равно увидите посредине строки слово с дефисом внутри: ведь оно теперь не стоит на краю строки, ибо вёрстка порушилась. Поэтому, чтобы не забивать голову этими проблемами, сохраняйте разбиение на строки, а потом макрос mLINES всё корректно склеит.

Cайт сделал Hoaxer в марте 2001 г. Переделал 5.II.2002 г. Доделал 5.X.2002 г. Обновил 3.I.2004. Реформировал 1.IV.2009. Улучшил 12.I.2012. Новая версия запущена 20.01.2014. Яндекс.Метрика