О проекте
Чем помочь
Чем делать
Делается
@контакты
Как делать

Естественно, вряд ли можно всё необходимое объять сразу, так что, в ходе работы проясним - при задавайте технологические вопросы на форуме, в этой ветке.

PDF

Что касается распознавания PDF файлов, в Файнридере есть функция Извлечь текст из PDF, которая позволяет, если PDF был сохранён как текстовый, очень быстро 'распознать'. Но иногда PDF файлы случаются в неудобочитаемой кодировке, бывают проблемы со шрифтами, с вёрсткой таблиц, с тегами и пр., так что иногда удобнее поставить функцию Разпознать PDF как изображение. Зависит от состояния файла PDF.

А если делать PDF, в котором текст подложен под картинку, получится, конечно неплохо - в отличие от DjVu, где в качестве OCR слоя рабтает простой текст, в связи с чем не отображаются нестандартные символы, в PDF и эти символы, и форматирование, останутся (это если правильно всё сделать), плюс будет сама олригинальная страница, с которой можно свериться, можно исправить по ней ошибки, ну и вообще, это как-то аутентичнее смотрится. Но у такого файла есть недостаток - он велик, по сравнению с DjVг может быть больше на порядок.

Так что, если книга без изысков, обычный текст, то лучше сохранять её в Djvu + текстовый слой.

Cайт сделал Hoaxer в марте 2001 г. Переделал 5.II.2002 г. Доделал 5.X.2002 г. Обновил 3.I.2004. Реформировал 1.IV.2009. Улучшил 12.I.2012. Новая версия запущена 20.01.2014. Яндекс.Метрика