Здравствуйте!
А с русским что? Он хотя бы выделяется?
Плагин я думаю один на всех. Но мне как-то надо было сделать реферат по математике.
Была книга в бумажном виде, была она же в формате djvu. Весь материал пришлось
или
набирать или сканировать, из djvu я так ничего и не достал, хотя упорно пытался;-).
Откуда такие сведения? Как-то не очень во все это вериться.
Проблема распознавания по-моему не из простых, так что решать ее
в рамках этих программ и накладно, да и бессмысленно как-то.
Даже FineReader не распознает безошибочно, значит из Акробата
текст тоже с ошибками копироваться будет? И почему тогда
именно спец. форматы? Берем файл любого графич. формата (.tiff, .jpg)
и пусть с него текст и распознает ;-)). Все так просто становиться.
Вот было мнение о том, что текст перед созданием .djvu уже был распознан
и потому доступен. Это гораздо больше походит на правду.
С уважением,
Дмитрий.
--
Дискуссионный лист "Электронная книга"
Модератор - Михаил Духонин <mihail_***@m*****.ru>
Перед вами 2118 выпуск листа, разошедшийся для 661 человек.
Постоянный адрес выпуска этого письма в архиве -
http://subscribe.ru/archive/lit.book.library.ebookaccess/msg/176825
-*Информационный канал Subscribe.Ru
Написать в лист: mailto:lit.book.library.ebookaccess-list@subscribe.ru
Отписать : mailto:lit.book.library.ebookaccess--unsub@subscribe.ru
http://subscribe.ru/ mailto:ask@subscribe.ru
Доброй ночи, Рожанский.
Вы писали 23 июня 2004 г., 23:56:09:
Интересно, только сколько я не читал - формат дежавю не сохраняет в
своих снимках распознанный текст, для того, чтобы получить текст,
который можно переносить из приложения в приложение необходимо его
распознать, и это можно сделать, только если картинку дежавю
преобразовать в формат bmp и только потом распознать.
формат tiff наиболее точно сохраняет саму картинку, без всяких потерь
качества, что как раз и необходимо системам OCR. А для распознавания
русского языка есть языковые модули в Finereader. Они все встроены
(хотя может быть не во всех версиях).
А по поводу сохранения в формате дежавю распознанного текста - не
слышал :(