Hello Рожанский,
Wednesday, June 23, 2004, 10:56:09 PM, you wrote:
РД> Здравствуйте!
>>Да нет, не ошибаюсь.. У меня плаг-ин djvu для Internet Explorera и он
>>копирует английский текст и производит поиск безо всяких проблем.
РД> А с русским что? Он хотя бы выделяется?
Нет, функция выделения текста в русских документах просто становится
неактивной. Причем, это наблюдается на всех русских документах,
которые я проверял, и напротив, во всех английских документах(что я
видел) в djvu все работает отлично.
>>Дело тут не в шрифтах, поскольку я говорю об отсканированных документах.
>>Акробат и djvu просто производят OCR - оптическое
>>распознавание выделенного текста и делают это относительно английского
>>языка\букв. Но возможно есть и дополнительные модули, распознающие
>>другие языки.
РД> Откуда такие сведения? Как-то не очень во все это вериться.
Сведения, на самом деле, исключительно из наблюдений и попыток
копировать текст, и, скорее всего, я действительно переборщил с OCR :)
РД> Вот было мнение о том, что текст перед созданием .djvu уже был распознан
РД> и потому доступен. Это гораздо больше походит на правду.
Да, скорее всего, так оно и есть. И по поводу .pdf ,наверное, та же
история.
РД> Проблема распознавания по-моему не из простых, так что решать ее
РД> в рамках этих программ и накладно, да и бессмысленно как-то.
РД> Даже FineReader не распознает безошибочно, значит из Акробата
РД> текст тоже с ошибками копироваться будет?
Я, кстати, наблюдал такие ошибки в Акробате. Видимо, изначально эти ошибки были
при распознавании и создании документа.
РД> И почему тогда
РД> именно спец. форматы? Берем файл любого графич. формата (.tiff, .jpg)
РД> и пусть с него текст и распознает ;-)). Все так просто становиться.
Вот есть такой очень неплохой словарь Babylon (www.babylon.com). Так
вот он точно использует OCR при захвате текста( там даже есть
регулировка оптимизации OCR), и это очень удобно для "неберущихся
слов". Весь процесс ,включая перевод, длится, как правило, не больше
секунды. Так что там распознавание работает уже давно и очень успешно.
А с .pdf и .djvu все-таки надо будет разобраться ,хотя бы в общих
чертах.