Отправляет email-рассылки с помощью сервиса Sendsay

[TC] djvu в текст

Здравствуйте, уважаемые участники рассылки.

Наверное в который раз, но все-таки, чем можно переконвертировать
формат djvu в какой-нить текст?

Ответить   Ruiner Sat, 13 Jan 2007 16:41:21 +0200 (#629493)

 

Ответы:

Добрый день.

У меня наметилось решение этой задачи следующим способом (сам не пробовал,
но на готове способ держу):

1. DJVU decode -- позволяет сделать из djvu многостраничный TIF или набор
BMP-страничек;
2. Fine Reader -- позволяет распознать TIF или BMP.

Ниже приводятся выдержки из двух писем в рассылку "Электронная книга" от
пользователя
yayap mailto:yay***@m*****.ru
в которых рассказывается об особенностях работы с DjvuDecode.

------Beginning of citation> Как переконвертировать DjVU в другой графический формат, который бы

На самом деле происходит, в окне выводится строка

"Use --help for usage instructions."

затем окно сразу закрывается. Программа DjVudecode консольная, т.е. никаких
красивых окошек не будет... Работать с ней надо либо с помощью Far Manager,
либо из командной строки (Пуск-Программы-Стандартные-Командная строка).
Если Вы когда-нибудь имели дело с Dos или Unix, то Вы быстро
разберетесь, если нет, то все будет немного сложнее и непривычнее.

Если Вы не хотите разбираться со всякими консольными командами, а
необходимо конвертировать книгу из djvu в tif, то открываете стандартный
блокнот (notepad), в него копируете такую строчку:

DjVuDecode C:\Books\book.djvu C:\Books\Out\book.tif

где вместо "book" указываете название книги, которую хотите конвертировать,
а вместо "C:\Books\" и "C:\Books\Out\" соответственно полный путь до книги
в djvu и путь куда DjVuDecode запишет конвертированную книгу.

Затем сохраняете этот файл как decode.bat (в блокноте "Файл-Сохранить Как"
выбираете каталог, где у Вас находится программа DjVuDecode, выбираете "Тип
файла - Все файлы (*.*)" "Имя файла - пишите decode.bat", нажимаете кнопку
"Сохранить") Затем запускаете decode.bat и получаете конвертированную
книгу.

Если хотите, чтобы вместо многостраничного tif был набор bmp картинок, то
используйте такую команду:

DjVuDecode --output-format=bmp C:\Books\book.djvu C:\Books\Out\

дальнейшие действия аналогичны.

Если хотите разбираться с DjVuDecode используя консоль, то вот пошаговый
пример запуска и конвертирования:

Допустим DjVuDecode находится здесь

D:\Books\DjVuDecode\DjVuDecode.exe

а книга, которую Вы хотите конвертировать, находится здесь

D:\Books\book.djvu

запускаем Пуск-Программы-Стандартные-Командная строка появляется новое окно
с черным фоном и мигающим курсором, необходимо добраться до каталога с
DjVuDecode, набираем:

d:
Enter

перешли на диск D (теперь курсор мигает рядом с "D:\>")
следующая команда

cd\books\djvudecode
Enter

на диске D перешли в каталог Books\DjVuDecode (теперь курсор мигает рядом с
"D:\books\djvudecode>")

запускаем djvudecode с необходимыми параметрами

djvudecode d:\books\book.djvu d:\books\book.tif
Enter

начнется конвертирование.

Если хотите экспериментировать с различными настройками, то запустите:

djvudecode --help

Программа выдаст кучу параметров запуска, пробуйте...

---Another message> как составить командную строку, чтобы утилита сконвертировала книгу в

Странно, довольно часто пользуюсь и всегда конвертирует полностью.
Например:

DjVuDecode.EXE --output-format=bmp book.djvu c:\out\

Через несколько минут в каталоге c:\out\ будет столько bmp файлов,
сколько страниц в book.djvu
Иногда бывают глюки - программа конвертирует несколько страниц и вылетает
ошибкой, обычно это происходит из-за криво вставленных пустых страниц.
Тогда можно воспользоваться параметром --page-range:
-- определяем на какой странице вылетела программа, допустим 6-я,
-- указываем диапазон обработки с 7-й по, допустим, 300-тую страницу

DjVuDecode.EXE --output-format=bmp --page-range=7-300 book.djvu c:\out\

и так до нового вылета... или заранее просмотреть djvu книгу на
наличие пустых страниц и правильно составить диапазоны обработки.
-------End of citationP.S. За DjvuDecode -- в поиск либо на личку.

--
С уважением,
Anatoliy D. Popko
mailto:uncle_tol***@m*****.ru
ICQ#: 313248588
MSN: AnatoliyPop***@m*****.com

Ответить   "Anatoliy D. Popko" Mon, 15 Jan 2007 08:48:31 +0300 (#629563)

 

Приветствую! Мне помогла небольшая и бесплатная программа WinDjView
http://windjview.sourceforge.net/

Ответить   Михаил Осипов Mon, 15 Jan 2007 12:09:52 +0300 (#629741)

 

Доброго времени суток.

Вот если бы вы еще подсказали, как ее оттуда скачать, все попытки нажимать на
download так к закачке и не привели.
Сергей Бизин.

Ответить   Mon, 15 Jan 2007 21:42:21 +0300 (#629834)

 

Доброго времени суток!

Original Message From: <biz***@m*****.ru>

на

Дистрибутив программы и модуль русского языка выложен вот тут:
http://matroskinshouse.mostinfo.ru/index.php?name=Files&op=view_file&lid=105

Приятной работы с программой!

С уважением, Матроскин г. Москва.
mailto:matroskin_mosc***@m*****.ru
ICQ: 250909688
http://matroskinshouse.mostinfo.ru
Добро пожаловать! - http://www.tiflocomp.ru/chat/

Ответить   Mon, 15 Jan 2007 22:29:52 +0300 (#629848)

 

Доброе время суток, уважаемые участники рассылки и biz***@m*****.ru!

В письме от 15 января 2007 г., 20:42:21 мне довелось прочесть:

на

Сергей, дело в том, что это ещё не прямая ссылка на закачку программы,
а страница со ссылками для закачки. Просто там есть версии как для Win
2000 и выше, так и для Win 98. Кроме того, там же присутствует версия
для операционной системы Mac. И ещё там есть динамические библиотеки
для нескольких языков, в частности, русского, украинского,
португальского, китайского и ещё не помню какого. Вот уже с этой
странички как раз и можно скачивать конкретные необходимые файлы
напрямую. А страничка эта такая:

http://sourceforge.net/project/showfiles.php?group_id=114927&package_id=124501&release_id=447744

Ответить   Tue, 16 Jan 2007 15:05:58 +0200 (#630091)

 

Доброго времени суток.

На то, чтобы это понять, у меня ума хватает и на указанной вами ниже странице
я был, но куда бы не нажимал, закачка не начиналась.
Ну, да Матроскин помог решить эту проблему, так что вопрос снят.
Сергей Бизин.

Ответить   Tue, 16 Jan 2007 22:38:49 +0300 (#630224)

 

Добрый день, bizin.

http://windjview.sourceforge.net/
Поделитесь впечатлением о качестве распознования, в сравнении с FR.

--
С уважением, Сергей.

Ответить   Fri, 19 Jan 2007 12:31:52 +0300 (#631173)

 

Доброго времени суток.

Так там же нет распознавания, а есть экспорт текстового слоя, примерно, как в
акробате.
Сергей Бизин.

Ответить   Sat, 20 Jan 2007 21:24:55 +0300 (#631328)

 

Доброе утро, bizin.

в

Ааа теперь понял, извиняюсь. Но имхо это не очень и надо - в основном в djvu
книжки идут
только с графикой.

--
С уважением, Сергей.

Ответить   Sun, 21 Jan 2007 11:18:27 +0300 (#631533)

 

Здравствуйте, Михаил Осипов.

Вы писали понедельник 15 января 2007 г. 12:09

А не подскажете, каким образом? Что-то я там не нашёл сохранения в другие форматы.

Ответить   Mon, 15 Jan 2007 23:28:00 +0300 (#629949)

 

Здравствуйте, Михаил Духонин!
Откройте Ваш djvu-файл, в меню "File" появится пункт "Export Text". Если не
появится - увы, Ваш djvu-файл (как и некоторые .pdf) не содержит текста.
Остается перректальный способ: конвертация в графику, съедобную для
FineReader, и распознавание текста со всеми вытекающими.
С уважением, Михаил.

Ответить   Михаил Осипов Tue, 16 Jan 2007 12:46:01 +0300 (#630053)

 

Здравствуйте, участники рассылки.

Спасибо всем откликнувшимся по теме.

1. Советовали WinDjView. Этой программой можно сохранить текст, но,
если дежавю содержит текстовый слой, и то, сохранять можно выделенный
текст, да и годится это для зрячего. И редко когда файл содедржит
текстовый слой, в основном дежавю идет тоолько как картинка.

2. Дежавю Декодер - хорошая программа, но крайне нестабильная. Но
похоже на данный момент - единственный выход. Мои эксперименты с
виртуальными принтерами к хорошим результатам не привели.

3. Нашел еще такое дело : DjvuOCR.
ссылка : http://www.djvu-soft.narod.ru/djvu_ocr_v2_1.rar
около мегабайта.
Программа предназаначена несколько для других целей (как раз
вклеивания текстового слоя в дежавю), но нам подойдет *смайл*.
Использует тот же Декодер, но имеет интерфейс, правда на аглицком.
Создает не один многостраничный тиф -рисунок, а по файлу на каждую
страницу дежавю.

4. Краем уха слышал, что при помощи ABBYY FineReader Engine SDK можнжо
распознавать дежавю напрямую. Кто-нить может подтвердить? На сайте
разработчика ничего по этому поводу не нашел. Если да, то будем
искать, хотя дело нелегкое *смайл*.

Ответить   Ruiner Tue, 16 Jan 2007 10:59:00 +0200 (#630180)