On Sun, 10 Apr 2005 19:17:55 +0300
Matvey <mathw***@l*****.ru> wrote:
> > On Sun, 10 Apr 2005 12:33:21 +0300
> > Matvey <mathw***@l*****.ru> wrote:
> >
> > > Привет всем!
> > >
> > > Есть русский pdf, надо его конвертировать в текст.
> > > pdftotext из xpdf выдает примерно такое:
> > > С английским все ОК. Кто виноват, что делать?
> >
> > $ pdftotext --help
> > Usage: pdftotext [options] <PDF-file> [<text-file>]
> > -enc <string> : output text encoding name
> >
> > pdftotext -enc KOI8-R file.pdf file.txt
> >
> > Но результат, жуть. хотя текст выводит.
> >
> $ pdftotext -f 210 -l 230 -enc koi8-u ./ЛекцииЗI.pdf
> Error: Couldn't find unicodeMap file for the 'koi8-u' encoding
> Error: Couldn't get text encoding
$ pdftotext -enc koi8-r lekcii.pdf lekcii.txt
Error: Couldn't find unicodeMap file for the 'koi8-r' encoding
Error: Couldn't get text encoding
$ pdftotext -enc KoI8-r lekcii.pdf lekcii.txt
Error: Couldn't find unicodeMap file for the 'KoI8-r' encoding
Error: Couldn't get text encoding
$ pdftotext -enc koi8-R lekcii.pdf lekcii.txt
Error: Couldn't find unicodeMap file for the 'koi8-R' encoding
Error: Couldn't get text encoding
$ pdftotext -enc KOI8-R lekcii.pdf lekcii.txt
а вот так все работает, разницу улавливаешь
$ ls -1 /usr/share/xpdf/cyrillic
Bulgarian.nameToUnicode
KOI8-R.unicodeMap
README
если нужен KOI8-U, то выход один: создай свой KOI8-U.unicodeMap
PS. столкнулся с тем что некоторые файлы выдает без -enc в офтопик-1251,
а некоторые в виде [123][234][546][334] (числа условные, точно не помню)
--
В. Ковалев.
-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 17791; Возраст листа: 626; Участников: 1362
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/348972