Отправляет email-рассылки с помощью сервиса Sendsay

pdftotext encoding

Привет всем!

Есть русский pdf, надо его конвертировать в текст.
pdftotext из xpdf выдает примерно такое:
9. 9.1. . ' ( ), . g
, , ,, ' . g , . g , ,
, ' ' . g ' , , ,
. g , , , . ' g ' (') , ()
. ' , , () . g - . 210 ..

С английским все ОК. Кто виноват, что делать?

Ответить   Matvey Sun, 10 Apr 2005 12:33:21 +0300 (#348302)

 

Ответы:

Hello Matvey,

Sunday, April 10, 2005, 1:33:21 PM, you wrote:

Вы попробуйте открыть это в Kate или в KWrite, именно то, что Вам
выдал pdftotext. Там (в Kate или в KWrite) Вид->Кодировка
и попробуйте все кодировки кирилицы. Должно помочь.

Ответить   Андрей Sun, 10 Apr 2005 14:12:15 +0400 (#348324)

 

On Sun, 10 Apr 2005 14:12:15 +0400
Андрей <akla***@l*****.ru> wrote:

Пробовал в mc по Ctrl+T - ничего :(

Ответить   Matvey Sun, 10 Apr 2005 19:18:41 +0300 (#348462)

 

On Sun, 10 Apr 2005 12:33:21 +0300
Matvey <mathw***@l*****.ru> wrote:

$ pdftotext --help
Usage: pdftotext [options] <PDF-file> [<text-file>]
-enc <string> : output text encoding name

pdftotext -enc KOI8-R file.pdf file.txt

Но результат, жуть. хотя текст выводит.

Буду рад, если помог.
В. Ковалев

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 17759; Возраст листа: 625; Участников: 1365
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/348326

Ответить   Sun, 10 Apr 2005 15:54:22 +0700 (#348326)

 

On Sun, 10 Apr 2005 15:54:22 +0700
Владимир Ковалев <beaver***@n*****.ru> wrote:

$ pdftotext -f 210 -l 230 -enc koi8-u ./ЛекцииЗI.pdf
Error: Couldn't find unicodeMap file for the 'koi8-u' encoding
Error: Couldn't get text encoding

Ответить   Matvey Sun, 10 Apr 2005 19:17:55 +0300 (#348461)

 

On Sun, 10 Apr 2005 19:17:55 +0300
Matvey <mathw***@l*****.ru> wrote:

$ pdftotext -enc koi8-r lekcii.pdf lekcii.txt
Error: Couldn't find unicodeMap file for the 'koi8-r' encoding
Error: Couldn't get text encoding
$ pdftotext -enc KoI8-r lekcii.pdf lekcii.txt
Error: Couldn't find unicodeMap file for the 'KoI8-r' encoding
Error: Couldn't get text encoding
$ pdftotext -enc koi8-R lekcii.pdf lekcii.txt
Error: Couldn't find unicodeMap file for the 'koi8-R' encoding
Error: Couldn't get text encoding
$ pdftotext -enc KOI8-R lekcii.pdf lekcii.txt
а вот так все работает, разницу улавливаешь

$ ls -1 /usr/share/xpdf/cyrillic
Bulgarian.nameToUnicode
KOI8-R.unicodeMap
README

если нужен KOI8-U, то выход один: создай свой KOI8-U.unicodeMap

PS. столкнулся с тем что некоторые файлы выдает без -enc в офтопик-1251,
а некоторые в виде [123][234][546][334] (числа условные, точно не помню)

--
В. Ковалев.

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 17791; Возраст листа: 626; Участников: 1362
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/348972

Ответить   Mon, 11 Apr 2005 21:30:46 +0700 (#348972)

 

On Mon, 11 Apr 2005 21:30:46 +0700
Владимир Ковалев <beaver***@n*****.ru> wrote:

А где Вы xpdf брали? Я ставил из исходников, у меня вообже такой папочки
нет. Смотрел в /usr/local/share, т. к. все лягло в /usr/local по
умолчанию. Там, где брал, ничего похожего на карты перекодировок не
валялось.

Ответить   Matvey Mon, 11 Apr 2005 19:09:55 +0300 (#349006)

 

On Mon, 11 Apr 2005 19:09:55 +0300
Matvey <mathw***@l*****.ru> wrote:

Стало вместе с MDK 9.2, больше ничего не дабавлял.
xpdf-2.02pl1-4mdk

А по поводу каталогов посмотри /etc/xpdfrc, в нем строчки
начинающиеся с unicodeMap.

Кстати: не рекомендую раскоментировать строчку textEncoding. ИМХО.

--
В. Ковалев.
Буду рад, если помог.

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 17793; Возраст листа: 626; Участников: 1362
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/349039

Ответить   Mon, 11 Apr 2005 23:30:10 +0700 (#349039)

 

On Mon, 11 Apr 2005 23:30:10 +0700
Владимир Ковалев <beaver***@n*****.ru> wrote:

Оказывается, валялись ;)

Ответить   Matvey Mon, 11 Apr 2005 21:52:07 +0300 (#349071)

 

В сообщении от 1113125601 секунд после начала Эпохи Unix Вы написали:

$ pdftotext -enc UTF-8 file.pdf - |iconv -cf UTF-8

Помогает?

Ответить   Konstantin Korikov Sun, 10 Apr 2005 22:04:29 +0300 (#348514)

 

On Sun, 10 Apr 2005 22:04:29 +0300
Konstantin Korikov <lostcl***@u*****.net> wrote:

Ой, клёво, работает ;). Только, не смотря на -с , через пару страниц
вылетает c iconv: illegal input sequence at position 14784
. Как его можно заставить пропустить?

Ответить   Matvey Sun, 10 Apr 2005 23:30:06 +0300 (#348540)

 

On Sun, 10 Apr 2005 23:30:06 +0300
Matvey <mathw***@l*****.ru> wrote:

iconv щчень капризная штука. Советую использовать asrecod. Невылетит ни
на каком тексте. Все, что можно сконвертить - сконвертит.

Ответить   Крохин Анатолий Александрович Mon, 11 Apr 2005 09:47:42 +0400 (#348671)

 

On Mon, 11 Apr 2005 09:47:42 +0400
Крохин Анатолий Александрович <kr***@b*****.ru> wrote:

Что-то я его не найду... :( В смысле, на freshmeat.net я проект нашел,
но там только ссылка на домашнюю страничку, а судя по ней, у хозяина
давно денюжка закончилась.... На sf.net, altlinux.ru его нет.

Ответить   Matvey Mon, 11 Apr 2005 21:55:14 +0300 (#349072)

 

On Mon, 11 Apr 2005 21:55:14 +0300
Matvey <mathw***@l*****.ru> wrote:

Можно поискать на ftp. На какои-нить ftp.chg.net

Ответить   Крохин Анатолий Александрович Tue, 12 Apr 2005 07:02:35 +0400 (#349219)

 

On Tue, 12 Apr 2005 07:02:35 +0400
Крохин Анатолий Александрович <kr***@b*****.ru> wrote:

Кому интересно - есть на
http://shapirus.kicks-ass.org/files/asrecod-0.1.5-current.tar.bz2

Ответить   Matvey Wed, 13 Apr 2005 00:40:20 +0300 (#349860)

 

В сообщении от Среда 13 Апрель 2005 08:40 Matvey написал(a):

Наткнулся на эту ссылку (запоздало?) - не работает. Попробовал искать через

filesearch.ru, files.ru, files.com - пусто. Через Google - ссылки только на
их домашнюю страницу.
Пожалуйста, дайте кто-нибудь рабочую ссылку или пришлите этот asrecod на
мыло, если не
трудно.

Спасибо за внимание.

Ответить   9A4172 Thu, 21 Apr 2005 01:38:57 +1100 (#354859)

 

Отослано в личку.

Ответить   Крохин Анатолий Александрович Thu, 21 Apr 2005 13:35:29 +0400 (#354988)

 

Здравствуйте, 9A4172.

Вы писали 20 апреля 2005 г., 17:38:57:

Только что проверил эту ссылку - рабочая...

Ответить   Юрий Похилько Thu, 21 Apr 2005 13:55:13 +0300 (#354989)

 

On Thu, 21 Apr 2005 01:38:57 +1100
9A4172 <whirlewi***@f*****.ru> wrote:

Вот цитата из моей переписки с автором:

а это для любопытных специально. я ссылку на корень никому не даю. сайта
там на самом деле нет никакого, просто файлопомойка :).

Ответить   Matvey Thu, 21 Apr 2005 14:46:12 +0300 (#355008)

 

On Thu, 21 Apr 2005 01:38:57 +1100
9A4172 <whirlewi***@f*****.ru> wrote:

Ломитесь, и откроют вам ;) :

ну она будет работать, когда у меня машина включена и инет работает.
инет падает редко, а выключена машина когда нет света (крайне редко) и
когда я ребут делаю по какой-либо причине.

Ответить   Matvey Thu, 21 Apr 2005 16:21:14 +0300 (#355017)

 

i386-redhat-linux-gnu)

On Mon, 11 Apr 2005 21:55:14 +0300
Matvey <mathw***@l*****.ru> wrote:

есть еще konwert. польский проект, но деньги, видимо и у них вышли.
правда, на rpmfind.net можно взять пакет с исходниками (под debian не надо ничего
- входит в дистрибутив). собирал его под fc1, главное - патч не забыть наложить
(идет в пакете).

Ответить   Tue, 12 Apr 2005 12:21:09 +0300 (#349863)