Отправляет email-рассылки с помощью сервиса Sendsay

Кодировки с кириллицей

Привет всем.
Вопрос такой: известны ли кому либо еще какие либо кодировки, содержащие символы
кириллицы (или чисто русские), кроме приведенных ниже:
KOI8-R
WINDOWS-1251
CP866
ISO_8859-5
MACCYRILLIC
UNICODEBIG
UNICODELITTLE
UNICODE
UTF16BE
UTF16LE
UTF16
UTF32BE
UTF32LE
UTF32
UTF7
UTF8

В принципе, это все, что удалось нагуглить.

О существовании KOI8-U, MACUKRAINIAN знаю.

И видел ли кто описание стандартов кодировок типа =F2=F5=F3=F3=EB=E9=EA.

PS. Прошу прощения за глупый вопрос.

Ответить   Wed, 11 Jan 2006 22:31:14 +0600 (#500195)

 

Ответы:

В сообщении от 1137011474 секунд после начала Эпохи Владимир Ковалев написал(а):

T2A. Для какой задачи это вообще нужно?

Это MIME-кодирование. RFC какой-то там. Кто знает какой подскажите
пожалуйста.

Ответить   Konstantin Korikov Wed, 11 Jan 2006 20:32:32 +0200 (#500263)

 

On Wed, 11 Jan 2006 20:32:32 +0200
Konstantin Korikov <lostcl***@i*****.ua> wrote:

Есть куча файлов (2500 - 3000) в формате html, xml, txt. Все в разных
кодировках, тэги с указанием кодировки не соответствуют почти в половине файлов.
Хочу все перегнать в одну кодировку (да и в один формат), заодно немножко
подправив. Путнего инструмента для определения кодировки не нашел (для меня
важен вывод программы, сообщение о кодировке и, кроме того, нужно определение
типа файла). Написал свою програмулину. KOI8-R, WIN-1251, CP866, ISO-8859-5
определяет гарантированно (то есть однобайтные кодировки). Хочу разобраться с
многобайтными. Но мало информации.
Вот и спросил.

Ответить   Sat, 14 Jan 2006 00:24:43 +0600 (#501181)

 

On Sat, 14 Jan 2006 00:24:43 +0600
Владимир Ковалев <beaver***@n*****.ru> wrote:

с

Есть http://asdf2087.narod.ru/rux-0.72.tar.bz2, правда под БСД, посему make-файл
бесполезен.
Зато с автодетектом кодировки. Можно впихнуть в какой-нибудь шелл-скрипт.

Ответить   Matvey Fri, 13 Jan 2006 20:52:21 +0200 (#501197)

 

On Wed, 11 Jan 2006 22:31:14 +0600
Владимир Ковалев wrote:

Это quoted-printable. Т.е. это текст в какой-то кодировке, в котором
байты > 127 записаны в шеснадцатиричном виде.

Ответить   Wed, 11 Jan 2006 21:05:16 +0300 (#500449)

 

Vladimir Rusinov wrote:

Прикольно. Это KOI8-R. А слово - "РУССКИЙ"

Ответить   Иваненко Денис Thu, 12 Jan 2006 14:23:09 +0400 (#500734)

 

Для начала небольшое уточнение.

Из Вашего списка KOI8-R, WINDOWS-1251, CP866, ISO_8859-5, MACCYRILLIC,
UNICODE это кодировки, то есть описание соответствия абстрактных
символов некоторым числам (прошу прощения, если определение
не слишком строгое).

А UNICODEBIG, UNICODELITTLE, UTF16BE, UTF16LE, UTF16, UTF32BE,
UTF32LE, UTF32, UTF7, UTF8 это лишь схемы кодирования UNICODE
(www.unicode.org) - кодировка одна, но разное представление
в виде последовательности байтов.

Это результат кодирования quoted-printable, описание в RFC 1521.
Кодировка, в описанном выше смысле, может быть разной.
Например, KOI8-R.

Не знаю, какая у Вас задача, но наиболее распространенные кодировки
Вы уже перечислили. Список чисто русских кодировок
у меня получился такой:

ISO-IR-37 = KOI-7, ISO_5427
ISO-IR-51 = INIS-CYRILLIC
ISO-IR-54 = ISO_5427-EXT, ISO_5427:1981
ISO-IR-111 = ECMA-CYRILLIC
ISO-IR-144 = ISO_8859-5, ISO_8859-5:1988, CYRILLIC
ISO-IR-153 = GOST_19768-74, ST_SEV_358-88
IBM855 = CP855
IBM866 = CP866
IBM880 = CP880, EBCDIC-CYRILLIC
CP1251 = MS-CYRL
KOI-8
KOI8-R

Кроме того, кириллица есть в большинстве восточноазиатских кодировок, например:

ISO-IR-58 = GB_2312-80, CHINESE
ISO-IR-42 = JIS_C6226-1978
ISO-IR-87 = JIS_C6226-1983, JIS_X0208-1983, X0208
ISO-IR-149 = KS_C_5601-1987, KS_C_5601-1989, KSC_5601, KOREAN
CP936 = GBK
CP949
BIG5 = CP950
BIG5HKSCS
GB18030
EUC-JP
EUC-KR
JOHAB
SJIS
...

Источники:
ftp://ftp.iana.org/assignments/character-sets
ftp://unicode.org/Public/Mappings
ftp://dkuug.dk/i18n/WG15-collection/charmaps/
ftp://ftp.ora.com/pub/examples/nutshell/ujip/doc/cjk.inf
ftp://ftp.gnu.org/gnu/glibc/glibc-2.2.tar.gz/localedata/charmaps



-*Название листа "Обсуждения и споры о свободных системах и всём сопутствующем"
Написать в лист: comp.soft.linux.debate-list@subscribe.ru
Архив Листа - http://subscribe.ru/archive/comp.soft.linux.debate Поиск: http://www.google.com
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.debate/rules
Номер письма: 2820; Возраст листа: 814; Участников: 873
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.debate/msg/501097

Ответить   Fri, 13 Jan 2006 18:28:33 +0300 (#501097)

 

On Fri, 13 Jan 2006 18:28:33 +0300
"Емельянов Алексей" <em***@l*****.ru> wrote:

Это мне известно, просто не корректно выразился.

Это тоже известно.

За это отдельное спасибо

Ну они меня мало интересуют.

За это большое спасибо.

Ответить   Sat, 14 Jan 2006 00:03:00 +0600 (#501179)