Статистика в SPSS: за пределами кнопочного интерфейса. Выпуск 28 (comp.soft.others.spss) : Рассылка : Subscribe.Ru

Отправляет email-рассылки с помощью сервиса Sendsay

Статистика в SPSS: за пределами кнопочного интерфейса

Рассылка закрыта

Вы можете найти рассылки сходной тематики в Каталоге рассылок.

← Июль 2006 →
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Автор

Балабанов Антон

Статистика

592 подписчиков
0 за неделю

← Все выпуски →

Статистика в SPSS: за пределами кнопочного интерфейса. Выпуск 28

В рассылке используются материалы веб-сайта www.spsstools.ru

Содержание выпуска

О некоторых особенностях обработки строковых значений

Новое на сайте www.spsstools.ru

Здравствуйте, уважаемые подписчики!

С мая 2006 года сервис Subscribe.Ru предоставляет получателям HTML-версий рассылок возможность голосования за очередной выпуск (через сайт, либо письмом). В нижнем и верхнем колонтитулах каждого выпуска вы найдёте шкалу для голосования по 5-балльной шкале (где 5 означает наивысший балл). Я просил бы вас по возможности выражать своё мнение относительно содержания, оформления, стиля, полезности полученного вами выпуска в виде этой комплексной оценки. Развёрнутые комментарии вы всегда можете направить мне на a-balabanov( at) yandex.ru.

О некоторых особенностях обработки строковых значений

Казалось бы, уже многое сказано о работе со строковыми значениями в SPSS, в том числе и в рамках данной рассылки. Но в недрах коллекции Рейналя отыскиваются всё новые и новые оригинальные, нестандартные примеры работы со строками, достойные подробного изучения.

Рассмотрим очень короткий, но ёмкий синтаксис, на примере которого демонстрируются два независимых друг от друга приёма программирования в SPSS:

- возможность преобразования ASCII-кода символа в сам символ;

- простой способ замещения отдельных символов в строке.

Вот как звучал исходный вопрос, заданный однажды в новостную группу SPSS: "У меня есть строковая переменная, содержащая числа. Фактически, это ASCII-коды символов (в парах цифр). Например, первое наблюдение внизу 79 80 69 78 и т.д., фактически означает символы "OPEN". Как мне преобразовать коды в символы?".

К вопросу прилагаются данные - два наблюдения, содержащие закодированные строки:

DATA LIST /mystr (A30).

BEGIN DATA.
7980697832697868
6578798472698232838482

END DATA.

Автор ответа: Bjarte Aagnes, дата ответа: 27.02.2002.

Несмотря на то, что описанная в вопросе ситуация может и не случиться в вашей практике, синтаксис, составленный Bjarte демонстрирует интересные идеи, которые можно при случае использовать в той или иной модификации.

Для начала напомним, что ASCII-коды - это таблица из 256 кодов со значениями 0-255, каждому из которых поставлен в соответствие некоторый текстовый символ. Выбор числа 256 не случаен - именно такое количество разных кодов можно составить, комбинируя единицы и нули в последовательности по 8 разрядов (т.е. в пределах одного байта). Это - важное замечание, так как далее мы будем оперировать специальным форматом для извлечения текстовых значений, соответствующих кодам. Обычно таблица ASCII включает постоянную и переменную часть. В постоянной части находятся управляющие, невидимые символы (включая символ "возврата строки" и "перевода каретки", пробел), цифры от 0 до 9, буквы латиницы от A До z и некоторые другие символы. Переменная часть может подвергаться локализации и, в зависимости от установленной версии кодировочной таблицы, она может содержать, например, буквы кириллицы.

Да, впрочем, что выдумывать определения. Вот что говорит справочная система Windows XP про ASCII: "Однобайтная кодировка, используемая для представления в компьютере текстовых данных. Семи- или восьмибитная таблица ASCII позволяет закодировать 128 или 256 разных знаков. Стандартная кодировка ASCII использует 7 битов для представления всех прописных и строчных букв, чисел от 0 до 9, знаков препинания и специальных управляющих символов, применяемых в английской раскладке для США. Современные системы на базе процессоров x86 поддерживают расширенную кодировку ASCII. Расширенная кодировка использует восьмой бит каждого кода для представления 128 дополнительных специальных символов, букв различных алфавитов и графических знаков." В современных системах широко применяется и более "продвинутая" кодировка Unicode, однако сейчас речь о ней не идёт.

В данном случае в распоряжении автора вопроса были "усечённые" коды ASCII, пары цифр от 00 до 99, что достаточно для отображения заглавных букв латиницы.

Идея решения

Зная, что код каждого символа задаётся парой значений, будем последовательно "отщипывать" из строки с кодами по 2 цифры как текстовые значения, преобразовывать выделенную пару цифр в число, а затем полученное число - вновь в текстовый символ, указывая, однако, что данное число - это реализация двоичного представления кода символа. Это делается с использованием специального двоичного формата: PIB - positive integer binary. Полученный символ заменяет соответствующую пару символов, содержащих числовой код в исходной строке.

Программная реализация

Очевидно, что нам придётся "пробегать" по всем символам строчки кодов для того, чтобы преобразовать каждый код в текст. Для этой цели идеально подходит цикл LOOP - END LOOP и текстовая функция SUB (или SUBSTRING), выделяющая из текстовой строки подстроки заданной длины, начиная с определённого символа. Чтобы в ходе выполнения цикла не создавались лишние переменные, автор решения использует временные, скрытые переменные (с префиксом #). В данном случае индекс цикла #pos пробегает значения от 1 до 30 (поскольку длина строки известна из описания переменной - 30 символов) с шагом 2 (дополнительная спецификация "by 2"). Шаг 2 - потому, что код задаётся парой значений. Если бы ASCII-кодами кодировались символы кириллицы, подтребовалось бы представление каждого кода 3 цифрами, тогда имело бы смысл шагом цикла сделать 3 с аналогичными изменениями далее по алгоритму.

Кроме этого, в цикле используется вспомогательный индекс #adj. Перед началом цикла мы обнуляем его для каждого наблюдения инструкцией COMP (тожд. COMPUTE) #adj = 0, а затем - в теле цикла для каждого наблюдения наращиваем от нуля и выше "вручную", инструкцией COMP #adj = #ad j+ 1 (в то время как индекс #pos, являясь элементом цикла, наращивается автоматически).

Рассмотрим, что содержательного происходит с каждым наблюдением при первом выполнении цикла. Переменные #adj = 0, #pos = 1. Посмотрим на правую часть выражения COMP[ute], стоящего после LOOP. Раскроем скобки, начиная с середины. Функцией SUB мы выделяем из строки (переменной mystr, содержащей коды) первый код (пару символов). Подстрока начинается с первого символа (#pos = 1) и имеет длину, равную 2. Затем эту пару цифр в текстовом представлении мы преобразуем в число формата N2. Это особый формат, не допускающий знака и не содержащий в своей записи каких-либо знаков, кроме цифр. Незначащие нули в начале числа сохраняются. Иными словами, текстовая запись кода "01" будет представлена в числовом формате N2 как 01. Такой формат в данном случае является более "понятным" пользователю (код сохраняется в первозданном виде), но, строго говоря, все равно какой тип числового формата использовать: главное - "объяснить" машине, что она считала целое число без знака и десятичной точки.

Далее - ключевой момент. Функцией STRING мы преобразуем полученное числовое значение в соответствующий текстовый символ, используя при этом не обычный числовой формат, например, F2.0, а формат PIB1, указывающий, что подлежащее преобразованию число является десятичным представлением однобайтного кода. Тогда значением функции STRING будет текстовый символ из таблицы ASCII, соответствующий этому коду. Хорошо, с преобразованием закончили.

Не менее любопытной представляется левая часть выражения COMP[ute]. Мы привыкли, что слева от знака равенства должно быть указано имя переменной. Однако в данном случае здесь стоит функция SUB[string]. Кажется, это единственная функция, которая по логике своей может находиться слева от знака присваивания. Вместо того, чтобы создавать дополнительную переменную с результатом перекодировки, мы можем заменять значение прямо в текущей строковой переменной. Выделяемая функцией SUB подстрока заменяется результатом выражения справа от знака равенства. Вообще, таким образом можно легко избирательно заменять те или иные символы в строковой переменной, избавляясь от необходимости создания дополнительной переменной, комбинирования команд конкатенации, удаления исходной переменной и переименования вспомогательной. В данном случае, однако же, есть некоторая сложность. Связана она с тем, что мы преобразуем код из 2 цифр в один текстовый символ. Если при этом мы будем заменять две цифры на 1 символ, смысловая часть строки будет "укорачиваться", а идущий вперёд индекс цикла будет ошибочно выбирать для перекодирования ненужные коды. Чтобы обойти указанную трудность нам и потребовался вспомогательный индекс #adj, разность которого с индексом #pos (#pos - #adj) даёт последовательность чисел 1, 2, 3, ... Таким образом, не важно, код какой длины мы преобразуем: замена производится посимвольно, начиная с первого. Казалось бы, при таком подходе в переменной должна оставаться часть исходных кодов, которые не были заменены. Однако, если в строке формата A30 хотя бы последний, 30-й символ окажется незаполненным (это будет автоматически подставленный программой пробел), преобразование этого символа в число даст пропущенное значение, которое будет затем интерпретировано форматом PIB как код "0", что соответствует пустой строке. Таким образом, все незамещённые к этому моменту коды будут просто затёрты. Обратите внимание, что в указанном примере SPSS будет несколько раз выдавать предупреждения в окне результатов, связанные с тем, что производится попытка преобразовать пробелы в число.

COMP #adj=0.

LOOP #pos = 1 TO 30 by 2.

COMP SUB(mystr,#pos-#adj,1)=STRING(NUMBER(SUB(mystr,#pos,2),N2),PIB1).

COMP #adj=#adj+1.

END LOOP.

LIST.

Команда LIST запускает все отложенные вычисления и выводит их результат.

Напоследок. Попробуйте задать для какой-нибудь числовой переменной (varnum, например) двоичный формат. Допустим, двухбайтный PIB2.

FORMATS varnum (PIB2).

В редакторе данных в столбце для этой переменной станут отображаться текстовые строки, соответствующие числовым значениям, интерпретированным как ASCII-коды. Если при этом вы введёте в переменную какой-либо символ, в переменной будет сохраняться его ASCII-код. Немного сложнее ситуация с тем, когда в переменной содержится большое числовое значение, либо несколько символов. Результирующий код будет десятичным представлением последовательности байтов. Например, отдельно символы "0" и "е" получат коды 48 и 101, соответственно. Однако, будучи введёнными вместе, как строка "0e", они дадут результирующий код 25904, что является десятичным представлением последовательности битов 01100101 (т.е. 101) и 00110000 (т.е. 48): 0110010100110000 (bin) = 25904 (dec).

Всего доброго!

Ведущий рассылки,

Балабанов Антон

Новое на сайте www.spsstools.ru

Переведены и добавлены примеры синтаксиса:

Взвешивание по 2 и более переменным.SPS

Удаление меток множества переменных.SPS

Группировка данных и создание соответствующих меток (категоризация).sps

Объединить файл описанных переменных и файл данных.SPS

Вывести метки переменных и значений в одной и той же частотной таблице.SPS

В избранное

{#template MAIN} <div id="loginForm" style="display:none;" class="subscriberu_popup"> <div class="popup_register"> {#include js_tmpl_auth_reg_tab} {#if $P.login_register_tab == 1} <form class="authentication-form" method="post" action="/MEMBERLOGIN_authen_cred"> <dl class="rg_block_options"> <dt id="js_tap_panel_auth"> <h1>Войти на сайт</h1> {* {#include js_tmpl_auth_reg_button} *} {#include js_tmpl_auth_reg_action} <hr class="logreg_line noPhones"> <div class="logreg_descr noPhones"><p>{#include js_tmpl_auth_reg_descr} </p></div> <div class="logreg_advice noPhones"> Если вы еще не с нами, то начните с <a href="#" onclick="rgNav('js_tab_reg');return false;" class="dashed" data-func="registr">регистрации</a> </div> <br><br> <a class="dashed auth-enter" href="/manage/author/"><b>Вход для авторов</b></a> </dt> </dl> </form> {#/if} {#if $P.login_register_tab == 2} <div class="rg_block_options"> <div id="js_tap_panel_auth"> <h1>Регистрация</h1> <div class="social_reg"> {* <div class="rg_description">{#include js_tmpl_soc_auth_reg_descr}</div> *} {#include js_tmpl_auth_reg_soc} <div class="rg_soc_auth_agree">{#include js_tmpl_auth_reg_agree}</div> </div> <div class="subscribe_reg"> {* <div class="rg_description"> #include js_tmpl_auth_reg_descr </div> *} {#include js_tmpl_auth_reg_action} </div> {* {#include js_tmpl_auth_reg_button} *} <div class="clr"> </div> <hr class="logreg_line noPhones"> <div class="logreg_descr noPhones">{#include js_tmpl_auth_reg_descr} {#include js_tmpl_soc_auth_reg_descr} </div> </div> </div> {#/if} </div> {* <div class="gray_bg register_shadow"></div> *} </div> {#/template MAIN} {#template js_tmpl_auth_reg_tab} <ul class="rg_nav"> <li id="js_tab_auth" class="{#if $P.login_register_tab == 1} rg_active_nav {#/if} rg_first_nav"><a onclick="rgNav('js_tab_auth');return false;" href="">Вход на сайт</a></li> <li id="js_tab_reg" class="{#if $P.login_register_tab == 2} rg_active_nav {#/if}"><a onclick="rgNav('js_tab_reg');return false;" href="">Регистрация </a></li> </ul> <span onclick="hidebo();" class="rg_closed"> </span> {#/template js_tmpl_auth_reg_tab} {#template js_tmpl_auth_reg_action} {#if $P.login_register_tab == 1} {#include js_tmpl_auth_reg_soc} {#/if} <div class="rg_forms"> <input type="hidden" id="login_register_destination" value="{$P.login_register_destination}"/> {#if $P.login_register_tab == 1} <div class="rg_for_input"> <span class="rg_text_inner">E-mail или код подписчика</span> <input id="credential_0" class="js_keydown_selector rg_input_text" data-js_submit="no" data-js_next_input_name="credential_1" name="" type="text" /> </div> <div class="rg_for_input"> <span class="rg_text_inner">Пароль</span> <input id="credential_1" class="js_keydown_selector rg_input_text" data-js_submit="yes" data-js_action="js_loginFormBut" name="" type="password" onkeyup="showAttention(this,!!window.event.shiftKey)" /> <span class="pswd_attention" id="attention_pswd"> <span class="icon_attention"></span> <span class="pswd_attention-text" id="attention-text_pswd1">Русская раскладка клавиатуры!</span> <span class="pswd_attention-text" id="attention-text_pswd2">У вас включен Caps Lock!</span> <span class="pswd_attention-text" id="attention-text_pswd3">У вас включен Caps Lock и русская раскладка клавиатуры!</span> </span> </div> <div class="rg_for_input input-alien"> <span class="chk noPhones"><input id="chk_alien" name="" type="checkbox" /></span><label for="chk_alien" class="noPhones"> Чужой компьютер</label> <a class="forgot_pass" href="/member/totalrecall">Забыли пароль?</a> </div> <div class="rg_for_input"> <em id="auth_msg" class="reg_error"></em> <input id="lf_typeauthid" value="email" type="hidden"> <input type="submit" class="button button-red logreg_submit" id="js_loginFormBut" value="Войти">  <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> </div> {#/if} {#if $P.login_register_tab == 2} <div class="rg_for_input"> <span class="rg_text_inner">E-mail</span> <input id="arfemail" class="js_keydown_selector rg_input_text" name="" type="text" data-js_submit="yes" data-js_action="js_regFormBut"/> </div> <div class="rg_for_input rg_set_lineh rg_for_input_wide"> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_terms' type="checkbox" data-js_submit="yes" /></span> Я ознакомился и согласен с <a class="link_txd logreg_accLink" href="/faq/vereinbarung.html">условиями сервиса Subscribe.ru</a> </label> <br /> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_personal' type="checkbox" data-js_submit="yes" /></span> Нажимая на кнопку "Готово!", я даю <a class="link_txd logreg_accLink" href="/faq/persverordnung.html">согласие на обработку персональных данных</a> </label> </div> {* <div style="float: left;position: absolute;left: 11em;"> <img src="http://www.kupivip.ru/images/vip/logo.png?1604" style="width: 86px; vertical-align: middle;display: block;"> </div> <div class="rg_for_input rg_set_lineh"> <label class="js_tap_panel_checkbox"><input name="" id="js_tap_panel_checkbox_kupivip" type="checkbox" data-js_submit="yes"> Я хочу получать новости о скидках на одежду</label> </div> *} <div class="rg_for_input"> <em id="reg_msg" class="reg_error rg_for_input_wide"></em> <em id="reg_msg2" class="reg_error rg_for_input_wide"></em> <input id="rf_typeauthid" value="email" type="hidden"> <a class="button button-red logreg_submit" id="js_regFormBut" href="#">Готово!</a> <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> </div> {#/if} </div> {#/template js_tmpl_auth_reg_action} {#template js_tmpl_auth_reg_agree} <div class="rg_for_input rg_set_lineh rg_for_input_wide"> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_terms_reg' type="checkbox" data-js_submit="yes" /></span> Я ознакомился и согласен с <a class="link_txd logreg_accLink" href="/faq/vereinbarung.html">условиями сервиса Subscribe.ru</a></label> <em id="reg_msg_soc" class="reg_error rg_for_input_wide"></em> </div> {#/template js_tmpl_auth_reg_agree} {#template js_tmpl_auth_reg_button} <div class="rg_butons_socials"> {#if $P.login_register_tab == 1} <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="auth_email" href="#"><span><i></i>Email</span></a> <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="auth_openid" href="#"><span><i></i>OpenID</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="auth_vkontakte" href="#"><span><i></i>Вконтакте</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="auth_mailru" href="#"><span><i></i>Mail.Ru</span></a> {#/if} {#if $P.login_register_tab == 2} <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="reg_email" href="#"><span><i></i>Email</span></a> <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="reg_openid" href="#"><span><i></i>OpenID</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="reg_vkontakte" href="#"><span><i></i>Вконтакте</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="reg_mailru" href="#"><span><i></i>Mail.Ru</span></a> {#/if} </div> {#/template js_tmpl_auth_reg_button} {#template js_tmpl_auth_reg_descr} {#if $P.login_register_tab == 1} Для оформления подписки на выбранную рассылку, работы с интересующей вас группой или доступа в нужный вам раздел, просим авторизоваться на Subscribe.ru {#/if} {#if $P.login_register_tab == 2} Для регистрации укажите ваш e-mail адрес. Адрес должен быть действующим, на него сразу после регистрации будет отправлено письмо с инструкциями и кодом подтверждения. {#/if} {#/template js_tmpl_auth_reg_descr} {#template js_tmpl_soc_auth_reg_descr} Или зарегистрируйтесь через социальную сеть. {#/template js_tmpl_soc_auth_reg_descr} {#template js_tmpl_auth_reg_soc} <div class="rg_soc"> {#if $P.login_register_tab == 1} <a onclick="return _checkSocConfirm(event)" href="https://oauth.vk.com/authorize?client_id=3954260&scope=wall,offline,photos,groups,video,audio,email&redirect_uri={location.protocol+'//'+location.host}/member/login/vk/&response_type=code&v=5.15" class="login_register_vk_button"> <span class="login_register_vk_icon"></span> </a> {#/if} {#if $P.login_register_tab == 2} <a onclick="return _checkSocConfirm(event)" href="https://oauth.vk.com/authorize?client_id=3954260&scope=wall,offline,photos,groups,video,audio,email&redirect_uri={location.protocol+'//'+location.host}/member/join/vk&response_type=code&v=5.15" class="login_register_vk_button"> <span class="login_register_vk_icon"></span> </a> {#/if} </div> {#/template js_tmpl_auth_reg_soc}

{#template MAIN} <div id="loginForm" style="display:none;" class="subscriberu_popup"> <div class="popup_register"> {#include js_tmpl_auth_reg_tab} <dl class="rg_block_options"> <dt id="js_tap_panel_auth"> <p class="rg_description">{#include js_tmpl_auth_reg_descr}</p> <div class="clr"> </div> {#include js_tmpl_auth_reg_action} <div class="clr"> </div> </dt> </dl> </div>  </div> {#/template MAIN} {#template js_tmpl_auth_reg_tab} <ul class="rg_nav"> <li id="js_tab_reg" class="rg_active_nav rg_first_nav"><a href="" onclick="return false;" >Регистрация</a></li> </ul> <span onclick="hidebo();" class="rg_closed"> </span> {#/template js_tmpl_auth_reg_tab} {#template js_tmpl_auth_reg_descr} <strong>Пожалуйста, подтвердите ваш адрес.</strong><br><br>Вам отправлено письмо для подтверждения вашего адреса {$P.register_confirm_mail}.<br>Для подтверждения адреса перейдите по ссылке из этого письма. {#/template js_tmpl_auth_reg_descr} {#template js_tmpl_auth_reg_action} <div class="rg_forms confirm_code_from_letter"> <div class="rg_for_input"> <span class="rg_inp_descr" style="width:15em;">Или введите код из письма:</span> <input type="text" value="" id="confirm_code" name="" data-js_submit="yes" data-js_action="js_confirmFormBut" class="js_keydown_selector rg_input_text_conf" > </div> <div class="rg_for_input"><label>Не пришло письмо? <b>Пожалуйста, проверьте папку Спам</b><br /> (папку для нежелательной почты).</label><br /> <a href="" onclick="ajax_recall_code();return false" >Вышлите мне письмо еще раз!</a></div> <div class="rg_for_input"> <em class="reg_error" id="confirm_msg"></em> <a href="#" class="button button-red" id="js_confirmFormBut">Готово</a> <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> <br> </div> </div> {#/template js_tmpl_auth_reg_action}