Статистика в SPSS: за пределами кнопочного интерфейса. Выпуск 19 (comp.soft.others.spss) : Рассылка : Subscribe.Ru

Автору вопроса требуется вывести на один график две (или более) кривых нормального распределения, параметры которых соответствуют статистикам (среднему и стандартному отклонению) различных переменных. В вопросе приводится иллюстрация того, как примерно должен выглядеть график: построены несколько кривых нормального (гауссовского) распределения, отличающиеся между собой средними и стандартными отклонениями.

Важно отметить, что от нас не требуется сопоставить реальные распределения переменных, которые, вообще говоря, могут быть весьма далеки от нормальных, а построить нормальные кривые, которые будут иметь с имеющимися у нас переменными лишь "отдалённое родство" - будут совпадать их средние и стандартные отклонения.

В ответах предлагалось построить подобные графики средствами, например, MS Excel, либо специальных программ по построению графиков функций. Вполне рациональное решение. Однако же, было бы странно, если б данная задача оказалась нерешаемой средствами статистического пакета SPSS. Решение нашлось, причём, думается, одно из многих. С ним я и думаю ознакомить уважаемых подписчиков. Все выполняемые действия доступны через стандартные оконные меню программы SPSS, но для краткости изложения и иллюстрации алгоритма мы запишем их средствами командного языка.

Идея решения. Если мы строим кривые, беря за основу их вычисления статистику каких-либо переменных, то для начала эти переменные нужно иметь в редакторе данных. Я предполагаю, что переменные представлены в связанном виде, то есть относятся к одному и тому же объекту наблюдения (в традиционном представлении матрицы данных в SPSS, размещаются в соседних столбцах окна редактора данных). Требуется получить статистику переменных. Можно сделать это стандартными описательными процедурами (вроде Descriptives) в окне результатов, но выгоднее получить и сохранить её непосредственно в файле данных для последующих расчётов. Собственно, по каждой переменной требуется пара показателей: среднее и стандартное отклонение - параметры нормального распределения. Затем с помощью встроенной в SPSS нормальной функции плотности вероятности не составит труда рассчитать высоту "горки" нормального распределения при каждом значении той и другой переменной. После этого останется только графически представить полученные значения. Это сделаем с помощью графика Overlay Scatterplot, представляющего собой наложение диаграмм разброса двух и более пар переменных.

Рассмотрим реализацию этой идеи в синтаксисе. Загрузим данные. Разумеется, если файл данных уже открыт в редакторе, эту команду можно опустить, а остальной синтаксис доработать "по месту" - заменить имена переменных и скорректировать синтаксис по числу накладываемых графиков.

Возьмём для примера поставляемый с SPSS файл данных employee data.sav, который, скорее всего, находится на вашей машине по указанному пути. При открытии файла срабатывает заданная дополнительно команда KEEP - сохранить, которая оставляет в редакторе данных лишь две переменные, представляющие для нас интерес - salbegin и salary, т.е. начальное и текущее жалованье для сотрудников из той базы данных, которая представлена в файле (жалованье в начале рабочей карьеры и в настоящее время).

GET FILE='c:\program files\spss\employee data.sav'
/KEEP=salary salbegin.

Будем сопоставлять кривые нормального распределения, соответствующие средним и стандартным отклонениям двух указанных переменных.

Следующий этап - подсчёт статистики по переменным. Используем команду обобщения данных - AGGREGATE. Перед её запуском необходимо создать вспомогательную переменную-константу (назовём её nobreak), которая будет иметь одинаковые значения для всех наблюдений. Это требуется для того, чтобы команда AGGREGATE рассматривала весь файл данных как единую группу и не вычисляла статистики по каким-либо подгруппам. В качестве одной из подкоманд AGGREGATE мы запросили помещение статистики в текущий файл (*) и поставили режим MODE=ADDVARIABLES, который стал доступен в последних версиях SPSS. Он позволяет добавить переменные с обобщёнными характеристиками к рабочему файлу, не создавая промежуточных внешних файлов данных и не проводя их объединение дополнительными командами. Содержательная часть находится в последних подкомандах. В переменную salary_mean будет помещено среднее значение salary, а в переменную salary_sd - стандартное отклонение salary. Аналогичная статистика вычисляется и для переменной salbegin.

COMPUTE nobreak=1.

AGGREGATE
/OUTFILE=*
MODE=ADDVARIABLES
/BREAK=nobreak
/salary_mean = MEAN(salary) /salbegin_mean = MEAN(salbegin) /salary_sd = SD(salary) /salbegin_sd = SD(salbegin).

В результаты выполнения команд к настоящему моменту в окне редактора данных должны появиться 5 новых переменных. Каждая из переменных имеет для всех наблюдений одинаковые значения. Это требуется для выполнения следующих команд. В переменные s_n и sb_n мы поместим плотности вероятности из нормального распределения, соответственно, для каждого из значений переменных salary и salbegin. Как видно, в функции PDF.NORMAL мы ссылаемся на текущее значение переменной salary или salbegin и на статистики этих переменных. На этом этапе становится ясно, что если нам требуется построить график один раз, можно обойтись без команды аггрегирования и ввести соответствующие статистики в формулы вручную, взяв их из таблиц описательной статистики.

COMPUTE s_n = PDF.NORMAL(salary,salary_mean,salary_sd).

COMPUTE sb_n = PDF.NORMAL(salbegin,salbegin_mean,salbegin_sd).

Теперь остаётся лишь изобразить полученные значения на графике, пользуясь диаграммой рассеяния (scatterplot) с возможностью наложения двух и более пар переменных:

GRAPH
/SCATTERPLOT(OVERLAY)=salary salbegin WITH s_n sb_n (PAIR).

Масштаб горизонтальной оси автоматически подбирается программой так, чтобы можно было отобразить как значения salary, так и значения salbegin. Очевидно, что подобное сопоставление кривых корректно лишь в случае, если и та, и другая переменная имеют одинаковые единицы измерения. Кривые получились характерно обрезанными с левой стороны, так как значений жалованья, близких к нулю, а тем более, меньших нуля, не встречалось. Видно, что кривая с параметрами текущего жалованья смещена относительно начального жалованья вправо (в сторону бОльших значений) и характеризуется бОльшим разбросом.

Эстеты могут отредактировать полученный график, добавив туда интерполяционные линии, объединяющие точки.

Заключительное замечание. При малом числе наблюдений графики могут получиться не столь наглядными из-за небольшого числа точек. Если при этом необходимо построить гладкие теоретические кривые средствами SPSS, можно посоветовать сгенерировать сколь угодно большое число наблюдений с заданными параметрами распределения (см. первые выпуски рассылки для разбора вопросов генерации данных... а, впрочем, почему подробнее не рассмотреть это в следующем выпуске?).

Продолжая разбор вопроса, отметим, что всё же в практических исследованиях чаще интерес представляет сопоставление не теоретических, а эмпирических кривых распределения. Следуя логике ответа на предыдущий вопрос, попробуем предложить для тех же данных способ сопоставления на одном графике эмпирических кривых (полигонов распределения) переменных. Разберём решение из архива списка рассылки SPSSX-L (для наглядности восприятия предыдущее решение мы привели в соответствие с этим примером). Автор решения: Raynald Levesque, отправлено 12 июня 2004 года. Адрес архивного сообщения: http://listserv.uga.edu/cgi-bin/wa?A2=ind0406&L=spssx-l&P=R13239

Идея решения. В данном случае функцию плотности распределения (вертикальную ось графика), видимо, естественно заменить эмпирической частотой. В этом случае площадь под кривой уже не будет равна единице, как в случае с теоретическими кривыми, однако нам гораздо важнее форма и относительное положение кривых. Очевидно также, что линии нам предстоит сделать ломаными: каждый узел линии будет представлять собой частоту наблюдения значений переменной из некоторого интервала. Можно представить, что мы будем строить наложенные гистограммы, вершины невидимых столбцов которых будут соединены линиями. Мы создадим интервалы равной ширины исследуемых переменных и сохраним в отдельных файлах частотное распределение каждой из переменных по этим интервалам. Затем "подошьём" один файл к другому, указав в группирующей переменной, к какой из исходных переменных (salary или salbegin) относится частотное распределение. Для построения графика вновь воспользуемся диаграммой разброса, однако без наложения двух пар переменных, как в предыдущем случае, а с использованием группирующей.

Рассмотрим реализацию этой идеи в синтаксисе. Использование функции TRUNC, округляющей аргумент до меньшего целого значения, позволяет нам свести значения обеих переменных в интервалы по 10000 долларов жалованья в каждом. Так, если человек имеет жалованье в пределах 10000, новое значение жалованья будет равно 0, от 10000 включительно до 20000 - единице и так далее. Разумеется, на место делителя 10000 можно ввести любое число. Однако указание малого делителя приведёт к созданию большого числа интервалов и график может потерять свою наглядность из-за случайных колебаний наполняемости интервалов частотами - за "конвульсиями" мелкомасштабного графика мы можем не увидеть общей тенденции распределения.

COMPUTE sal=TRUNC(salary / 10000).

COMPUTE salb=TRUNC(salbegin / 10000).

Создаём переменную grp и присваиваем ей значение 0 - это будет меткой того, что обобщаемые далее данные относятся к переменной salary (sal - в интервальном виде). Во внешний файл записываем частотное распределение переменной sal. Переменная grp для каждого интервала будет содержать "первое значение" (FIRST) из группы, т.е. 0, т.к. переменная, фактически, является константой. На место FIRST можно было бы поставить и MAX, и MEAN и т.д. Аналогичную операцию проделываем с переменной salb.

COMPUTE grp=0.

AGGREGATE OUTFILE='c:\temp\sal.sav'
/BREAK=sal
/n=n /grp=FIRST(grp).

COMPUTE grp=1.

AGGREGATE OUTFILE='c:\temp\salb.sav'
/BREAK=salb
/n=n /grp=FIRST(grp).

Теперь с помощью команды ADD FILES мы "подшиваем" к распределению одной переменной распределение другой. При этом, чтобы все значения, характеризующие жалованье, находились в одной переменной, переименуем salb в sal на лету. Значения для разных переменных не перепутаются, т.к. будут сгруппированы переменной grp. Командой ниже (EXECUTE) мы запускаем отложенные вычисления (команда ADD FILES выполняется). Затем, чтобы не забыть, даём метки значениям grp (VALUE LABELS).

ADD FILES FILE='c:\temp\sal.sav'
/FILE='c:\temp\salb.sav'
/RENAME salb=sal.

EXECUTE.

VALUE LABELS grp 0 'salary' 1 'salbegin'.

Теперь - график:

GRAPH
/SCATTERPLOT(BIVAR)=sal WITH n BY grp.

В качестве упражнения желающие могут попробовать построить аналогичные графики при изначально другой организации данных - с группирующей переменной. То есть, когда целевая переменная одна, но категории наблюдений, к которым относятся её значения, различны. Решать задачу в такой постановке можно двумя способами: 1 - сведение задачи к предыдущей, т.е. реструктуризация данных, 2 - предложить свой метод построения графиков.

Отметим, что в SPSS есть стандартные средства сопоставления распределений по подгруппам переменной. Например:

GET FILE='c:\program files\spss\employee data.sav'.

GRAPH
/HISTOGRAM=salary
/PANEL ROWVAR=gender ROWOP=CROSS .

Всего доброго!

Ведущий рассылки,

Балабанов Антон

Новое на сайте www.spsstools.ru

Переведены и добавлены примеры синтаксиса:

Отметить 5% наиболее высоких зарплат.SPS

Отметить наблюдение, если оно само, либо предшествующее ему, либо последующее наблюдение для одного и того же человека удовлетворяет некоторому условию.SPS

Пометить первую и последнюю дату наблюдения (в пределах каждого ID).SPS

Сохранить только записи пациентов, наблюдавшихся несколько раз.SPS

Вывести частотную таблицу для n наиболее или наименее часто встречающихся категорий.SPS

Отобрать пациентов, которым лекарство 1 назначалось перед лекарством 2.SPS

Отобрать наблюдения, для которых одна и та же буква появлялась в строке дважды.SPS

Осложнённый поиск в текстовой строке.SPS

Переведены и добавлены примеры скриптов:

Выделение итога в таблице SUMMARIZE или вставка разрыва страницы.SBS

В избранное

{#template MAIN} <div id="loginForm" style="display:none;" class="subscriberu_popup"> <div class="popup_register"> {#include js_tmpl_auth_reg_tab} {#if $P.login_register_tab == 1} <form class="authentication-form" method="post" action="/MEMBERLOGIN_authen_cred"> <dl class="rg_block_options"> <dt id="js_tap_panel_auth"> <h1>Войти на сайт</h1> {* {#include js_tmpl_auth_reg_button} *} {#include js_tmpl_auth_reg_action} <hr class="logreg_line noPhones"> <div class="logreg_descr noPhones"><p>{#include js_tmpl_auth_reg_descr} </p></div> <div class="logreg_advice noPhones"> Если вы еще не с нами, то начните с <a href="#" onclick="rgNav('js_tab_reg');return false;" class="dashed" data-func="registr">регистрации</a> </div> <br><br> <a class="dashed auth-enter" href="/manage/author/"><b>Вход для авторов</b></a> </dt> </dl> </form> {#/if} {#if $P.login_register_tab == 2} <div class="rg_block_options"> <div id="js_tap_panel_auth"> <h1>Регистрация</h1> <div class="social_reg"> {* <div class="rg_description">{#include js_tmpl_soc_auth_reg_descr}</div> *} {#include js_tmpl_auth_reg_soc} <div class="rg_soc_auth_agree">{#include js_tmpl_auth_reg_agree}</div> </div> <div class="subscribe_reg"> {* <div class="rg_description"> #include js_tmpl_auth_reg_descr </div> *} {#include js_tmpl_auth_reg_action} </div> {* {#include js_tmpl_auth_reg_button} *} <div class="clr"> </div> <hr class="logreg_line noPhones"> <div class="logreg_descr noPhones">{#include js_tmpl_auth_reg_descr} {#include js_tmpl_soc_auth_reg_descr} </div> </div> </div> {#/if} </div> {* <div class="gray_bg register_shadow"></div> *} </div> {#/template MAIN} {#template js_tmpl_auth_reg_tab} <ul class="rg_nav"> <li id="js_tab_auth" class="{#if $P.login_register_tab == 1} rg_active_nav {#/if} rg_first_nav"><a onclick="rgNav('js_tab_auth');return false;" href="">Вход на сайт</a></li> <li id="js_tab_reg" class="{#if $P.login_register_tab == 2} rg_active_nav {#/if}"><a onclick="rgNav('js_tab_reg');return false;" href="">Регистрация </a></li> </ul> <span onclick="hidebo();" class="rg_closed"> </span> {#/template js_tmpl_auth_reg_tab} {#template js_tmpl_auth_reg_action} {#if $P.login_register_tab == 1} {#include js_tmpl_auth_reg_soc} {#/if} <div class="rg_forms"> <input type="hidden" id="login_register_destination" value="{$P.login_register_destination}"/> {#if $P.login_register_tab == 1} <div class="rg_for_input"> <span class="rg_text_inner">E-mail или код подписчика</span> <input id="credential_0" class="js_keydown_selector rg_input_text" data-js_submit="no" data-js_next_input_name="credential_1" name="" type="text" /> </div> <div class="rg_for_input"> <span class="rg_text_inner">Пароль</span> <input id="credential_1" class="js_keydown_selector rg_input_text" data-js_submit="yes" data-js_action="js_loginFormBut" name="" type="password" onkeyup="showAttention(this,!!window.event.shiftKey)" /> <span class="pswd_attention" id="attention_pswd"> <span class="icon_attention"></span> <span class="pswd_attention-text" id="attention-text_pswd1">Русская раскладка клавиатуры!</span> <span class="pswd_attention-text" id="attention-text_pswd2">У вас включен Caps Lock!</span> <span class="pswd_attention-text" id="attention-text_pswd3">У вас включен Caps Lock и русская раскладка клавиатуры!</span> </span> </div> <div class="rg_for_input input-alien"> <span class="chk noPhones"><input id="chk_alien" name="" type="checkbox" /></span><label for="chk_alien" class="noPhones"> Чужой компьютер</label> <a class="forgot_pass" href="/member/totalrecall">Забыли пароль?</a> </div> <div class="rg_for_input"> <em id="auth_msg" class="reg_error"></em> <input id="lf_typeauthid" value="email" type="hidden"> <input type="submit" class="button button-red logreg_submit" id="js_loginFormBut" value="Войти">  <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> </div> {#/if} {#if $P.login_register_tab == 2} <div class="rg_for_input"> <span class="rg_text_inner">E-mail</span> <input id="arfemail" class="js_keydown_selector rg_input_text" name="" type="text" data-js_submit="yes" data-js_action="js_regFormBut"/> </div> <div class="rg_for_input rg_set_lineh rg_for_input_wide"> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_terms' type="checkbox" data-js_submit="yes" /></span> Я ознакомился и согласен с <a class="link_txd logreg_accLink" href="/faq/vereinbarung.html">условиями сервиса Subscribe.ru</a> </label> <br /> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_personal' type="checkbox" data-js_submit="yes" /></span> Нажимая на кнопку "Готово!", я даю <a class="link_txd logreg_accLink" href="/faq/persverordnung.html">согласие на обработку персональных данных</a> </label> </div> {* <div style="float: left;position: absolute;left: 11em;"> <img src="http://www.kupivip.ru/images/vip/logo.png?1604" style="width: 86px; vertical-align: middle;display: block;"> </div> <div class="rg_for_input rg_set_lineh"> <label class="js_tap_panel_checkbox"><input name="" id="js_tap_panel_checkbox_kupivip" type="checkbox" data-js_submit="yes"> Я хочу получать новости о скидках на одежду</label> </div> *} <div class="rg_for_input"> <em id="reg_msg" class="reg_error rg_for_input_wide"></em> <em id="reg_msg2" class="reg_error rg_for_input_wide"></em> <input id="rf_typeauthid" value="email" type="hidden"> <a class="button button-red logreg_submit" id="js_regFormBut" href="#">Готово!</a> <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> </div> {#/if} </div> {#/template js_tmpl_auth_reg_action} {#template js_tmpl_auth_reg_agree} <div class="rg_for_input rg_set_lineh rg_for_input_wide"> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_terms_reg' type="checkbox" data-js_submit="yes" /></span> Я ознакомился и согласен с <a class="link_txd logreg_accLink" href="/faq/vereinbarung.html">условиями сервиса Subscribe.ru</a></label> <em id="reg_msg_soc" class="reg_error rg_for_input_wide"></em> </div> {#/template js_tmpl_auth_reg_agree} {#template js_tmpl_auth_reg_button} <div class="rg_butons_socials"> {#if $P.login_register_tab == 1} <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="auth_email" href="#"><span><i></i>Email</span></a> <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="auth_openid" href="#"><span><i></i>OpenID</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="auth_vkontakte" href="#"><span><i></i>Вконтакте</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="auth_mailru" href="#"><span><i></i>Mail.Ru</span></a> {#/if} {#if $P.login_register_tab == 2} <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="reg_email" href="#"><span><i></i>Email</span></a> <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="reg_openid" href="#"><span><i></i>OpenID</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="reg_vkontakte" href="#"><span><i></i>Вконтакте</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="reg_mailru" href="#"><span><i></i>Mail.Ru</span></a> {#/if} </div> {#/template js_tmpl_auth_reg_button} {#template js_tmpl_auth_reg_descr} {#if $P.login_register_tab == 1} Для оформления подписки на выбранную рассылку, работы с интересующей вас группой или доступа в нужный вам раздел, просим авторизоваться на Subscribe.ru {#/if} {#if $P.login_register_tab == 2} Для регистрации укажите ваш e-mail адрес. Адрес должен быть действующим, на него сразу после регистрации будет отправлено письмо с инструкциями и кодом подтверждения. {#/if} {#/template js_tmpl_auth_reg_descr} {#template js_tmpl_soc_auth_reg_descr} Или зарегистрируйтесь через социальную сеть. {#/template js_tmpl_soc_auth_reg_descr} {#template js_tmpl_auth_reg_soc} <div class="rg_soc"> {#if $P.login_register_tab == 1} <a onclick="return _checkSocConfirm(event)" href="https://oauth.vk.com/authorize?client_id=3954260&scope=wall,offline,photos,groups,video,audio,email&redirect_uri={location.protocol+'//'+location.host}/member/login/vk/&response_type=code&v=5.15" class="login_register_vk_button"> <span class="login_register_vk_icon"></span> </a> {#/if} {#if $P.login_register_tab == 2} <a onclick="return _checkSocConfirm(event)" href="https://oauth.vk.com/authorize?client_id=3954260&scope=wall,offline,photos,groups,video,audio,email&redirect_uri={location.protocol+'//'+location.host}/member/join/vk&response_type=code&v=5.15" class="login_register_vk_button"> <span class="login_register_vk_icon"></span> </a> {#/if} </div> {#/template js_tmpl_auth_reg_soc}

{#template MAIN} <div id="loginForm" style="display:none;" class="subscriberu_popup"> <div class="popup_register"> {#include js_tmpl_auth_reg_tab} <dl class="rg_block_options"> <dt id="js_tap_panel_auth"> <p class="rg_description">{#include js_tmpl_auth_reg_descr}</p> <div class="clr"> </div> {#include js_tmpl_auth_reg_action} <div class="clr"> </div> </dt> </dl> </div>  </div> {#/template MAIN} {#template js_tmpl_auth_reg_tab} <ul class="rg_nav"> <li id="js_tab_reg" class="rg_active_nav rg_first_nav"><a href="" onclick="return false;" >Регистрация</a></li> </ul> <span onclick="hidebo();" class="rg_closed"> </span> {#/template js_tmpl_auth_reg_tab} {#template js_tmpl_auth_reg_descr} <strong>Пожалуйста, подтвердите ваш адрес.</strong><br><br>Вам отправлено письмо для подтверждения вашего адреса {$P.register_confirm_mail}.<br>Для подтверждения адреса перейдите по ссылке из этого письма. {#/template js_tmpl_auth_reg_descr} {#template js_tmpl_auth_reg_action} <div class="rg_forms confirm_code_from_letter"> <div class="rg_for_input"> <span class="rg_inp_descr" style="width:15em;">Или введите код из письма:</span> <input type="text" value="" id="confirm_code" name="" data-js_submit="yes" data-js_action="js_confirmFormBut" class="js_keydown_selector rg_input_text_conf" > </div> <div class="rg_for_input"><label>Не пришло письмо? <b>Пожалуйста, проверьте папку Спам</b><br /> (папку для нежелательной почты).</label><br /> <a href="" onclick="ajax_recall_code();return false" >Вышлите мне письмо еще раз!</a></div> <div class="rg_for_input"> <em class="reg_error" id="confirm_msg"></em> <a href="#" class="button button-red" id="js_confirmFormBut">Готово</a> <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> <br> </div> </div> {#/template js_tmpl_auth_reg_action}