в каком разделе программы spss можно построить линейное распределение
2.2. Линейные распределения для многовариантных вопросов
Как было сказано выше (см. раздел 1.4.2), в SPSS все многовариантные вопросы рассматриваются как совокупность одновариантных переменных, обозначающий варианты ответа. Иными словами, многовариантный вопрос, содержащий три варианта ответа, в SPSS представляется как три дихотомические переменные, принимающие два значения-флага: отмечено/не отмечено.
Наиболее распространены два формата представления многовариантных переменных. В первом случае переменные, представляющие варианты ответа многовариантной переменной, принимают значение 1 (выбрано) или 0 (не выбрано); во втором случае — 1 (выбрано) или System Missing (не выбрано).
Как показывает опыт, первый способ предпочтительнее. Второй способ используется в специфических случаях (например, если необходимо использовать SPSS в качестве клиента автоматизации построения распределений при помощи программ на Sax Basic). Чтобы указать SPSS, какие переменные являются вариантами ответа для многовариантной переменной, наиболее часто используется описываемый далее способ, при котором после формирования многовариантной переменной ее можно использовать для построения линейных и перекрестных распределений.
Для иллюстрации мы построим линейное распределение по многовариантному вопросу Где Вы покупаете сметану? (q7) с вариантами ответа:
3. супермаркет (q7_3);
Чтобы построить распределения по многовариантным вопросам, прежде всего необходимо сформировать многовариантную переменную. Это делается при помощи меню Analyze ► Multiple Response ► Define Sets. Открывшееся диалоговое окно позволяет сформировать многовариантные переменные (правый список) из общего списка доступных переменных (левый список), как показано на рис. 2.10.
Рис. 2.10. Диалоговое окно Define Multiple Response Sets со сформированной многовариантной переменной Торговые точки
Необходимо отметить, что SPSS не сохраняет многовариантные переменные при закрытии рабочего файла с данными. Поэтому каждый раз, когда нужно проанализировать многовариантные вопросы, вам придется снова создавать соответствующие переменные.
Мы создали многовариантную переменную для анализа и теперь можем приступать к построению линейных распределений. Для этого воспользуемся меню Analyze ► Multiple Response ► Frequencies. Следует отметить, что данное меню позволяет строить только таблицы линейных распределений (и нет возможности вывести диаграммы). В открывшемся диалоговом окне в левом списке всех доступных многовариантных переменных (в нашем случае там только одна переменная Торговые точки) выберите интересующие переменные для анализа и перенесите их в правую область Table(s) for (рис. 2.11). Для того чтобы запустить процедуру построения линейных распределений, щелкните на кнопке ОК.
Рис. 2.11. Диалоговое окно Multiple Response Frequencies
В окне SPSS Viewer будет создана таблица с линейными распределениями (частотами) по выбранным переменным (рис. 2.12). Столбец Count содержит количество респондентов, указавших каждый из возможных вариантов ответа на многовариантный вопрос. Столбец Pet of Cases показывает доли каждого варианта ответа от общего числа респондентов, ответивших на многовариантный вопрос (гистограмма). Данное число показано под таблицей (999 valid cases, то есть линейное распределение построено по 999 респондентам) и рассчитано как количество анкет, в которых выбран хотя бы один из возможных вариантов ответа на данный многовариантный вопрос. В той же строке (под таблицей) указано количество анкет, в которых не выбрано ни одного варианта ответа (4 missing cases, то есть четыре респондента не указали, в каких типах торговых точек они обычно приобретают сметану). Столбец Pet of Responses показывает доли каждого варианта ответа от общего числа ответов; их сумма всегда равна 100 % (сектограмма). Суммы по каждому столбцу анализируемой таблицы представлены в строке Total responses.
2.1. Линейные распределения для одновариантных вопросов
Одновариантные вопросы являются основным ресурсом анализа при помощи SPSS. Практически все функции, реализованные в данном программном пакете, предназначены для работы только с одновариантными переменными. Анализ многовариантных переменных производится методом выделения каждого варианта ответа в отдельную одновариантную переменную и последующей работы уже с набором одновариантных переменных. Существуют табличные и графические способы построения линейных распределений по одновариантным вопросам. Ниже представлен способ, наиболее распространенный в маркетинговых исследованиях. Рассмотрим линейное распределение респондентов по возрастному признаку. Для этого предположим, что у нас есть файл данных, содержащий одновариантную переменную q4 (Возраст), имеющую порядковую шкалу, с четырьмя возможными вариантами ответа:
Вызов диалогового окна для построения линейных распределений (также называемых частотами) осуществляется при помощи меню Analyze ► Descriptive Statistics ► Frequencies (рис. 2.1). В открывшемся окне в левом списке содержатся все доступные переменные, по которым можно построить линейные распределения. При помощи мыши перетащите нужные одновариантные переменные в правый список (в нашем случае — q4). При этом для анализа можно указать сразу несколько переменных.
Рис. 2.1. Диалоговое окно Frequencies с
Выбранной для анализа переменной Возраст
В диалоговом окне Statistics, вызываемом при помощи одноименной кнопки, можно указать, какие описательные статистики, кроме относительных и абсолютных значений, необходимо рассчитать (рис. 2.2). Например, рассчитаем моду (наиболее часто встречающееся значение), выбрав соответствующий параметр. Кроме этой статистики, SPSS позволяет рассчитать другие полезные величины:
■ среднее арифметическое для интервальных переменных (Mean);
■ минимальное и максимальное значения (Minimum и Maximum), — а также разбить значения переменной на квартили или другие процентили (область PercentiLe Values) и т. д.
Однако большинство представленных в этом диалоговом окне статистик подходит только для переменных, имеющих интервальный тип шкалы. Закрыв диалоговое окно Statistics посредством щелчка на кнопке Continue, вы вновь попадете в ос-, новное окно Frequencies.
Рис. 2.2. Диалоговое окно Statistics
Необходимо сказать несколько слов относительно основных описательных статистик, показанных на рис. 2.2. Пожалуй, наиболее популярными характеристиками, используемыми для описания переменных, являются показатели группы Central Tendency (центральная тенденция): среднее арифметическое (Mean); медиана, или половина значений отрезка (Median); мода, или наиболее часто встречающееся значение (Mode); а также сумма (Sum). Имейте в виду, что данные показатели применяются неодинаково к переменным с различным типом шкалы (табл. 2.3).
Таблица 2.3. Наиболее релевантные показатели центральной тенденции для переменных с различным типом шкалы
Наиболее релевантная характеристика
Другие релевантные характеристики
Из представленной таблицы видно, что наиболее релевантной описательной статистикой, характеризующей переменные с интервальной шкалой, является среднее арифметическое (Mean). Для переменных с порядковой шкалой данный показатель неприменим, так как он рассчитывается исходя из значений переменной (кодов вариантов ответа), а не самих значений интервалов.
Где — средневзвешенное значение; n — количество интервалов (вариантов ответа) в порядковой переменной;
— частота появления i-го варианта ответа;
— среднее арифметическое значение i-ro интервала.
Средняя тенденция переменных с номинальной шкалой не может быть оценена никак, кроме моды, — то есть для таких переменных можно определить только наиболее многочисленную группу. Например, по переменной Пол можно сказать, что в данном случае мужчины составляют три четверти всей выборочной совокупности респондентов.
В табл. 2.2 также видно, что интервальные переменные — наиболее гибкие относительно применения показателей центральной тенденции. Для них можно рассчитать все три рассматриваемые статистики: среднее арифметическое, средневзвешенное и моду. Порядковые переменные находятся на втором месте: с ними могут использоваться только средневзвешенное и мода. И наконец, номинальные переменные являются наименее гибкими: к ним может эффективно применяться только мода.
Теперь мы вновь возвращаемся к диалоговому окну Frequencies. Кнопка Charts вызывает одноименное диалоговое окно, которое позволяет помимо таблиц вывести диаграммы по выбранным переменным (рис. 2.3). По умолчанию SPSS не выводит диаграмм. Давайте построим круговую диаграмму (сектограмму), выбрав параметр Pie charts и указав в области Chart Values на необходимость отобразить на диаграмме не абсолютные (установлено по умолчанию), а относительные значения (Percentages). Выполнив это, закройте диалоговое окно Charts.
С помощью кнопки Format в главном диалоговом окне линейных распределений Frequencies можно указать, каким способом следует сортировать результаты в частотных таблицах (рис. 2.4). Это можно сделать, выбрав соответствующий параметр в области Order by. При этом возможной альтернативой будет сортировка кодов вариантов ответа (в нашем случае — кодировок возрастных групп):
■ по возрастанию: от 1 (16-18 лет) до 4 (старше 60 лет);
■ по убыванию: от 4 до 1;
■ по количеству респондентов, выбравших каждый из рассматриваемых вариантов ответа (в нашем случае — по численности четырех рассматриваемых возрастных групп).
Рис. 2.3. Диалоговое окно Charts
Для иллюстрации нашего примера выберем сортировку по численности возрастных групп по убыванию Descending counts и закроем диалоговое окно Format, щелкнув на кнопке Continue.
Рис. 2.4. Диалоговое окно Format
После щелчка на кнопке ОК в главном диалоговом окне Frequencies откроется окно SPSS Viewer, в котором будут представлены частотные таблицы, а также другая информация, указанная нами на подготовительном этапе.
В таблице Statistics (рис. 2.5) отражаются общие параметры линейного распределения. Здесь представлены:
■ количество респондентов, ответивших на вопрос Возраст (строка Valid), — 1002 человека;
■ количество анкет, в которых на данный вопрос не было получено ответа (строка Missing), — 1 человек;
■ мода (строка Mode), то есть наиболее многочисленная возрастная группа респондентов (в нашем случае вариант 3: лица от 36 до 60 лет).
Следующая таблица, озаглавленная меткой анализируемой переменной (Возраст), отражает количество респондентов, которые указали тот или иной вариант ответа (столбец 2, Frequency), отсортированный по убыванию (рис. 2.6). Также в этой таблице представлен процент лиц, указавших данные варианты ответа от общего числа респондентов (столбец 3, Percent) и от числа ответивших на анализируемый вопрос Возраст (столбец 4, Valid Percent). Последний столбец 5 (Cumulative Percent)
Отражает кумулятивные проценты (то есть вклад каждого варианта ответа в общую сумму). Так же как и в таблице Statistics, здесь указано общее количество ответивших (строка Valid Total) и не ответивших (строка Missing System) на данный вопрос, а также общее количество респондентов (строка Total, в нашем случае 1003).
4 Описательный анализ и линейные распределения
Глава 2 Описательный анализ и линейные распределения
Статистический анализ данных — основное предназначение SPSS (в отличие, например, от Microsoft Excel или Microsoft Access). Графическая подсистема данного программного комплекса, внешний вид создаваемых отчетов и возможности электронной таблицы оставляют желать лучшего; пользовательский интерфейс рассчитан на лиц, хорошо знакомых со статистикой. Некоторые статистические процедуры (например, множественный дисперсионный анализ по методу Фишера) вызываются исключительно при помощи программного синтаксиса (Syntax), работа с которым требует определенных навыков программирования. Но все же, несмотря на эти недостатки, в настоящее время SPSS является одной из лучших программ для проведения профессионального статистического анализа в самых различных областях человеческой деятельности: в бизнесе, психологии, медицине и т. д.
Данный раздел знакомит читателя с основными статистическими процедурами и методами статистического моделирования, наиболее часто применяемыми в маркетинговых исследованиях. Практически все описываемые статистические функции могут применяться для решения нескольких задач. В этом смысле предлагаемое общепринятое разделение методов статистического анализа на описательный анализ, анализ различий, ассоциативный и классификационный анализ весьма условно и отражает лишь общие тенденции их использования именно в маркетинговых исследованиях. Прежде чем приступить к рассмотрению статистических функций SPSS, сделаем одно существенное отступление необходимое для понимания всех последующих разделов этого пособия.
Одним из центральных понятий в статистике является статистическая значимость (р). Именно на основании статистической значимости в большинстве процедур SPSS проверяется практическая пригодность построенных моделей. По сути, статистическая значимость — это вероятность наступления ненаступления исследуемого события. Уровень р ≤ 0,05 часто используется в качестве критерия установления статистической значимости. Он означает, что с вероятностью 95 % можно утверждать: исследуемое событие произошло неслучайно, то есть связано с какой-то системой. В табл. 2.1 представлен наиболее распространенный способ интерпретации различных уровней значимости в маркетинговых исследованиях.
Таблица 2.1. Интерпретация уровней значимости
Уровень статистической значимости, р
Рекомендуемые файлы
В некоторых случаях (например, t-тесты) статистическая значимость в SPSS может быть одно- (1-tailed Sig.) или двухсторонней (2-tailed Sig.). Двухсторонняя значимость показывает, отличается ли значительно среднее значение первой исследуемой переменной от среднего значения второй — без указания направления этого различия, положительного или отрицательного. Односторонняя значимость показывает только направление, в котором второе исследуемое среднее отличается от первого. Второй тип значимости (односторонняя) при анализе данных маркетинговых исследований используется редко, и именно двухсторонняя значимость выводится SPSS по умолчанию. Таким образом, на практике нет необходимости обращать внимание на тип значимости, выводимой SPSS: она всегда будет показывать статистическую значимость исследуемого события1.
Целью описательного анализа является систематизация имеющихся данных. В рамках данной задачи происходит построение линейных распределений, а также характеристика переменных в различных статистических аспектах: расчет среднего, медианы, моды и т. п. Линейные (общие) распределения позволяют подсчитать количество респондентов, указавших тот или иной вариант ответа на рассматриваемый вопрос.
Построение линейных распределений обычно является первым шагом в статистическом анализе данных. При помощи линейных распределений становится возможным систематизировать ответы респондентов. В табл. 2.2 представлены основные характеристики переменных, участвующих в анализе.
Таблица 2.2. Основные характеристики переменных, участвующих в линейных распределениях
2.1. Линейные распределения для одновариантных вопросов
Одновариантные вопросы являются основным ресурсом анализа при помощи SPSS. Практически все функции, реализованные в данном программном пакете, предназначены для работы только с одновариантными переменными. Анализ многовариантных переменных производится методом выделения каждого варианта ответа в отдельную одновариантную переменную и последующей работы уже с набором одновариантных переменных. Существуют табличные и графические способы построения линейных распределений по одновариантным вопросам. Ниже представлен способ, наиболее распространенный в маркетинговых исследованиях. Рассмотрим линейное распределение респондентов по возрастному признаку. Для этого предположим, что у нас есть файл данных, содержащий одновариантную переменную q4 (Возраст), имеющую порядковую шкалу, с четырьмя возможными вариантами ответа:
Вызов диалогового окна для построения линейных распределений (также называемых частотами) осуществляется при помощи меню Analyze ► Descriptive Statistics ► Frequencies (рис. 2.1). В открывшемся окне в левом списке содержатся все доступные переменные, по которым можно построить линейные распределения. При помощи мыши перетащите нужные одновариантные переменные в правый список (в нашем случае — q4). При этом для анализа можно указать сразу несколько переменных.
В диалоговом окне Statistics, вызываемом при помощи одноименной кнопки, можно указать, какие описательные статистики, кроме относительных и абсолютных значений, необходимо рассчитать (рис. 2.2). Например, рассчитаем моду (наиболее часто встречающееся значение), выбрав соответствующий параметр. Кроме этой статистики, SPSS позволяет рассчитать другие полезные величины:
■ среднее арифметическое для интервальных переменных (Mean);
■ минимальное и максимальное значения (Minimum и Maximum), — а также разбить значения переменной на квартили или другие процентили (область PercentiLe Values) и т. д.
Однако большинство представленных в этом диалоговом окне статистик подходит только для переменных, имеющих интервальный тип шкалы. Закрыв диалоговое окно Statistics посредством щелчка на кнопке Continue, вы вновь попадете в ос-, новное окно Frequencies.
Необходимо сказать несколько слов относительно основных описательных статистик, показанных на рис. 2.2. Пожалуй, наиболее популярными характеристиками, используемыми для описания переменных, являются показатели группы Central Tendency (центральная тенденция): среднее арифметическое (Mean); медиана, или половина значений отрезка (Median); мода, или наиболее часто встречающееся значение (Mode); а также сумма (Sum). Имейте в виду, что данные показатели применяются неодинаково к переменным с различным типом шкалы (табл. 2.3).
Таблица 2.3. Наиболее релевантные показатели центральной тенденции для переменных с различным типом шкалы
Наиболее релевантная характеристика
Другие релевантные характеристики
Из представленной таблицы видно, что наиболее релевантной описательной статистикой, характеризующей переменные с интервальной шкалой, является среднее арифметическое (Mean). Для переменных с порядковой шкалой данный показатель неприменим, так как он рассчитывается исходя из значений переменной (кодов вариантов ответа), а не самих значений интервалов.
где — средневзвешенное значение; n — количество интервалов (вариантов ответа) в порядковой переменной;
— частота появления i-го варианта ответа;
— среднее арифметическое значение i-ro интервала.
Средняя тенденция переменных с номинальной шкалой не может быть оценена никак, кроме моды, — то есть для таких переменных можно определить только наиболее многочисленную группу. Например, по переменной Пол можно сказать, что в данном случае мужчины составляют три четверти всей выборочной совокупности респондентов.
В табл. 2.2 также видно, что интервальные переменные — наиболее гибкие относительно применения показателей центральной тенденции. Для них можно рассчитать все три рассматриваемые статистики: среднее арифметическое, средневзвешенное и моду. Порядковые переменные находятся на втором месте: с ними могут использоваться только средневзвешенное и мода. И наконец, номинальные переменные являются наименее гибкими: к ним может эффективно применяться только мода.
Теперь мы вновь возвращаемся к диалоговому окну Frequencies. Кнопка Charts вызывает одноименное диалоговое окно, которое позволяет помимо таблиц вывести диаграммы по выбранным переменным (рис. 2.3). По умолчанию SPSS не выводит диаграмм. Давайте построим круговую диаграмму (сектограмму), выбрав параметр Pie charts и указав в области Chart Values на необходимость отобразить на диаграмме не абсолютные (установлено по умолчанию), а относительные значения (Percentages). Выполнив это, закройте диалоговое окно Charts.
С помощью кнопки Format в главном диалоговом окне линейных распределений Frequencies можно указать, каким способом следует сортировать результаты в частотных таблицах (рис. 2.4). Это можно сделать, выбрав соответствующий параметр в области Order by. При этом возможной альтернативой будет сортировка кодов вариантов ответа (в нашем случае — кодировок возрастных групп):
■ по возрастанию: от 1 (16-18 лет) до 4 (старше 60 лет);
■ по убыванию: от 4 до 1;
■ по количеству респондентов, выбравших каждый из рассматриваемых вариантов ответа (в нашем случае — по численности четырех рассматриваемых возрастных групп).
Для иллюстрации нашего примера выберем сортировку по численности возрастных групп по убыванию Descending counts и закроем диалоговое окно Format, щелкнув на кнопке Continue.
После щелчка на кнопке ОК в главном диалоговом окне Frequencies откроется окно SPSS Viewer, в котором будут представлены частотные таблицы, а также другая информация, указанная нами на подготовительном этапе.
В таблице Statistics (рис. 2.5) отражаются общие параметры линейного распределения. Здесь представлены:
■ количество респондентов, ответивших на вопрос Возраст (строка Valid), — 1002 человека;
■ количество анкет, в которых на данный вопрос не было получено ответа (строка Missing), — 1 человек;
■ мода (строка Mode), то есть наиболее многочисленная возрастная группа респондентов (в нашем случае вариант 3: лица от 36 до 60 лет).
Следующая таблица, озаглавленная меткой анализируемой переменной (Возраст), отражает количество респондентов, которые указали тот или иной вариант ответа (столбец 2, Frequency), отсортированный по убыванию (рис. 2.6). Также в этой таблице представлен процент лиц, указавших данные варианты ответа от общего числа респондентов (столбец 3, Percent) и от числа ответивших на анализируемый вопрос Возраст (столбец 4, Valid Percent). Последний столбец 5 (Cumulative Percent)
отражает кумулятивные проценты (то есть вклад каждого варианта ответа в общую сумму). Так же как и в таблице Statistics, здесь указано общее количество ответивших (строка Valid Total) и не ответивших (строка Missing System) на данный вопрос, а также общее количество респондентов (строка Total, в нашем случае 1003).