

Занятие 3.
ОПИСАТЕЛЬНАЯ СТАТИСТИКА
Расчет параметров описательной статистики в программе STATISTICA выполняется при помощи модуля Descriptive statistics (Описательная статистика).
Для удобства работы можно вывести дополнительную панель инструментов, которая содержит кнопки запуска практически всех типов статистического анализа, реализованных в программе. Вывод этой панели значительно облегчает работу, поскольку позволяет оперативно вызывать требуемый анализ. Для этого в разделе View (Вид) основного меню выберите пункт Toolbars (Инструменты), а в нем - Statistics. В верхней части рабочего окна появится данная дополнительная панель.
Откройте файл с данными или создайте новый.
Войдите в раздел Statistics основного меню и выберите в нем пункт Basic statistics/Tables. В выскочившем окошке выберите пункт Descriptive statistics (Описательная статистика).
Внешний вид окна Descriptive statistics приведен на рисунке 1.
Рисунок 1. Внешний вид модуля Descriptive statistics на закладке Quick
Окно Descriptive statistics имеет некоторые элементы, встречающиеся в большинстве модулей программы, например:
- кнопка Variables, с помощью которой программе указываются анализируемые переменные;
- кнопка Summary - для вывода результатов анализа;
- кнопка Options - для настройки внешнего вида программы и окон вывода результатов анализа;
- кнопка Cancel – отмена.
Кроме того, это окно имеет несколько закладок.
По умолчанию перед пользователем первой предстает закладка Quick (Быстро). Находясь на ней, можно выполнить следующие операции:
- рассчитать показатели описательной статистики - кнопка Summary: Descriptive statistics. Перечень рассчитываемых показателей определяется настройками, заданными на другой закладке окна - Advanced;
- получить таблицу с частотами встречаемости каждого из значений анализируемой переменной - кнопка Frequency Tables (см. занятие 1);
- построить гистограмму частотного распределения значений анализируемой переменной - кнопка Histograms. Автоматически вместе с гистограммой программа нарисует теоретически ожидаемую нормальную кривую, глядя на которую, можно сделать вывод о том, подчиняются ли анализируемые данные нормальному закону распределения.
- Построить для выбранной переменной (или для нескольких переменных одновременно) график типа “коробочка с усами” (см. ниже) - кнопка Box & whisker plot for all variables.
Для расчета подробного перечня показателей описательной статистики следует воспользоваться другой закладкой модуля – Advanced (Расширенные настройки).
Рисунок 2. Окно Descriptive statistics на закладке Advanced (Расширенные настройки)
Основную часть закладки Advanced занимает список следующих статистических показателей:
- Valid N - объем совокупности;
- Mean - арифметическая средняя;
- Sum - сумма значений анализируемой переменной;
- Median - медиана;
- Mode - мода;
- Geom. mean - геометрическая средняя;
- Harm. mean - гармоническая средняя;
- Standard Deviation - стандартное отклонение;
- Variance - дисперсия;
- Std. err. of mean - стандартная ошибка средней;
- Conf. limits for means: Interval % - доверительные пределы для средних: ширина доверительного интервала;
- Skewness - коэффициент асимметрии;
- Std. err., Skewness - стандартная ошибка коэффциента асимметрии;
- Kurtosis - коэффициент эксцесса;
- Std. err., Kurtosis - стандартная ошибка коэффициента эксцесса;
- Minimum & maximum - минимальное и максимальное значения;
- Lower & upper quartiles - нижний и верхний квартили;
- Perсentile boundaries: First & Second: первый и второй процентили;
- Range - размах;
- Quartile range - межквартильный размах.
На закладке Advanced имеются также следующие кнопки:
- select all stats - нажатие на эту кнопку приводит к выбору всех имеющихся статистических показателей для последующего их расчета;
- reset - сброс всех показателей;
- save settings as default - выбрав определенные показатели и нажав на эту кнопку, вы даете программе команду, чтобы она рассматривала данные показатели в качестве стандартных при последующих запусках модуля.
Следующей за Advanced идет закладка Normality (Нормальность).
Рисунок 3. Окно Descriptive statistics на закладке Normality
Это важная составляющая модуля описательной статистики, которой вам придется пользоваться очень часто. С помощью элементов этой закладки можно определить, насколько статистически значимо частотное распределение ваших данных отличается от нормального распределения. Наиболее важными элементами здесь являются:
- кнопки Frequency tables и Histograms;
- поле Categorization (Категоризация): воспользовавшись опцией Number of intervals, можно указать программе, сколько “столбиков” ей следует изобразить на гистограмме. Эта опция используется в тех случаях, когда анализируемый биологический признак является непрерывным. Если же он дискретен, т.е. выражается только целыми числами, следует отметить опцию Integral intervals (Categories).
- опция Normal expected frequencies (Ожидаемые нормальные частоты): при ее выделении и последующем нажатии на кнопку Frequency tables программа выдаст таблицу, которая помимо фактических частот численных значений переменной, будет содержать также теоретически ожидаемые нормальные частоты.
Тесты, применяемые для проверки соответствия анализируемых данных закону нормального распределения - Kolmogorov-Smirnov & Lilliefors test for normality и Shapiro-Wilk’s W test. Подробнее эти методы будут рассмотрены позже.
В ряде случаев полезной может оказаться и закладка Prob. & Scatterplots (Вероятностные графики и диаграммы рассеяния), следующая за Normality. В частности, с ее помощью можно построить двух- и трехмерные графики зависимости между двумя переменными, а также проверить данные на нормальность с использованием т.н. «вероятностной бумаги» (Normal probability plot).