

Проверка нормальности распределения значений признака
Классическим параметрическим методом, позволяющим сравнить средние значения изучаемого признака, рассчитанные на основе двух выборок, является t-тест Стьюдента (или просто «t-тест»).
Критерий Стьюдента (t-тест Стьюдента или просто «t-тест») применяется, если нужно сравнить только две группы количественных признаков с нормальным распределением (частный случай дисперсионного анализа). Но применение его является оправданным лишь примерно в 20% случаев! Этим критерием нельзя пользоваться, сравнивая попарно несколько групп, в этом случае необходимо применять дисперсионный анализ. Ошибочное использование критерия Стьюдента увеличивает вероятность «выявить» несуществующие различия. Например, вместо того, чтобы признать несколько методов лечения равно эффективными (или неэффективными), один из них объявляют лучшим.
Применение «t-теста» допустимо при наличии следующих условий:
- соответствие частотного распределения данных в каждой из сравниваемых групп закону нормального распределения;
- отсутствие статистически значимой разницы между дисперсиями сравниваемых групп (однородность дисперсий).
- наличие достаточно большого числа наблюдений в обеих сравниваемых группах (не меньше 20).
Если данные условия не соблюдать, то применение теста Стьюдента приведет к ошибочным результатам. Наиболее «опасным» является несоблюдение требования о нормальности распределения значений признака в каждой из сравниваемых группах. Существует достаточно большое число способов проверить, соответствуют ли анализируемые данные нормальному распределению. Мы рассмотрим три подхода, реализованные в программе STATISTICA.
На рисунке 1 представлены данные о количестве лейкоцитов у 50 пациентов с перитонитом. Необходимо установить, распределены ли эти данные по нормальному закону.
Рисунок 1. Количество лейкоцитов у пациентов с перитонитом
В программе STATISTICA имеется специальный модуль для проверки соответствия данных тому или иному закону распределения случайных величин - Distribution Fitting (Подгонка распределений). Этот модуль можно запустить из пункта главного меню Statistics, или нажав на кнопку на дополнительной панели инструментов (ввод данной панели описан в занятии 1).
Рисунок 2. Выбор специального модуля - Distribution Fitting (Подгонка распределений)
Внешний вид окна модуля приведен на рисунке 2.
Рисунок 3. Модуль Distributions fitting программы STATISTICA
Как видно на приведенном рисунке, в программе STATISTICA можно сравнивать эмпирические распределения со многими теоретическими законами распределения случайных величин.
Поскольку мы хотим проверить, подчиняются ли данные о количестве лейкоцитов пациентов нормальному распределению, в списке непрерывных распределений (Continuous distributions) выбираем Normal и жмем ОК. Далее появится еще одно окошко (рисунок 4), где необходимо указать программе, какую именно переменную мы хотим проанализировать, и как. Переменная для анализа задается путем нажатия кнопки Variables. Остальные настройки можно оставить неизменными.
Рисунок 4. Окно Fitting continuous distributions (Подгонка непрерывных распределений) модуля Distribution fitting
Нажав на кнопку Plot of observed and expected distributions (Изобразить наблюдаемое и ожидаемое распределения), получим гистограмму распределения данных о количестве лейкоцитов и колоколообразную красную кривую (рисунок 5), соответствующую ожидаемому нормальному распределению (у него те же средняя арифметическая и стандартное отклонение, что и в анализируемой совокупности).
Рисунок 5. Графический результат анализа, выполненного в модуле Distribution Fitting
В целом распределение значений анализируемого признака на рисунке совпадает с нормальным (столбики гистограммы примерно выстраиваются в колоколообразную фигуру). Это заключение, основанное на визуальном анализе распределения, имеет и более строгое подтверждение в виде результатов теста хи-квадрат (Chi-square test, см. в верхней части графика). Данный тест проверяет нулевую гипотезу о том, что наблюдаемое распределение признака не отличается от теоретически ожидаемого нормального распределения. Поскольку вероятность справедливости этой гипотезы Р оказалась больше 0.05 (0.43850), мы принимаем, что она действительно верна.
Однако, следует отметить, что мощность теста хи-квадрат при проверке нормальности распределения относительно невысока. Поэтому лучше воспользоваться другими тестами.
Их можно найти в модуле Descriptive Statistics (Описательная статистика), который находится здесь: Statistics > Basic Statistics/Tables. После запуска этого модуля необходимо открыть закладку Normality и в поле Distribution (Распределение) разыскать опции Kolmogorov-Smirnov and Lilliefors test for normality (Тест Колмогорова-Смирнова и Лиллиефорса на нормальность) и Shapiro-Wilk’s W test (W-тест Шапиро-Уилка) (рисунок 6).
Рисунок 5. Окно модуля Descriptive Statistics на закладке Normality
Для выбора того или иного теста, достаточно поставить флажок рядом с его названием. После выбора анализируемой переменной (кнопка Variables) и нажатия кнопки Histograms программа нарисует график с гистограммой распределения значений признака и ожидаемую нормальную кривую (рисунок 6). Результаты тестов на нормальность автоматически располагаются в заголовке этого графика. Как и ранее, при Р > 0.05 следует вывод о том, что анализируемое распределение не отличается от нормального.
Рисунок 6. Результат проверки нормальности распределения данных, выполненной при помощи модуля Descriptive Statistics
ЛЮБОЕ изучение количественного параметра начинается с изучения его распределения. Одним из важных моментов является проверка распределения на соответствие предположения о его "нормальности" (соответствие предположения, что распределение является Гауссово).
Существуют 2 способа проверки: графический и численный (количественный).
Графический способ проверки предполагает изучение гистограммы распределения, построение квантильных диаграмм.
Численные способы представлены изучением характеристик распределения: среднее арифметическое, гармоническое, медиана; дисперсия, коэффициенты вариации ангармонизма, эксцесса. Для проверки гипотезы о нормальности распределения существуют и количественные тесты: стандартно -- Колмогорова-Смирнова, Лиллифорс, Шапиро-Уилка. В последнее время все шире начинают использовать более современные тесты: Шапиро-Франка, Андерсона-Дарлинга, Крамера-фон-Мизеса.
Кроме формальной проверки распределения на нормальность следует выполнить также попытки нормализации данных обратимыми функциями: логарифмирование, пробразование Бокса-Кокса, др. с последующим изучением распределения преобразованных данных.
Следует предостеречь от формального "соответствует/не соответствует". Как правило, мы не знаем истинного распределения данных. На основе выполненного анализа МЫ принимаем решение о соответствии или несоответствии распределения. Т.е., ВСЕГДА речь идет о принятом нами решении.
С помощью STATISTICA можно быстро оценить, достаточно ли хорошо реальное распределение моделируется некоторым теоретическим. При этом алгоритм такой оценки остаётся "за кадром". Это иногда может быть недостатком, особенно при обучении статистическим методам. В этом случае полезно использовать MS Excel, что позволяет выполнять оценку пошагово, усваивая сущность алгоритма, но избавляясь от рутинных расчётов. При этом можно создавать пересчитываемые электронные таблицы, автоматически выдающие результат при вводе новых данных. Методики оценки распределения при помощи MS Excel несколькими способами можно найти на http://arhiuch.ru.
Проверка нормальноси распределения по различным общим и специальным криериям согласия в MS Excel описана на http://arhiuch.ru
спасибо, это лучшее объяснение для чайника.
Комментарий №1. Автор:Igoroshka
[04.01.2014 08:54]