54.
Основы дисперсионного анализа
Часто при анализе статистических данных возникает задача определить, насколько действие какого-либо фактора влияет на значение случайной величины. Можно вычислить выборочное среднее при всех возможных значениях фактора и сравнить, насколько значимо отличаются эти выборочные средние. И, хотя сравниваются выборочные средние, для их сравнения используются «исправленные» выборочные дисперсии, отсюда и возникает название метода — дисперсионный анализ.Пусть имеется некоторый фактор F, принимающий значения и воздействующий (возможно) на значения случайной величины X, которую будем предполагать нормально распределенной. Это предположение оправдано в силу центральной предельной теоремы, причем значение дисперсии неизвестно. Если имеется несколько факторов, воздействующих на значение случайной величины, то говорят о многофакторном дисперсионном анализе (двухфакторном, трехфакторном и так далее). Мы ограничимся изложением основных идей однофакторного дисперсионного анализа, то есть случаем, когда имеется только один фактор с различными значениями (иногда говорят — уровнями) .Будем считать, что из генеральной совокупности извлечены выборки объемом n, каждая выборка соответствует одному значению фактора. Таким образом, имеем p выборок одинакового объема n или, другими словами, p групп. Значения случайной величины X будем обозначать xij, где второй индекс нумерует группу в выборке, а первый — порядок элемента в группе. Для каждой из групп можно ввести понятие групповое среднее, а также общее среднее, как это делалось нами в кванте 49. Введем теперь понятия, описывающие рассеяние значений случайной величины около среднего.Определение. Общей суммой квадратов отклонений значений случайной величины от общего среднего называется .Определение. Факторной суммой квадратов отклонений групповых средних от общего среднего называется .Определение. Остаточной суммой квадратов отклонений значений случайной величины от групповых средних называется .Замечание. Сформулированные определения аналогичны определениям общей, межгрупповой и внутригрупповой дисперсий, соответственно.Теорема..Доказательство. Аналогично теореме в кванте 51.Факторная сумма характеризует воздействие фактора Fна случайную величину X. Действительно, если такое воздействие имеется, то разные значения фактора будут давать различающиеся значения групповых средних, причем различие будет тем больше, чем сильней воздействие. Значит, и квадраты их отклонений от общего среднего будут расти, что и определяет рост при наличии воздействия фактора Fна случайную величину. Остаточная сумма характеризует воздействие на случайную величину случайных причин. Действительно, внутри одной группы, то есть при одном значении фактора, случайная величина принимает значения только под воздействием случайных причин. Вычислив сумму квадратов отклонений внутри одной группы от группового среднего, получим рассеяние за счет случайных причин. Проделав такую операцию для всех групп и просуммировав, получим остаточную сумму, которая таким образом не содержит воздействия фактора на случайную величину, а характеризует только случайное рассеяние. Общая сумма содержит и воздействие фактора, и воздействие случайных причин.Вводят также понятия общей, факторной и остаточной дисперсий, которые представляют собой «исправленные» выборочные дисперсии:.Для определения воздействия некоторого фактора на случайную величину можно поставить следующую статистическую задачу. Пусть нулевая гипотеза состоит в том, что групповые средние, соответствующие различным значениям фактора F, равны. Соответственно, альтернативная гипотеза: средние, соответствующие различным значениям фактора Fне равны. Если верна нулевая гипотеза, то фактор не влияет на значения случайной величины, если верна альтернативная гипотеза, то влияет. Если фактор Fне влияет на значения случайной величины, то факторная и остаточная дисперсии представляют собой несмещенную оценку генеральной дисперсии, то есть равны между собой. Таким образом, гипотеза о равенстве групповых средних эквивалентна гипотезе о равенстве факторной и остаточной дисперсий. Далее в качестве статистического критерия можно выбрать отношение и на основании критерия Фишера—Снедекора с заданным уровнем значимости принять или отвергнуть нулевую гипотезу (см. квант 53). В этом и состоит основная идея дисперсионного анализа.Видеолекция «Основы дисперсионного анализа»: