Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона.
Если закон распределения генеральной совокупности неизвестен, но есть основания предположить, что он имеет определенный вид (назовем его ), то проверяют основную гипотезу: генеральная совокупность распределена по закону
.
Проверка гипотезы о предполагаемом законе неизвестного закона распределения производится с помощью специально подобранной случайной величины – критерия согласия.
Определение 9. Критерием согласия[1] называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения. |
Ограничимся описанием критерия К. Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности (критерий аналогично применяется и для других типов распределений, в чем и состоит его основное достоинство). С этой целью будем сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты.
Важно отметить, что практически невозможно в результате опыта получить эмпирические частоты, полностью совпадающие с теоретически вычисленными (см. ранее рассмотренный пример). Напомним результаты произведенных вычислений:
Эмпирические частоты |
6 |
13 |
38 |
74 |
106 |
85 |
30 |
10 |
4 |
Теоретические частоты |
3 |
14 |
42 |
82 |
99 |
76 |
37 |
11 |
2 |
Здесь, возможно, столкнуться со следующими случаями:
* расхождение частот случайно (незначимо) и объясняется малым числом наблюдений, либо способом группировки, либо другими причинами;
* расхождение частот неслучайно (значимо) и объясняется тем, что теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности.
Упомянутый выше критерий Пирсона, как и любой другой критерий, не доказывает справедливость гипотезы, а лишь устанавливает, на принятом уровне значимости, ее согласованность или несогласованность с данными наблюдений.
Пусть по выборке объема получено эмпирическое распределение:
Варианты |
|
|
... |
|
Эмпирические частоты |
|
|
... |
|
Допустим, что в предположении нормального распределения генеральной совокупности, вычислены теоретические частоты . При уровне значимости
, требуется проверить основную гипотезу: генеральная совокупность распределена нормально.
В качестве критерия проверки основной гипотезы применим случайную величину
(IV.11)
Очевидно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия (IV.11) и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.
Известно, что при закон распределения случайной величины (IV.11), независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения
с
степенями свободы. Поэтому случайная величина (IV.11) обозначена
, а сам критерий называют критерием согласия «хи-квадрат».
Число степеней свободы находят по формуле:
|
В частности, если предполагаемое распределение нормальное, то оцениваются два параметра (математическое ожидание и среднеквадратическое отклонение), поэтому и число степеней свободы
Поскольку односторонний критерий более «жестко» отвергает основную гипотезу, чем двусторонний, построим правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область, в предположении справедливости основной гипотезы, была равна принятому уровню значимости :
Таким образом, правосторонняя критическая область определяется неравенством
а область принятия основной гипотезы – неравенством
Обозначим значение критерия, вычисленное по данным наблюдений, через и сформулируем правило проверки основной гипотезы.
Для того чтобы, при заданном уровне значимости, проверить основную гипотезу
и по таблице критических точек распределения * Если * Если |
Замечание 1. Объем выборки должен быть достаточно велик, во всяком случае, не менее 50. Каждая группа должна содержать не менее 8-10 вариант; малочисленные группы следует объединить в одну, суммируя при этом частоты.
Замечание 2. Поскольку возможны ошибки первого и второго рода, в особенности, если согласование теоретических и эмпирических частот «слишком хорошее», следует проявлять осторожность. Например, можно повторить опыт, увеличить число наблюдений, воспользоваться другими критериями, построить график распределения, вычислить асимметрию и эксцесс.
Замечание 3. В целях контроля вычислений формулу (IV.12) преобразуют к виду
В качестве иллюстрации рассмотрим пример.
Пример 10: При уровне значимости 0,05, проверим гипотезу о нормальном распределении генеральной совокупности. Эмпирические данные и выровненые теоретические частоты возьмем из примера, рассмотренного ранее.
эмпирические частоты |
6 |
13 |
38 |
74 |
106 |
85 |
30 |
14 |
Теоретические частоты |
3 |
14 |
42 |
82 |
99 |
76 |
37 |
13 |
Вычислим , для чего составим таблицу
|
|
|
|
|
|
|
|
1 |
6 |
3 |
3 |
9 |
3 |
36 |
12 |
2 |
13 |
14 |
-1 |
1 |
0,07 |
169 |
12,07 |
3 |
38 |
42 |
-4 |
16 |
0,38 |
1444 |
34,38 |
4 |
74 |
82 |
-8 |
64 |
0,78 |
5476 |
66,78 |
5 |
106 |
99 |
7 |
49 |
0,49 |
11236 |
113,49 |
6 |
85 |
76 |
9 |
81 |
1,07 |
7225 |
95,07 |
7 |
30 |
37 |
-7 |
49 |
1,32 |
900 |
24,32 |
8 |
14 |
13 |
1 |
1 |
0,08 |
196 |
15,08 |
|
366 |
366 |
|
373,19 |
Контроль :
Найдем далее число степеней свободы, учитывая, что число групп выборки (число различных вариант)
По таблице критических точек распределения по уровню значимости
и числу степеней свободы
, находим
. Таким образом, в силу того, что
нет оснований отвергнуть основную гипотезу. Другими словами, расхождение эмпирических и теоретических частот незначимое. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности.
[1] Имеется несколько критериев согласия: (хи - квадрат) К. Пирсона, Колмогорова, Смирнова и другие.