15.09.2022

Критерий согласия Пирсона


Критерий согласия Пирсона или критерий согласия χ 2 {displaystyle chi ^{2}} (хи-квадрат) — непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

Является наиболее часто употребляемым критерием для проверки гипотезы о принадлежности наблюдаемой выборки x 1 , x 2 , . . . , x n {displaystyle x_{1},x_{2},...,x_{n}} объёмом n {displaystyle n} некоторому теоретическому закону распределения F ( x , θ ) {displaystyle F(x, heta )} .

Критерий хи-квадрат для анализа таблиц сопряжённости был разработан и предложен в 1900 году основателем математической статистики английским учёным Карлом Пирсоном.

Критерий может использоваться при проверке простых гипотез вида

H 0 : F n ( x ) = F ( x , θ ) , {displaystyle H_{0}:F_{n}(x)=F(x, heta ),}

где θ {displaystyle heta } — известный вектор параметров теоретического закона, и при проверке сложных гипотез вида

H 0 : F n ( x ) ∈ { F ( x , θ ) , θ ∈ Θ } , {displaystyle H_{0}:F_{n}(x)in left{F(x, heta ), heta in Theta ight},}

когда оценка θ ^ {displaystyle {hat { heta }}} скалярного или векторного параметра распределения F ( x , θ ) {displaystyle F(x, heta )} вычисляется по той же самой выборке.

Статистика критерия

Процедура проверки гипотез с использованием критериев типа χ 2 {displaystyle chi ^{2}} предусматривает группирование наблюдений. Область определения случайной величины разбивают на k {displaystyle k} непересекающихся интервалов граничными точками

x ( 0 ) , x ( 1 ) , . . . , x ( k − 1 ) , x ( k ) , {displaystyle x_{(0)},x_{(1)},...,x_{(k-1)},x_{(k)},}

где x ( 0 ) {displaystyle x_{(0)}} — нижняя грань области определения случайной величины; x ( k ) {displaystyle x_{(k)}} — верхняя грань.

В соответствии с заданным разбиением подсчитывают число n i {displaystyle n_{i}} выборочных значений, попавших в i {displaystyle i} -й интервал, и вероятности попадания в интервал

P i ( θ ) = F ( x ( i ) , θ ) − F ( x ( i − 1 ) , θ ) , {displaystyle P_{i}( heta )=F(x_{(i)}, heta )-F(x_{(i-1)}, heta ),}

соответствующие теоретическому закону с функцией распределения F ( x , θ ) . {displaystyle F(x, heta ).}

При этом

n = ∑ i = 1 k n i {displaystyle n=sum _{i=1}^{k}n_{i}} и ∑ i = 1 k P i ( θ ) = 1. {displaystyle sum _{i=1}^{k}P_{i}( heta )=1.}

При проверке простой гипотезы известны как вид закона F ( x , θ ) {displaystyle F(x, heta )} , так и все его параметры (известен скалярный или векторный параметр θ {displaystyle heta } ).

В основе статистик, используемых в критериях согласия типа χ 2 {displaystyle chi ^{2}} , лежит измерение отклонений n i / n {displaystyle n_{i}/n} от P i ( θ ) {displaystyle P_{i}( heta )} .

Статистика критерия согласия χ 2 {displaystyle chi ^{2}} Пирсона определяется соотношением

χ 2 = n ∑ i = 1 k ( n i / n − P i ( θ ) ) 2 P i ( θ ) . {displaystyle chi ^{2}=nsum _{i=1}^{k}{frac {left(n_{i}/n-P_{i}( heta ) ight)^{2}}{P_{i}( heta )}}.}

В случае проверки простой гипотезы, в пределе при n → ∞ {displaystyle n o infty } эта статистика подчиняется χ r 2 {displaystyle chi _{r}^{2}} -распределению с r = k − 1 {displaystyle r=k-1} степенями свободы, если верна проверяемая гипотеза H 0 {displaystyle H_{0}} . Плотность χ r 2 {displaystyle chi _{r}^{2}} -распределения, которое является частным случаем гамма-распределения, описывается формулой

g ( s ) = 1 2 r / 2 Γ ( r / 2 ) s r / 2 − 1 e − s / 2 . {displaystyle g(s)={frac {1}{2^{r/2}Gamma (r/2)}}s^{r/2-1}e^{-s/2}.}

Проверяемая гипотеза H 0 {displaystyle H_{0}} отклоняется при больших значениях статистики, когда вычисленное по выборке значение статистики χ n 2 {displaystyle chi _{n}^{2}} больше критического значения χ r , α 2 , {displaystyle chi _{r,alpha }^{2},}

P ( χ n 2 > χ r , α 2 ) = 1 2 r / 2 Γ ( r / 2 ) ∫ χ r , α 2 ∞ s r / 2 − 1 e − s / 2 d s {displaystyle Pleft(chi _{n}^{2}>chi _{r,alpha }^{2} ight)={frac {1}{2^{r/2}Gamma (r/2)}}int _{chi _{r,alpha }^{2}}^{infty }s^{r/2-1}e^{-s/2}ds}

или достигнутый уровень значимости (p-значение) меньше заданного уровня значимости (заданной вероятности ошибки 1-го рода) α {displaystyle alpha } .

Проверка сложных гипотез

При проверке сложных гипотез, если параметры закона F ( x , θ ) {displaystyle F(x, heta )} по этой же выборке оцениваются в результате минимизации статистики χ n 2 {displaystyle chi _{n}^{2}} или по сгруппированной выборке методом максимального правдоподобия, то статистика χ n 2 {displaystyle chi _{n}^{2}} при справедливости проверяемой гипотезы подчиняется χ r 2 {displaystyle chi _{r}^{2}} -распределению с r = k − m − 1 {displaystyle r=k-m-1} степенями свободы, где m {displaystyle m} — количество оценённых по выборке параметров.

Если параметры оцениваются по исходной негруппированной выборке, то распределение статистики не будет являться χ k − m − 1 2 {displaystyle chi _{k-m-1}^{2}} -распределением. Более того, распределения статистики при справедливости гипотезы H 0 {displaystyle H_{0}} будут зависеть от способа группирования, то есть от того, как область определения разбивается на интервалы.

При оценивании методом максимального правдоподобия параметров по негруппированной выборке можно воспользоваться модифицированными критериями типа χ 2 {displaystyle chi ^{2}} .

О мощности критерия

При использовании критериев согласия, как правило, не задают конкурирующих гипотез: рассматривается принадлежность выборки конкретному закону, а в качестве конкурирующей гипотезы — принадлежность любому другому. Естественно, что критерий по-разному будет способен отличать от закона, соответствующего H 0 {displaystyle H_{0}} , близкие или далёкие от него законы. Если задать конкурирующую гипотезу H 1 {displaystyle H_{1}} и соответствующий ей некоторый конкурирующий закон F 1 ( x , θ ) {displaystyle F_{1}(x, heta )} , то можно рассуждать уже об ошибках двух видов: не только об ошибке 1-го рода (отклонении проверяемой гипотезы H 0 {displaystyle H_{0}} при её справедливости) и вероятности этой ошибки α {displaystyle alpha } , но и об ошибке 2-го рода (неотклонении H 0 {displaystyle H_{0}} при справедливости H 1 {displaystyle H_{1}} ) и вероятности этой ошибки β {displaystyle eta } .

Мощность критерия по отношению к конкурирующей гипотезе H 1 {displaystyle H_{1}} характеризуется величиной 1 − β {displaystyle 1-eta } . Критерий тем лучше распознаёт пару конкурирующих гипотез H 0 {displaystyle H_{0}} и H 1 {displaystyle H_{1}} , чем выше его мощность.

Мощность критерия согласия χ 2 {displaystyle chi ^{2}} Пирсона существенно зависит от способа группирования и от выбранного числа интервалов.

При асимптотически оптимальном группировании, при котором максимизируются различные функционалы от информационной матрицы Фишера по группированным данным (минимизируются потери, связанные с группированием), критерий согласия χ 2 {displaystyle chi ^{2}} Пирсона обладает максимальной мощностью относительно «(очень) близких» конкурирующих гипотез.

При проверке простых гипотез и использовании асимптотически оптимального группирования критерий согласия χ 2 {displaystyle chi ^{2}} Пирсона имеет преимущество в мощности по сравнению с непараметрическими критериями согласия. При проверке сложных гипотез мощность непараметрических критериев возрастает и такого преимущества нет. Однако для любой пары конкурирующих гипотез (конкурирующих законов) за счёт выбора числа интервалов и способа разбиения области определения случайной величины на интервалы можно максимизировать мощность критерия.


Похожие новости:

Число Хагена

Число Хагена
Число Хагена (Hg) — критерий подобия в гидродинамике. Выражает отношение напора к вязкому трению. Hg =

Число Вебера

Число Вебера
Число Вебера ( W e {displaystyle mathrm {We} } ) — критерий подобия в гидродинамике, определяющий отношение инерции жидкости к

Континуум (в физике)

Континуум (в физике)
Континуум в физике обозначает некоторую сплошную среду, в которой исследуются процессы/поведение этой среды при различных внешних условиях. Вводится на основании гипотезы сплошности, в рамках которой

Треска, Анри Эдуард

Треска, Анри Эдуард
Анри Эдуард Треска (фр. Henri Édouard Tresca: 12 октября 1814, Дюнкерк — 21 июня 1885, Париж) — французский инженер-механик, профессор Национальной консерватории искусств и ремёсел в Париже. Член
Комментариев пока еще нет. Вы можете стать первым!

Добавить комментарий!

Ваше Имя:
Ваш E-Mail:
Введите два слова, показанных на изображении: *
Популярные новости
Преимущества и особенности деревянных ящиков нестандартной формы
Преимущества и особенности деревянных ящиков нестандартной формы
Разнообразие транспортной и упаковочной тары никогда не умаляет значения деревянных ящиков, которые...
Покупка и установка кондиционера под ключ
Покупка и установка кондиционера под ключ
Кондиционер — это климатическое оборудование повсеместного использования, а именно, в бытовых,...
Разновидности колес для мусорных баков и контейнеров
Разновидности колес для мусорных баков и контейнеров
Емкости для накопления мусора могут находится как на улице, так и внутри зданий. Речь идет о баках...
Все новости