§1 Основные понятия и терминология.

Многие задачи и проблемы реальной жизни могут быть сформулированы как гипотезы, например: достигнет ли до нового года курс доллара 40 рублей; приводит ли к близорукости работа за компьютером более 5 часов в день через 2 года. Многие гипотезы такого типа проверяются по экспериментальным данным, базируясь на методах математической статистики и теории вероятности.

Однако математическая статистика изучает не вообще всякие гипотезы, а только те, которые могут быть сформулированы как предположение о параметрах законов распределения случайных величин, в том числе  и многомерных.

Определение 1. Пусть исследуется некоторая случайная величина. Любое предположение о законе её распределения называется статистической гипотезой. В математической статистике гипотезы обычно обозначаются как H0, H1, H2

Определение 2. Статистическая гипотеза называется простой, если она полностью определяет закон распределения случайной величины. В противном случае гипотеза называется сложной.

Например:

H0 = {доля студентов на курсе, ни разу не пересдававших экзамен, не меньше 0,6} – статистическая, при  условии, что второй параметр – число студентов на потоке – известен,  может рассматриваться как простая.

H1 = {время работы телевизора подчиняется экспоненциальному распределению с λ = 1/4} – статистическая простая.

H3 = {вес студентов 2-ого курса подчиняется нормальному распределению со средним 70 кг} – статистическая сложная гипотеза, т. к. у нормального распределения 2 параметра и о значении 2-го ничего не известно.

H4 = {чемпион мира по шахматам будет Каспаров} – не статистическая.

Статистическая гипотеза проверяется по выборочным данным, которые обозначаются через x1x2, …, xn.

При проверке статистических гипотез обычно используется следующая схема: рассматривают две гипотезы H0 и H1, взаимно исключающие друг друга, т.е. . Одна из гипотез, обычно обозначаемая через H0, называется основной, а другая называется альтернативной. По результатам наблюдений, т.е. по выборке, надо принять одно из двух решений:

1) гипотеза H0 принимается (H1 – отвергается)

2) гипотеза H0 отвергается в пользу H1.

Например: гипотеза H0 = {доля студентов, которые за 5 лет не пересдавали экзамены, больше 0,6}, H1 = {доля студентов, которые за 5 лет не пересдавали экзамены, не больше 0,6}

При проверке статистических гипотез возможны ошибки двух типов:

Ошибка первого рода происходит тогда, когда H0 истинна, а на основе данных принята гипотеза H1.

Ошибка второго рода происходит тогда, когда H1 истинна, а на основе  данных принята гипотеза H0.

Пример: Пациент пришел на прием к врачу. Гипотеза H0 = {пациент здоров}, H1 = {пациент болен}. Ошибка первого рода происходит, если здорового приняли за больного и начали лечить от несуществующей болезни, ошибка второго рода – если пациент болен, а его не лечат.

 

Общая схема проверки гипотез

Всё множество возможных (выборочных) значений случайной величины разбивается на две непересекающиеся части S0 и S1 (S0S1 =Æ и S0 È S1 = {множество всех возможных значений}.

Дана выборка x1x2, …, xn. Если (x1x2, …, xn) ÎS0, то принимаем гипотезу H0. Если (x1x2, …, xn) ÎS1, то отвергаем H0 в пользу H1.  Множество Sназывается критической областью. Сама процедура проверки гипотез по выборочным данным называется статистическим критерием. Критерий определяется разбиением на множества S0 и S1.

Определение 3. Вероятность ошибки первого рода называется уровнем значимости и обозначается через a (a близко к нулю). Вероятность ошибки второго рода обозначается через b. Величина (1–b) называется мощностью данного критерия. Другими словами,

α = P{(x1x2, …, xn)Î S1/H0 }, β = P{(x1x2, …, xn)Î S0/H1 }.

В математической статистике принята следующая схема: вероятность ошибки первого рода обычно заранее фиксируют и стараются найти критерий, который при фиксированном α обладает большей мощностью (т.е. ошибка 1-го рода фиксирована,. а величина ошибки 2-го – наименьшая).

Обычно уровень значимости α = 0.05; 0.01 или 0.005 (или меньше), причем его величина зависит от важности задачи: в медицине 0.005, в экономике и технике 0,05.

 

§2 Проверка гипотез о значении параметров нормально распределенной случайной величины

В этом параграфе мы рассмотрим следующую задачу: дана случайная величина ξ с законом распределения N(a, s). Дана выборка x1x2, …, xn. Рассмотрим четыре основные гипотезы о параметрах N(a, s).

Гипотезы о значении генерального среднего: дано некоторое конкретное число a0 и требуется проверить гипотезу H0 = {a = a0} против альтернативной гипотезы H1 = {aa0}. При этом возможны случаи:

1) точное значение s известно;

2) точное значение s не известно;

Гипотезы о значении генеральной дисперсии: дано некоторое конкретное число s0 и требуется проверить гипотезу H0 = {s = s0} против альтернативной гипотезы H1 = {ss0}. При этом возможны случаи:

3) точное значение a известно;

4) точное значение a не известно;

Утверждение. Область принятия гипотезы о значении параметра нормального распределения при уровне значимости a совпадает с соответствующим доверительным интервалом для этого параметра при доверительной вероятности 1–a.

 

2.1 Проверка гипотезы о значении генерального среднего при известной генеральной дисперсии

Требуется проверить гипотезу H0 = {a = a0} против альтернативной гипотезы H1 = {aa0} и точное значение s известно.

Мы знаем, что случайная величина подчиняется стандартному нормальному распределению при выполнении гипотезы H0. Ранее получили доверительный интервал

Отсюда получаем статистический критерий для проверки  H0 против H1:

Если  (1) то принимаем H0, в противном случае гипотезу H0 отвергаем в пользу H1.

Из этого критерия мы видим, что, если выборочное среднее  близко к a0, то гипотеза H0 правдоподобна, если же  сильно отклоняется от a0, то H0 –неправдоподобна.

Пример 1. Из многолетних наблюдений известно, что рост выпускника школы в среднем равен 181,3 см. при стандартном отклонении s = 8 см. При медицинском обследовании группы старшеклассников из 20 человек, употребляющих алкоголь с 12 лет, оказалось, что их рост в среднем 195 см. Надо проверить по этим данным гипотезу об отсутствии влияния употребления алкоголя на рост.

Решение: Сформулируем гипотезу более точно: рост – нормально распределённая случайная величина, в данном случае xÎN(181,3; 8). Если алкоголь не влияет на рост, то в обследованной группе параметры распределения должны быть такие же, т.е. проверяем гипотезу H0 = {a = 181,3}, при H1 = {a ≠ 181,3}. Поясним, что если взять любую группу из 20 человек, то рост обязательно будет отличаться от 181,3 и надо понять, является ли это отклонение случайным, или нет.

Зафиксируем уровень значимости a=0,05, и проверим выполнение  (1):

найдем по таблице: U0,975 ≈ 1,96 и подставим в неравенство:

Получаем 7,66 < 1.96. Следовательно, отвергаем гипотезу H0 и делаем вывод, что употребление алкоголя с 12 лет влияет на рост.

 

2.2 Проверка гипотезы о значении генерального среднего при неизвестной генеральной дисперсии

Требуется проверить гипотезу H0 = {a = a0} против альтернативной гипотезы H1 = {aa0} и точное значение s не известно.

Мы знаем, что случайная величина  подчиняется стандартному нормальному распределению при выполнении гипотезы H0.  Аналогично предыдущему случаю из доверительного интервала  получаем критерий для проверки гипотезы H0 против H1 при уровне значимости α:

Если    (2), то принимаем H0, в противном случае гипотезу H0 отвергаем в пользу H1.

Пример 2. При традиционном откорме через три недели поросенок весит 23,2 кг. По новой схеме откорма питались случайно отобранные 10 поросят. Через три недели их взвесили, по этим данным определили   = 25, и   = 0.8. Влияет ли новая схема на набор веса?

Решение: введём гипотезы

H0 = {влияние новой схемы отсутствует } = {a = 23,2},

H1 = {влияние новой схемы имеется } = {a ≠ 23,2}.

Проверим выполнение неравенства (2). По таблице находим: t9; 0,975 ≈ 2,3. Подставляем: гипотеза H0 отвергается в пользу H1 и можно сделать вывод о преимуществе новой схемы откорма.

 

2.3 Проверка гипотезы о значении генеральной дисперсии при известном генеральном среднем

Требуется проверить гипотезу H0 = {s2 = s20} против альтернативной гипотезы H1 = {s2s20} при этом точное значение a известно.

Мы знаем, что случайная величина  подчиняется распределению  при выполнении гипотезы H0.

Из доверительного интервала  получаем критерий для проверки гипотезы H0 против H1 при уровне значимости α:

Если  (3) ,то гипотеза H0 принимается, в противном случае гипотеза H0 отвергается в пользу H1.

Если нарушается левое неравенство в (3), то неизвестная дисперсия существенно меньше s02, а если правое – больше s02.

Пример 3. В лаборатории имеются высокоточные весы. Согласно инструкции их точность, измеряемая дисперсией погрешности, не должна превышать 0,04. Для проверки точности эталонный вес, равный 5 мг, взвесили 10 раз на этих весах, и вычислили величину . Надо проверить гипотезу о том, что точность весов удовлетворяет стандарту.

Решение: Здесь a = 5 мг, по умолчанию α = 0,05. Введём гипотезы H0 = {s2 = 0,04=0,22}, H1 = {s2 ¹ 0,04} (т.е. s0=0,2).

 По таблице находим квантили:  χ210; 0,025 ≈ 3,25; χ210; 0,975 ≈ 20,5. Подставим данные в (3):

 , получаем 0,039< 0,04<0,246.

Мы видим, что гипотеза H0 принимается. Однако то, что левое значение очень близко к 0.04, говорит о том, что, возможно, лучше еще раз провести тестовые измерения, увеличив объем выборки и проверить гипотезу заново.

 

2.4 Проверка гипотезы о значении генеральной дисперсии при неизвестном генеральном среднем

Требуется проверить гипотезу H0 = {s2 = s20} против альтернативной гипотезы H1 = {s2s20}, при этом точное значение a не известно.

Мы знаем, что доверительный интервал в этом случае вычисляется как

Отсюда совершенно аналогично предыдущему случаю получаем критерий: Если (4) ,то гипотеза H0 принимается, в противном случае гипотеза H0 отвергается в пользу H1.

Иногда гипотеза формулируется о значении s, а не s2: H0 = {s = s0} против H1 = {s ¹ s1}. Тогда критерий выглядит следующим образом:

(4’)

Пример 4. При применении определённой процедуры проверки коэффициента трения шины по асфальту установлено, что дисперсия результатов измерений этого коэффициента составляет 0,1. Выборочное значение дисперсии, вычисленное по результатам 25 измерений коэффициента трения, оказалось равным 0,20. Проверить гипотезу о том, что дисперсия результатов измерений коэффициента трения равна 0,1 при a=0,1.

Решение. Сформулируем гипотезы: H0 = {s = 0,1} против H1 = {s ¹> 0,1}. Т.к. в задаче известна выборочная дисперсия S2, заменим в формуле (4) исправленную выборочную дисперсию на S2, воспользовавшись формулой:

. Тогда критерий будет выглядеть следующим образом:

По таблице находим квантили χ224; 0,05 ≈ 13,8; χ224; 0,95 ≈ 36,4. Подставим значения:

 

§3 Проверка гипотезы о значении неизвестной вероятности успеха

Пусть p – неизвестная вероятность успеха в распределении Бернулли. Её другое название – генеральная доля. По выборке объема n оценивается “выборочная доля” – p*,  мы знаем, что p* = k/n. Используя выборку объема n, надо проверить гипотезу о значении “генеральной доли”: H0 = {p = p0} против H1 = {pp0}.

Пусть задан уровень значимости a. Мы знаем, что случайная величина приближённо подчиняется стандартному нормальному распределению при выполнении гипотезы H0. Ранее получили доверительный интервал

Отсюда получаем критерий:

Если   (5),  то H0 – принимается, в противном случае принимается H1.

Пример 5. Известно, что среди студентов 2-го курса 30% употребляют спиртные напитки чаще, чем 2 раза в неделю. В некотором вузе среди ста обследованных двоечников таких оказалось 25. Можно ли это отклонение считать случайным?

Решение: Здесь p0 = 0,3;   k/n = 25/100 = 0,25. Сформулируем и проверим  по (5) статическую гипотезу: H0 = {p = 0,3} (т.е. отклонение случайное) против H1 = {p ≠ 0,3}. По таблице нормального распределения находим квантиль для уровня значимости α = 0,05: U0,975 ≈ 1,96. Подставим данные:

 гипотеза H0 принимается, а имеющееся отклонение, по-видимому, объясняется случайными причинами.

 

§4 Проверка гипотез о различии характеристик двух случайных величин.

Во многих практических задачах важно по выборкам ответить на вопрос: принадлежат ли они одной генеральной совокупности? Например,  оказалось, что средний рост 100 студентов в Новосибирске 180 см,  а в Норильске – 177 см. Можно ли это объяснить случайными причинами?

Даны две выборки нормально распределённых случайных величин: x1,x2, … , xn – значения случайной величины ξ и y1, y2, …, ym значения случайной величины η. Обозначим генеральные дисперсии этих случайных величин = sx2, = sy2 , а генеральные средние ax и ay, причём средние не известны.

Надо проверить гипотезу H0 = {ax = ay} против H1 = {axay}. При этом возможны два варианта:

1) генеральные дисперсии известны;

2) генеральные дисперсии неизвестны;

 

4.1 Проверка гипотезы о равенстве двух генеральных средних при известной генеральной дисперсии

Утверждение 1. Случайная величина

приближенно подчиняется стандартному нормальному распределению

 

 

Из рисунка видно, что вероятность:

Получаем критерий  при уровне значимости α:

Если  (6), то гипотеза H0 = {ax = ay} принимается, в противном случае гипотеза H0 отвергается в пользу H1.

 

4.2 Проверка гипотезы о равенстве двух генеральных средних при неизвестной генеральной дисперсии

Решить такую проблему можно, если дополнительно предположить, что неизвестные генеральные дисперсии равны между собой.

Итак, в предположении, что генеральные дисперсии одинаковы, требуется проверить гипотезу H0 = {ax = ay} против H1 = {axay}. Критерий основан на следующем факте:

Утверждение 2. Случайная величина

 приближённо подчиняется распределению Стьюдента с (n+m–2)-c тепенями свободы при растущих n и m.

Аналогично предыдущему случаю получаем критерий при уровне значимости a:

Если      (7), то гипотеза

H0 = {ax = ay} принимается, в противном случае гипотеза H0 отвергается в пользу H1. Здесь  – выборочные средние, α – уровень значимости,

– квантиль распределения Стьюдента, – выборочные дисперсии случайных величин ξ и η.

Пример 6. При статистическом обследовании 100 случайно выбранных студентов 2-го курса в городе Новосибирске их рост в среднем оказался равен 180 см, а при обследовании 70 студентов из Норильска их рост в среднем оказался равен  177 см. По этим же данным также посчитали выборочные дисперсии  Требуется проверить по этим данным, можно ли считать различие в росте случайным.

Решение: В предположении, что генеральные дисперсии совпадают, сформулируем  гипотезу H0 = {ax = ay} против альтернативной H1 = {axay}.

Возьмем α = 0,05 и используем критерий (7):

Получили 4,75 < 1,96 , следовательно, H0 отвергается, т.е. различия нельзя считать случайными, и они вызваны некоторым факторами.

Замечание (о распределении Стьюдента). Мы знаем, что при увеличении n распределение Стьюдента асимптотически приближается к стандартному нормальному распределению. Поэтому для больших n в таблицах надо смотреть квантиль нормального стандартного распределения, как мы и сделали в Примере 6.

 

§5 Критерий Пирсона (c2) для проверки гипотез о законе распределения случайной величины

Во многих ситуациях необходимо проверять гипотезы не о значениях параметров  распределения, а о виде распределения изучаемой случайной величины.

Дана некоторая случайная величина ξ, закон распределения которой не известен, и выборка x1, x2xn, состоящая из n независимых реализаций этой случайной величины. Гипотеза H0 о законе распределения случайной величины формулируется так:

H0= {функция распределения ξ имеет вид F(x, θ1, θ2, …, θk)},

где θ1, θ2, …, θk – неизвестные параметры распределения, против альтернативной гипотезы

H1 = {функция распределения ξ имеет другой вид}

Пирсон предложил статистический критерий для проверки H0 против H1. Опишем его этапы:

1) Оцениваем по выборке методом максимального правдоподобия неизвестные параметры θ1, θ2, …, θk,  полученные оценки обозначим θ1*, θ2*, …, θk*(этот этап может отсутствовать).

2)  Определяем количество классов r, на которые будет разбиваться выборка. При этом рекомендуют следующую формулу: r » ln n. Выбираем границы классов, т.е. разбиваем область значений ξ на r интервалов А1, А2,… Аr, которые не должна пересекаться и должны содержать всю область возможных значений ξ.

3) Вычисляем так называемые теоретические вероятности:

pi = P {ξ Î Аi} – вероятность того, что случайная величина ξ попадёт в i-ый интервал. Для непрерывных случайных величин можно использовать формулу pi = F(yi, θ1*, θ2*, …, θk*) – F(yi - 1, θ1*, θ2*, …, θk*).

4) Укрупнение частот. Проверяем для теоретических вероятностей выполнение условия n×pi ³ 5 (*).

 Если для какого-то класса это условие не выполняется, то этот класс присоединяется к одному из соседних, а соответствующий интервал Аi объединяется с соответствующим соседним.

5) Вычисляем эмпирические частоты следующим образом:

νi = {число элементов в выборке,  попавших в интервал Аi}

6) Bычисляем величину

7) Проверяем гипотезу:

если x2 < χ2rk – 1; 1 - α , то принимается гипотеза H0, иначе H0 отвергается в пользу H1. Здесь χ2rk – 1; 1 - α – квантиль распределения хи-квадрат  с (rk – 1) числом степеней свободы, α – уровень значимости критерия.

Замечание 1.Число классов и x2 подсчитываются после укрупнения интервалов на четвертом шаге.

Замечание 2. В некоторых учебниках вместо n×pi ³ 5 приводят неравенство n×pi ³ 3.

Пример 7.  В комнате общежития живут четыре студента: А, Б, В и Г. Они решили проводить уборку в комнате по жребию, причем жеребьевку всегда проводил студент А. В конце учебного года, после сорока жеребьевок, студент В подсчитал, что за это время A убирал комнату 2 раза, Б – 12 раз, В – 16 раз, Г – 10 раз. Надо проверить по этим данным, честно ли проводилась жеребьевка.

Решение: Сформулируем гипотезу точно: если жеребьёвка проводилась честно, то вероятность дежурства всех должна быть одинаковая, т.е. гипотеза

H0 = {PA = PБ = PВ = PГ = ¼}, где PS– вероятность дежурства студента S, против . Выборка из 40 элементов (n=40).

1) этап отсутствует, т.к. параметров нет.

2) r=4, что определяется видом случайной величины, случайная величина дискретна и границы классов очевидны.

3)  PA = ¼ =  PБ = PВ = PГ.

4) Проверим выполнение неравенства (*):

для всех классов n×pi =40×1/4=10 > 5, укрупнять интервалы не требуется.

5) Эмпирические частоты находим по выборке:

известно, что νА = 2, νБ =12, νВ = 16, νГ = 10.

6) Вычисляем 

7) Если взять уровень значимости a=0,1, то квантиль χ24 – 0 – 1;  0,9 ≈ 6,25 и, т.к. 10,4 >> 6,25, мы отвергаем гипотезу, что жеребьевка проводилась честно. При  a=0,01  квантиль χ24 – 0 – 1;  0,99 ≈ 11,3 и гипотезу H0 придётся принять.

 

Пример 8. Некто зашел в часовую мастерскую и осмотрел 500 часов. Этот человек решил проверить гипотезу о том, что часы останавливаются в случайное время, против противоположной альтернативной гипотезы. В результате он составил таблицу, в которую занёс показания часов.

 

Промежуток времени

(на часах)

0–1

1–2

2–3

3–4

4–5

5–6

6–7

7–8

8–9

9–10

10–11

11–12

Число наблюдений

41

34

54

39

49

45

41

33

37

41

47

39


Решение: Сформулируем гипотезу H0 = {случайная величина «время остановки» подчиняется равномерному распределению на интервале [0..12]}, ,т.е случайная величина «время остановки» подчиняется другому распределению.

Для проверки этой гипотезы используем критерий  χ2 .

1) Этап отсутствует, т.к. нет неизвестных параметров.

2) Здесь уже произведено разбиение на интервалы А1 = [0,1), А2 = [1,2),… A12= [11,12].

3) Вычисляем теоретические вероятности: для распределения, равномерного на (a,b), функция распределения

Найдем вероятности:

,

, и т.д., легко видеть, что все pi = 1/12.

4)  Проверяем условие (*):

500 * 1/12 > 5, укрупнять интервалы не требуется.

5) Вычисляем эмпирические частоты. Это вторая сточка в таблице: ν1 =41,

 ν2 = 34, и т.д.

6) Вычисляем

7) Возьмем уровень значимости 0,05 и по таблице находим: χ212-0-1; 0,95 ≈ 19,7.

Т.к. x2 < χ2, то гипотеза H0 принимается.

Пример 9. На телефонной станции фиксировалось число неправильных соединений в течение 2668 часов. На основе полученных наблюдений была получена таблица:

Число неправильных соединений

0

1

2

3

4

5

6

7

8

9

10

Количество часов

57

203

383

525

592

408

273

139

45

27

16


Если процесс неправильных соединений вызван в основном случайными причинами, то исследуемая случайная величина должна подчиняться распределению Пуассона. В противном случае эти ошибки не случайны, и нужно искать другие причины.

Решение: Проверим гипотезу H0 ={количество неправильных соединений в час  подчиняется распределению Пуассона}, против H1 = {количество неправильных соединений в час подчиняется другому распределению}.

1) У распределения Пуассона один параметр λ и он неизвестен. Мы знаем оценку λ* =  для распределения Пуассона.

По нашим данным находим:

 = (0×57 + 1×203 + 2×383 + …)/110 ≈ 3.87

2) Проводим разбиение на интервалы

A1= [0,1), A2 = [1,2),  … A11 = [10,∞).

3) Вычислим вероятности рi

Аналогично p3»0,156; p4»0,201; p5»0,195; p6»0,151; p7»0,097; p8»0,054; p9»0,026; p10»0,011; последнюю вероятность найдем по формуле:

4) Объединение классов не требуется

5) Находим: x2 = 0,02 + 0,8 + 2,65 + 0,24 + 9,89 + 0,07 + 0,78 + 0,18 + 8,56 + 0,19 + 0,38 » 23,75

6) χ211-1-1; 0,95 ≈ 16,9

7) Мы видим, что гипотеза H0 отклоняется.

 

§6 Проверка гипотезы о независимости двух случайных величин по критерию c2

Во многих задачах экономики, техники возникает задача определения взаимной независимости каких-либо признаков.

Пусть дана двумерная случайная величина (ξ,η). Требуется по выборочным данным (x1,y1),(x2,y2),…(xn,yn) определить, являются ли случайные величины зависимыми, или ,в другой интерпретации, существуют ли какие-либо факторы, влияющие одновременно на обе величины.

 Введём статистические гипотезы H0 = {ξ и η независимы} против альтернативной H1 = {ξ и η зависимы}. Для проверки такой гипотезы используется критерий Пирсона.

Разобьём область всех значений случайной величины ξ на интервалы А1, А2,… Аr, а область всех значений случайной величины η – на интервалы В1, В2,… Вk. Обозначим pij=P{xÎAi, hÎBj}.

Если выполнена гипотеза H0, то, из определения независимости, должно выполниться равенство:

Обозначим  νij = {число элементов (x,y) в выборке, у которых x ÎAi, y Î Bj}

Определим эмпирические вероятности

,

Естественно предположить, что, если выполняется гипотеза H0, то по аналогии с теоретическим случаем или

Критерий базируется на следующей теореме, доказанной  Пирсоном.

Теорема. Если случайные величины ξ и η независимы, то величина

подчиняется распределению χ2 с (r–1)(k–1) числом степеней свободы.

Опишем алгоритм проверки гипотезы H0 против H1 по критерию χ2, основывающийся на этой теореме:

1) Разбиваем значения x на r классов с интервалами A1,A2Ar, а значения h на k классов с интервалами B1,B2Bk.

2) Строим таблицу и вычисляем νij , используя имеющуюся выборку.

 

 

B1

B2

Bk

S

A1

n11

n12

 

n1k

n1·

A2

n21

n22

 

n2k

n2·

:

 

 

 

 

 

Ar

nr1

nr2

 

nrk

nr·

S

n·1

n·2

 

n·k

n


Здесь   и 

Примечание: часто исходные данные уже сгруппированы и значения νij даны явно, а выборка отсутствует.

3) По полученным данным вычисляем величину x2 из теоремы и проверяем гипотезу при уровне значимости a:

Если x2 < χ2(r - 1) (k – 1); 1 – α, то гипотеза H0 принимается при уровне значимости α, в противном случае H0 отвергается в пользу H1.

 

Пример 10. Проверим гипотезу о взаимосвязи  пола студента (x) и его  успеваемости (h). Среди студентов, пришедших на лекцию, собрана следующая информация (см. таблицу).

1) Разобьём области значений случайных величин на интервалы:

x (пол):А1={М} А2={Ж}

h (успеваемость): В1={без троек},В2={с тройками}

2) Вычислим суммы по строкам и столбцам

 

 

Без троек

С тройками

 

М

17

15

32

Ж

17

7

24

 

34

22

56(=n)


3) Вычисляем x2

 По таблице находим χ2(2 – 1) ( 2 – 1); 0,95 = χ21; 0,95 ≈ 3,84

Мы видим, что гипотеза H0 о независимости признаков пол и успеваемость принимается. Причем то, что x2 << табличного значения, свидетельствует о полном отсутствии зависимости

 

Задачи для самоконтроля

1. Из нормальной генеральной совокупности с известным средним квадратическим отклонением σ= 5,2 извлечена выборка объема n=100 и по ней найдена выборочная средняя =27,56. Требуется при уровне значимости 0,05 проверить нулевую гипотезу Н0: а = а0= 26 при конкурирующей гипотезе Н1: а ≠ 26.

2. По выборке объема n=16, извлеченной из нормальной генеральной совокупности, найдены выборочная средняя =118,2 и «исправленное» среднее квадратическое отклонение s=3,6. Требуется при уровне значимости 0,05 проверить нулевую гипотезу Н0: а = а0 =120 при конкурирующей гипотезе Н0: а ≠120 .

3. Из нормальной генеральной совокупности извлечена выборка объема n=21 и по ней найдена исправленная выборочная дисперсия s2=16,2. Требуется при уровне значимости 0,01 проверить нулевую гипотезу Н0: , приняв в качестве конкурирующей гипотезы Н1: .

4. По 100 независимым испытаниям найдена относительная частота m/n=0,14. При уровне значимости 0,05 требуется проверить нулевую гипотезу Н0: р=р0=0,20 при конкурирующей гипотезе Н1: р≠0,20.

5. По двум независимым выборкам, объемы которых n=40 и m=50, извлеченным из нормальных генеральных совокупностей, найдены выборочные средние =130 и =140. Генеральные дисперсии известны: D(X)=80, D(Y)=100. Требуется при уровне значимости 0,01 проверить нулевую гипотезу Н0={M(X)=M(Y)} при конкурирующей гипотезе Н1={M(X)≠M(Y)}.

6. Используя критерий Пирсона, при уровне значимости 0,05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности Х с эмпирическим распределением выборки объема n=200:

xi

5

7

9

11

13

15

17

19

21

ni

15

26

25

30

26

21

24

20

13