В математической статистике используется терминология, несколько отличная от теории вероятности.
Определение 1. Пусть дана случайная величина ξ. Множество ее значений называется генеральной совокупностью.
Выборочной совокупностью или выборкой называют множество случайным образом отобранных из генеральной совокупности объектов. Именно на её основе делают статистические оценки и выводы.
Объемом совокупности (генеральной или выборочной) называют число объектов этой совокупности.
Пример 1. На фабрике выпущена большая партия ламп, хранящихся на складе. Для оценки среднего времени срока службы одной лампы нужно взять несколько ламп, для каждой из них определить время работы и по этим данным оценить все, что требуется. Здесь можно считать, что все лампы на складе – генеральная совокупность, а лампы, отобранные для обследования – выборка.
Выборочные значения обычно обозначают через x1, x2, … xn; каждое xi – это, с одной стороны, реальное число, полученное при измерении, с другой стороны – это случайная величина до тех пор, пока измерение не произведено, подчиняющаяся тому же распределению, что и исследуемая.
Заметим, что оценка случайной величины тоже будет случайной величиной.
Характеристики и параметры исследуемой случайной величины называют генеральными, а их оценки, полученные по выборке – выборочными (например, генеральная дисперсия и выборочная дисперсия). Обычно выборочную оценку обозначают той же буквой, что и оцениваемый параметр, но со знаком «*»
Рассмотрим следующую задачу: дана случайная величина ξ с законом распределения или функцией распределения Fξ(x,q1,θ2,…θk), где θ1,θ2,…θk – некоторые неизвестные параметры. Необходимо по выборке объема n x1, x2,…xn оценить неизвестные параметры θ1,θ2,…θk. Подчеркнем, что каждое xi подчиняется закону распределения случайной величины ξ.
Определение 2. Оценкой параметра θ*k называют функцию от выборки x1,x2,…xn: θ*k =θ*k(x1,x2,…xn).
Пусть дана выборка x1,x2,…xn. Рассмотрим примеры оценок важнейших параметров: математического ожидания и дисперсии. В статистике они называются генеральным средним и генеральной дисперсией, а их оценки, полученные по выборке – выборочным средним и выборочной дисперсией. Для них существуют специальные обозначения:
Определение 3. Выборочное среднее определяется равенством:
(1)
Определение 4. Выборочная дисперсия определяется равенством:
(2)
Утверждение 1. Выборочную дисперсию можно вычислить как
(3)
Доказательство:
Свойства оценок
Пусть θ*(x1, … xn) – оценка неизвестного параметра θ.
Определение 5. Оценка называется несмещённой, если M(θ*(x1, … xn)) = θ (несмещённая – значит, не сдвинута относительно мат. ожидания). В противном случае оценка называется смещенной.
Определение 6. Оценка называется состоятельной, если " e > 0
. Т.е. при увеличении числа наблюдений она стремится
к оцениваемому параметру.
Определение 7. Оценка называется эффективной, если она несмещённая и D(q* – q) минимальна среди всех несмещённых оценок.
Смысл: несмещённая оценка не всегда даёт хорошее приближение оцениваемого параметра, т.к. возможные значения могут быть сильно рассеяны вокруг своего среднего значения, т.е. D(q*) может быть очень значительной.
Исследуем оценки (1) и (2). Пусть ξ – случайная величина, у которой существуют конечные математическое ожидание и дисперсия, Мx=a, Dx=s2. Дана выборка x1,x2,…xn, каждое xi подчиняется тому же распределению, что и случайная величина ξ, т.е. Мxi=a, Dxi=s2, i=1,..n.
Проверим, будет ли несмещённой .
Т.о. выборочное среднее является несмещенной оценкой генерального среднего Mξ.
Проверим, будет ли несмещённой оценка S2.
Мы знаем, что Dξ = M(ξ2) – (Mξ)2 => Dxi = M(xi 2) – (M xi )2 =>
(*) M(x2i) = Dξ + (Mξ)2 = δ2 + a2.
(4)
По определению =>
(**) . Тогда
Т.е.
(***).
Т.к M(S2) ≠ s2, то оценка смещённая.
Во многих реальных задачах важно иметь несмещённую оценку дисперсии.
Утверждение 2.
Оценка дисперсии (5) – не смещённая.
Доказательство.
Утверждение 3. Оценка (5) является состоятельной. Без доказательства.
Рассмотрим другую задачу: исследуется случайная величина ξ, для которой существует мат. ожидание и дисперсия, причем Мx=а – известно, а Dx = σ² – неизвестна. В таком случае можно использовать следующую оценку для дисперсии:
(6)
Утверждение 4. Оценка (5) – несмещённая. Без доказательства.
Пример 1. Точность любого измерительного прибора обычно определяется дисперсией или стандартным отклонением. Пусть необходимо оценить точность весов. Для этого можно взять один и тот же предмет, взвесить его n раз и оценить дисперсию. Если точный вес предмета известен, можно использовать формулу (6), если нет – то формулу (2) или (5).
Рассмотрим следующую задачу: дана случайная величина ξ с законом распределения Fξ(x,θ1,θ2,…,θk), причем θ1,θ2,…,θk – параметры, не известные заранее. Дана выборка x1,x2,…,xn объема n и надо построить оценки неизвестных параметров по этой выборке.
Оценки параметров распределения бывают точечными и интервальными. Если метод даёт оценку параметра в виде числа, он называется точечным методом построения оценок. Интервальные методы дают ответ в виде интервала, которому принадлежит оценка (с некоторой вероятностью).
2.1 Метод максимального подобия (ММП)
Даны: случайная величина ξ с функцией распределения Fξ(x,q1,…,qк), выборка x1, x2,…, xn объема n, необходимо построить оценки неизвестных параметров q*1,q*2,…,q*k. Для описания метода определим функцию правдоподобия.
Определение 8. Пусть ξ – непрерывная случайная величина с плотностью распределения Pξ(x,q1,…,qк). Функция правдоподобия Г определяется равенством:
(7)
Для дискретной случайной величины, заданной рядом распределения P{ξ=x}=P(x,q1,…,qк) функция правдоподобия Г определяется аналогично:
(8)
Определим логарифмическую функцию правдоподобия:
(9)
Описание метода максимального правдоподобия (ММП) разобьём на этапы:
1. Записываем функцию правдоподобия для случайной величины ξ.
2. Получаем логарифмическую функцию правдоподобия.
3. Находим такие
значения параметров q*1,q*2,…,q*k, для которых функция максимальна. Для этого находим
частные производные
, приравниваем их к нулю и решаем систему уравнений
(10)
Замечание. Таким образом, суть метода максимального подобия – взять за оценки такие θ*1, … θ*k, которые дают максимум функции правдоподобия Г. Обычно это удобно делать при помощи введения функции L (т.к. максимум у них в одной точке), и решения системы (10). Но иногда находят максимум непосредственно по функции Г, используя численные методы.
2.1.1 Оценка параметров нормального распределения
Для нормального распределения плотность дается равенством:
(*)
Найдем оценки a и s методом максимального правдоподобия:
1. Из (*) и (7) получаем функцию правдоподобия
2. Логарифмируем и получаем Lx
3. Находим частные производные
Приравниваем их к нулю и решаем систему уравнений:
В результате получаем:
(11)
2.1.2 Оценка параметров экспоненциального распределения
Это непрерывное распределение с плотностью:
1. Находим функцию правдоподобия:
2. Находим логарифмическую функцию правдоподобия:
3. Дифференцируем, приравниваем к нулю и находим l*
(12)
2.1.3 Оценка параметров геометрического распределения
Это дискретное распределение, и случайная величина задаётся рядом распределения: P(ξ = j) = p×qj-1, j = 1,2,3….( q=1–p). Найдём оценку параметра p.
1. Находим функцию правдоподобия.
2. Найдем логарифмическую функцию правдоподобия:
3. Дифференцируем, приравниваем к нулю и находим p*
(13)
Пример 1. Некто каждый раз после зарплаты покупал билеты лотереи СПРИНТ до тех пор, пока не выиграет 1 билет. Через 0,5 года он выяснил, что: 1 раз он купил 8 билетов, 2 раза 10 билетов, 3 – 6 билетов, 4 – 11 билетов, 5 – 4 билета, 6 раз 13 билетов. Надо оценить по этим данным вероятность выигрыша по одному билету.
Мы знаем, что вероятность выигрыша одна и
та же, эти события независимы, значит, число купленных билетов подчиняется
геометрическому распределению и для оценки неизвестной вероятности P можно
использовать ММП. Мы уже получили оценку. Найдем по нашей выборке среднее:
2.1.4 Оценка параметров распределения Пуассона.
Это также дискретное распределение с рядом распределения
1. Находим функцию правдоподобия.
2. Найдем логарифмическую функцию правдоподобия.
3. Дифференцируем, приравниваем к нулю и находим l*
(14)
2.1.5. Оценка параметра биномиального распределения
У этого распределения два параметра: n (количество испытаний) и p (вероятность успеха в одном испытании). Часто встречается ситуация, когда n известно, а p неизвестно, т.е. известно число испытаний, но не известна вероятность успеха в одном испытании. Рассмотрим этот случай:
Для данного распределения
1. Находим функцию правдоподобия.
2. Найдем логарифмическую функцию правдоподобия:
3. Дифференцируем, приравниваем к нулю и находим p*
(15)
Особенно важен частный случай, когда N = 1,
в этом случае получаем p* = . Когда N = 1,
то xi = 1 или 0 (успех или неудача), поэтому
будет равна числу успехов. Если
обозначить эту сумму или число успехов через k, получим:
(16)
Пример 2. Спортсмен выстрелил по цели 20 раз, а попал 15 раз, определить вероятность попадания при одном выстреле.
Решение: P* = 15/20 = 0,75
2.2 Метод моментов (ММ)
Введём сначала следующие определения:
Определение 9. Начальный момент порядка k случайной величины x определяется равенством: mk = M(xk).
В частности, m1 = M(x) – обычное мат. ожидание, m2 = M(x2).
Определение 10. Центральный момент порядка k случайной величины x определяется равенством: ak = M((x–Mx)k).
В частности, a2 = D(x) – дисперсия случайной величины.
Эти моменты называют теоретическими. По данным наблюдений можно вычислить соответствующие эмпирические моменты:
Определение 11. Начальный эмпирический момент порядка k случайной величины x определяется равенством
В частности, – выборочное среднее.
Определение 12. Центральный эмпирический момент порядка k случайной величины x определяется равенством:
В частности, – выборочная дисперсия.
Метод моментов построения точечных оценок неизвестных параметров состоит в приравнивании теоретических моментов рассматриваемого распределения соответствующим эмпирическим моментам того же распределения.
Пусть даны: случайная величина ξ, выборка объема n x1, x2,…, xn. Необходимо построить оценки неизвестных параметров q*1,q*2,…,q*k. Описание метода моментов (ММ) разобьём на этапы:
1. Выписываем первые к моментов μ1, μ2, … μn
2. Вычисляем по выборке соответствующие им эмпирические ( выборочные) моменты .
3. Составляем систему уравнений μi = mi и решаем ее относительно неизвестных параметров.
Замечание 1. Иногда вместо начальных моментов μi, mi удобно использовать центральные моменты αi, ai.
Замечание 2. Если на третьем этапе получилась неразрешимая система, то на первом шаге надо добавить новые моменты.
Найдем методом моментов оценки параметров нескольких важнейших распределений.
2.2.1 Экспоненциальное распределение
Т.к. здесь один неизвестный параметр l (к = 1), требуется всего одно уравнение
1. Теоретический момент μ1 = Mξ = 1 / l
2. Выборочный
момент m1 =
3. Приравниваем
1/l = =>
В данном случае ММП и ММ дают одну и ту же оценку, это бывает часто.
2.2.2 Биномиальное распределение
У этого распределения два параметра: n (количество испытаний) и p (вероятность успеха в одном испытании), =>к=2.
1. Мы знаем, что для биномиального распределения μ1 = Mξ = n×p;
В соответствии с Замечанием 2 мы для второго уравнения используем второй центральный момент: α2 = Dξ = n×p×q= n×p×(1–p)
2. Соответствующие эмпирические моменты
m1 =,
3. Составляем систему уравнений
np= и S2=np(1–p) =>
(17)
Пример 3. На потоке учится неизвестное для преподавателя количество студентов. Он подсчитал, что на первую лекцию пришло 70 студентов, на вторую – 68, на третью – 71, на четвёртую – 69, на пятую – 72. Лектор по этим данным решил оценить количество студентов. При этом он сделал следующие предположения:
1) общее число студентов не изменилось;
2) приход студента не зависит от прихода или не прихода остальных;
3) вероятность прихода на лекцию для всех студентов одна и та же, и не меняется от лекции к лекции.
Решение: При сделанных предположениях число студентов, пришедших на лекцию, – случайная величина, подчиняющаяся биномиальному распределению с неизвестными параметрами n и p, где n – число студентов, которое надо оценить, а p – вероятность прийти на лекцию для одного студента.
Оценим по нашим данным число студентов.
Найдем выборочные моменты
= 1/5 * (70 + 68 + 71 + 69 + 72) = 70
S2 = 1/ 5 * ((70 – 70)2 + 22 + 12 + 12 + 22) = 10/5 = 2
По формулам (17) находим
Значит, на потоке приблизительно 72 студента.
До сих пор мы встречали примеры, когда метод максимального правдоподобия и метод моментов дают одинаковые оценки, теперь мы рассмотрим пример, где это не так.
Пример 4. Некто впервые попал в неизвестный город, и первый встречный трамвай был с номером 13. Предполагая, что трамвайные маршруты нумеруются подряд, начиная с 1 и без пропусков, оценить количество маршрутов в этом городе, используя оба метода.
Решение. По предположению, случайная величина ξ – номер трамвая. Она принимает значения в интервале [1,2,3 … θ], где θ – неизвестный параметр, который и надо оценить.
Рассмотрим сначала метод моментов.
1. Вероятность того, что встреченный трамвай будет иметь номер i равна 1/θ.
Тогда теоретический момент Mξ = 1/θ * 1 + 1/θ * 2 + … + 1/θ * θ =( θ+1)/ 2
2. = x1 (всего одно испытание)
3. Mξ = , Þ (θ +
1) / 2 = x1 => θ* = 2x1 – 1
Число маршрутов = 25
Найдем оценку методом максимального правдоподобия.
Т.к. всего одно испытание, то
Мы найдем сразу максимум этой функции, используя ее график.
Из графика получается, что максимум при θ =x1, т.е. θ* = 13.
Мы видим, что оценка, полученная ММ почти вдвое больше оценки, полученной ММП. Это объясняется тем, что выборка очень мала; при больших объемах выборки оба метода дают близкое значение.
Задачи для самоконтроля
1. Из генеральной совокупности извлечена выборка объема n=50.
варианта |
xi |
2 |
5 |
7 |
10 |
частота |
ni |
16 |
12 |
8 |
14 |
Найти несмещенную оценку генеральной средней.
2. Из генеральной совокупности извлечена выборка объема n=60.
x1 |
1 |
3 |
6 |
26 |
n1 |
8 |
40 |
10 |
2 |
Найти несмещенную оценку генеральной средней.
3. По выборке объема n =41 найдена смещенная оценка Dn=3 генеральной дисперсии. Найти несмещенную оценку генеральной совокупности.
4. В итоге пяти измерений длины стержня одним прибором (без систематических ошибок) получены следующие результаты (в мм.): 92; 94; 103; 105; 106. Найти:
а) выборочную среднюю длины стержня;
б) выборочную и исправленную дисперсии ошибок прибора.
5. В итоге четырех измерений некоторой физической величины одним прибором (без систематических ошибок) получены следующие результаты: 8; 9; 11; 12. Найти: а) выборочную среднюю результатов измерений; б) выборочную и исправленную дисперсии ошибок прибора.
6. Ниже приведены результаты измерения роста (в см.) случайно отобранных 100 студентов.
Рост |
154–158 |
158–162 |
162–166 |
166–170 |
170–174 |
174–178 |
178–182 |
Число студентов |
10 |
14 |
26 |
28 |
12 |
8 |
2 |
Найти выборочную среднюю и выборочную дисперсию роста обследованных студентов.
7. Найти выборочную дисперсию по данному распределению выборки объема n=100:
xi |
340 |
360 |
375 |
380 |
ni |
20 |
50 |
18 |
12 |
8. Найти исправленную выборочную дисперсию по данному распределению выборки n=10:
xi |
1020 |
104 |
108 |
ni |
2 |
3 |
5 |
9. Случайная величина x (число семян сорняков в пробе зерна) распределена по закону Пуассона. Ниже приведено распределение семян сорняков в n =1000 пробах зерна (в первой строке указано количество xi сорняков в одной пробе; во второй строке указана частота ni – число проб, содержащих xi семян сорняков):
xi |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
ni |
405 |
366 |
175 |
40 |
8 |
4 |
2 |
Найти методом моментов точечную оценку неизвестного параметра распределения Пуассона.
10. Случайная величина x (число появлений событий А в m независимых испытаниях) подчинена биномиальному закону распределения с неизвестным параметром p. Ниже приведено эмпирическое распределение числа появлений события в 10 опытах по 5 испытаний в каждом (в первой строке указано число xi появлений события А в одном опыте; во второй строке указана частота ni – количество опытов, в которых наблюдалось xi появлений события А):
xi |
0 |
1 |
2 |
3 |
4 |
ni |
5 |
2 |
1 |
1 |
1 |
Найти методом моментов точечную оценку параметра р биномиального распределения.
11. Случайная
величина x (время работы элемента) имеет показательное распределение . Ниже приведено эмпирическое
распределение среднего времени работы n =200 элементов (в
первой строке приведено среднее время xi работы
элемента в часах; во второй строке указана частота ni – количество элементов, приработавших в среднем xi часов):
xi |
2,5 |
7,5 |
12,5 |
17,5 |
22,5 |
27,5 |
ni |
133 |
45 |
15 |
4 |
2 |
1 |
Найти методом моментов точечную оценку неизвестного параметра показательного распределения.
12. Найти
методом моментов оценку параметра р геометрического распределения , если в четырех опытах событие появилось соответственно
после двух, четырех, шести и восьми испытаний.
13. Случайная величина x (отклонение контролируемого размера от номинала) подчинена нормальному
закону распределения с неизвестными параметрами и
. Ниже приведено
эмпирическое распределение отклонения от номинала n=200 изделий
(в первой строке указано отклонение xi (мм);
во второй строке приведена частота ni – количество
изделий, имеющих отклонение xi):
xi |
0,3 |
0,5 |
0,7 |
0,9 |
1,1 |
1,3 |
1,5 |
1,7 |
1,9 |
2,2 |
2,3 |
ni |
6 |
9 |
26 |
25 |
30 |
26 |
21 |
24 |
20 |
8 |
5 |
Найти методом моментов точечные оценки неизвестных параметров и
нормального распределения.
14. Случайная величина x (ошибка измерения дальности радиодальномером) подчинена равномерному закону распределения с неизвестными параметрами a и b. Ниже приведено эмпирическое распределение средней ошибки n=200 измерений дальности (в первой строке указана средняя ошибка xi; во второй строке указана частота ni – количество измерений, имеющих среднюю ошибку xi):
xi |
3 |
5 |
7 |
9 |
11 |
13 |
15 |
17 |
19 |
21 |
ni |
21 |
16 |
15 |
26 |
22 |
14 |
21 |
22 |
18 |
25 |
Найти методом моментов точечные оценки неизвестных параметров a и b равномерного распределения.
15. Случайная величина x (число появлений события А в m независимых испытаниях) подчинена биномиальному закону распределения с неизвестным параметром р. Ниже приведена эмпирическое распределение числа появлений события А в 1000 испытаний (в первой строке указано число xi появлений события в одном опыте их m= 10 испытаний, в второй строке приведена частота ni – число опытов, в которых наблюдалось xi появлений события А:
xi |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
ni |
2 |
3 |
10 |
22 |
26 |
20 |
12 |
5 |
Найти методом максимального правдоподобия точечную оценку неизвестного параметра р биномиального распределения.
16. Случайная величина x (число поврежденных стеклянных изделий в одном контейнере) распределена по закону Пуассона с неизвестным параметром λ. Ниже приведено эмпирическое распределение числа поврежденных изделий в 500 контейнерах (в первой строке указано количество xi поврежденных изделий в одном контейнере, во второй строке приведена частота ni – число контейнеров, содержащих xi поврежденных изделий):
xi |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
ni |
199 |
169 |
87 |
31 |
9 |
3 |
1 |
1 |
Найти методом наибольшего правдоподобия точечную оценку неизвестного параметра λ распределения Пуассона.
17. Случайная величина x (время безотказной работы элемента) имеет показательное распределение . Ниже приведено эмпирическое
распределение среднего времени работы 1000 элементов (в первой строке указано
среднее время xi безотказной работы одного элемента в часах; во второй
строке указана частота ni – количество элементов, проработавших в среднем xi часов):
xi |
5 |
15 |
25 |
35 |
45 |
55 |
65 |
|
ni |
365 |
245 |
150 |
100 |
70 |
70 |
25 |
|
Найти методом наибольшего правдоподобия точечную оценку неизвестного параметра λ показательного распределения.
3.1 Основные понятия
Главный недостаток точечных оценок в том, что ничего нельзя сказать о точности такой оценки. Допустим, на предприятии решили оценить суточное потребление электроэнергии. В плановом отделе посчитали среднее по большой выборке и получили значение 1536,23 кВт. Однако очевидно, что потребление, например, завтра, будет отличаться от этой цифры. Более удобен был бы ответ в форме: суточное потребление электроэнергии от 1300 до 1650 кВт, т.е. в виде интервала.
Если давать ответ в виде интервала, который содержит значение неизвестного параметра с некоторой вероятностью, такой интервал называется доверительным, а оценка интервальной, или доверительно-интервальной.
Вероятность, с которой доверительный интервал содержит неизвестный параметр, называется уровнем доверия интервала.
Определение 1. Пусть дана случайная величина x с функцией распределения Fx (x,θ), где θ – неизвестный параметр, и дана выборка объема n – x1, x2, …xn. Пара случайных величин C1 и С2, зависящих от выборки, называется доверительным интервалом при уровне доверия γ для параметра θ, если выполняется неравенство:
(3.1) P{С1 £ θ £ С2} ¹γ
Обычно уровень доверия выбирают близким к единице: 0,9; 0,95; 0,99; 0995; 0,999; чем важнее исследуемое явление, тем выше берут уровень доверия. Например, в экономике берут 0,9 или 0,95; в безопасности и здоровье – 0,99 и выше (например, при определении предельно-допустимых доз).
Очевидно, чем выше уровень доверия, тем больше длина интервала, при одной и той же выборке. Поэтому, если необходимо получить достаточно точные оценки при высоком уровне доверия, необходимо использовать выборки большого объема.
В некоторых прикладных задачах используют односторонний доверительный интервал, где одна из границ по умолчанию равна +∞ или –∞ (или нулю из физического смысла)
3.2 Специальные функции математической статистики
При построении доверительных интервалов и в других разделах математической статистики используют некоторые специальные случайные величины, с которыми кратко ознакомимся в этом параграфе.
Распределение
Пусть ξ1, ξ2 ,…, ξn подчиняются стандартному нормальному распределению (ξi Î N(0,1)). Рассмотрим случайную величину
χ2 = ξ12 + ξ22 +
… + ξn2. Она подчиняется распределению (читается «хи-
квадрат») с n степенями свободы. Если же случайные величины связаны одним линейным соотношением, то число
степеней свободы n–1.
Для этого распределения известна плотность,
а для нахождения квантилей построены соответствующие таблицы. При увеличении
числа степеней свободы n®¥ распределение медленно
приближается к нормальному распределению c параметрами а = n и s2=2n, что
видно на рис. 3.1. Для этого распределения M(χn2) = n; D(χn2) = 2n. Поэтому для вычисления квантилей распределения
при n>30
используют формулу
. Для квантилей малого порядка р более
точные значения можно получить из соотношения
Рисунок 3.1 График плотности распределения хи-квадрат
Распределение Стьюдента
Пусть ξ0, ξ1, …,
ξn подчиняются стандартному нормальному распределению (ξi Î N(0,1)).
Рассмотрим случайную величину
По определению, η подчиняется распределению Стьюдента с n степенями свободы, для него часто используют обозначения tn(x). Для этого распределения так же известна плотность, а для нахождения квантилей построены соответствующие таблицы. При увеличении числа степеней свободы n®¥ распределение Стьюдента t n приближается к нормальному стандартному распределению N(0,1), что видно на рис 3.2.
Рисунок 3.2 График плотности распределения Стьюдента и N(0,1)
Можно считать, что при n >30 квантили tn,p = Up,( Up обозначают квантиль порядка р для N(0,1)).
Для этого распределения M(tn) = 0, D(tn) = n/(n–2) (при n > 2)
Отметим, что tn(x) – симметричная (четная) функция.
Как уже говорилось, для распределений Стьюдента
и хи-квадрат напечатаны специальные таблицы, которые содержатся в учебниках
по математической статистике, однако при больших n необходимо использовать приближённые
формулы. В случае распределения Стьюдента используют N(0,1),
а распределение хи-квадрат приближают к нормальному с параметрами a = n, .
3.3 Доверительные интервалы для параметров нормального распределения
3.3.1 Доверительный интервал для генерального среднего при известной дисперсии
Дана случайная величина ξ, подчиняющаяся нормальному распределению с параметрами а и s (Mξ=a, Dξ=s2), причем s – известно. Требуется построить доверительный интервал для а по выборке x1, x2, …., xn при уровне доверия g.
Утверждение 2. Случайная величина
(*)
подчиняется стандартному нормальному распределению (η Î N(0,1)).
Доказательство:
Докажем только, что М η =0, и D η=1, саму нормальность оставим без доказательства.
Утверждение 2. Пусть η Î N(0,1) и пусть a Î [0,1].
Обозначим через квантиль порядка
распределения N(0,1),
тогда
(**)
Доказательство:
Рисунок 3.3
По определению квантиля
Теорема 1: Пусть x1, x2, …, xn – выборка
из генеральной совокупности, подчиняющейся нормальному распределению с
параметрами a и s, при чём s – известно, a – не известно. Пусть aÎ[0,1] и – квантиль
порядка
распределения N(0,1), тогда интервал
будет доверительным интервалом для параметра a при уровне значимости a.
Доказательство: из (*) и (**) получаем
проведём преобразования и получим
Пример 1. Известно, что точность теодолита (прибора, измеряющего углы) равна 1. Для того, чтобы измерить угол с более высокой точностью, провели измерения этим теодолитом 10 раз, а затем вычислили выборочное среднее, равное 34,2. Требуется по этим данным построить доверительный интервал при уровне доверия 0,95 для величины измеряемого угла, учитывая, что точность прибора определяется величиной s.
Решение.
Дано: γ = 0,95 => α =0,05; 34,2; s = 1 (точность); n = 10;
По таблице стандартного нормального распределения находим квантиль: U0,975 ≈ 1,96. По теореме 1 строим доверительный интервал:
Приблизительно получаем: (33,6; 34,8) – это доверительный интервал для неизвестного угла при уровне доверия 0,95.
3.3.2 Доверительный интервал для генерального среднего при неизвестной дисперсии
Дана случайная величина ξ, подчиняющаяся нормальному распределению с параметрами а и s (Mξ=a, Dξ=s2), причем s – не известно. Требуется построить доверительный интервал для а по выборке x1, x2, …., xn при уровне доверия g. Этот случай наиболее часто встречается на практике.
Пусть ξ1, …, ξn подчиняются
нормальному распределению с параметрами а и s (ξi Î N(а, s)). Тогда, по определению, случайная
величина подчиняется
распределению Стьюдента с (n–1) степенями свободы.
По аналогии с предыдущим получаем следующую теорему:
Теорема 2. Интервал с границами будет доверительным интервалом при уровне доверия
(1–a) для генерального среднего. Здесь
– квантиль порядка
с (n–1) степенью
свободы.
Пример 2. При обследовании месторождения урана было взято сто проб объема 1кг и в каждой из них было оценено количество урана. По полученным данным вычислили среднее, равное 2,7 гр. и исправленную выборочную дисперсию, равную 0,04. Необходимо по этим данным построить доверительный интервал для содержания металла в 1 кг руды в этом месторождении при уровне доверия 0,99.
Решение. Дано: 2,7;
0,04; γ = 0,99; α = 0,01; n = 100.
Воспользуемся теоремой 2. Для нахождения квантиля воспользуемся приближённой
формулой:
. Отсюда получаем интервал:
Из теоремы 2 следует, что, чем больше объем выборки n, тем меньше длина интервала, т. е. тем точнее оценка.
3.3.3 Доверительный интервал для дисперсии при известном среднем
Дана случайная величина ξ, подчиняющаяся нормальному распределению с параметрами а и s (Mξ=a, Dξ=s2), причем a – известно. Требуется построить доверительный интервал для s по выборке x1, x2, …., xn при уровне доверия g.
Для построения доверительного интервала мы используем следующее утверждение.
Утверждение 3.
Пусть xÎN(a, s), тогда случайная величина подчиняется распределению
.
Утверждение 4.
Доказательство следует из рисунка (S1=S2=a/2)
Используя это утверждение, построим доверительный интервал для неизвестной дисперсии s2. Преобразуем:
, тогда
Т.о. получена теорема:
Теорема 3. Пусть x1, x2, …, xn– выборка
из генеральной совокупности, подчиняющейся нормальному распределению с
параметрами a и s, при чём а – известно, s – не известно. . Тогда интервал
будет доверительным интервалом
для параметра s2 при уровне
доверия (1–a).
Пример 3. Для определения точности весов, эталонную одно килограммовую
гирю взвесили 10 раз. По полученным данным вычислили выборочную дисперсию грамм. Необходимо по этим данным
построить доверительный интервал для дисперсии (которая определяет точность)
при уровне доверия 0,95.
Решение:
Дано: α = 0,05; n=10; ;
По таблице находим квантили
Вычисляем границы доверительного интервала:
3.3.4 Доверительный интервал для дисперсии при неизвестном среднем
Совершенно аналогично предыдущему случаю выводится
Теорема 4. Пусть исследуемая случайная величина подчиняется нормальному распределению с неизвестными параметрами а и s. Тогда доверительный интервал для неизвестной дисперсии (т.е. для s2) при уровне значимости (1–a) определяется как:
Следствие. Доверительный интервал для стандартного отклонения s сразу получается из Теоремы 4:
Пример 4. В лаборатории
решили проверить точность омметра. Для этого одно и то же сопротивление
измерили этим прибором 10 раз, и по полученным данным вычислили (Ом2). Требуется
построить доверительный интервал для неизвестной точности s при уровне доверия 0,95.
Решение: n=10; a=0,5; генеральное среднее неизвестно; по таблице находим квантили: . Вычисляем границы доверительного
интервала:
Замечание.Мы говорили, что этим методы применимы в случае нормального распределения, однако при больших объемах выборки их можно применять и для других любых распределений, а также в случае неизвестных распределений. При объёме выборки несколько десятков и больше приближение достаточно хорошее, что основывается на практическом опыте.
3.4 Доверительный интервал для неизвестной вероятности успеха
Рассмотрим следующую задачу: проводится n независимых испытаний, в каждом из которых событие может произойти либо не произойти с вероятностями p и q соответственно (p + q = 1). Вероятность успеха p – неизвестна и требуется построить для нее доверительный интервал по выборке.
Выборка объёма n состоит из нулей и единиц (1 – успех, 0 – неуспех), поэтому можно сказать, что в выборке к единиц (успехов). Мы знаем точечную оценку для p: p* = k / n , т.к. это несмещенная оценка, то M(p*)=p
Для распределения Бернулли Dξ = p(1 – p) (*) и Mξ = p (**) .
В предыдущем параграфе говорилось, что доверительные интервалы для нормального распределения можно использовать и для других распределений как приближенные.
Для рассматриваемого распределения (***)
Учитывая, что генеральное среднее а = Mξ из доверительного интервала для среднего при известной дисперсии и (*), (**), (***) получаем приближённый доверительный интервал для неизвестной вероятности успеха при уровне доверия γ = 1 – α :
Эту формулу нельзя использовать, т.к. в неё входит неизвестная вероятность успеха p. Если заменить p её оценкой p*, получим ещё более приближённую формулу:
, где p*=k/n, n – число испытаний, k – число успехов, U1–a/2 – квантиль
стандартного нормального распределения.
Замечание. Если n<50 или хотя бы одно из чисел n×p* или n×(1–p*) меньше 5, эту формулу применять нельзя.
Пример 5. При социологическом обследовании студентов 2-го курса, выяснилось, что из 100 студентов 15 никогда не употребляли спиртных напитков. Надо построить доверительный интервал для доли непьющих студентов при уровне доверия 0,95.
Решение: k = 15, n = 100, γ = 0,95, α = 0,05. По таблице стандартного нормального распределения находим квантиль: U0,975 ≈ 1,96. Подставляем в формулу:
.
Задачи для самоконтроля
1. Найти
доверительный интервал для оценки с надежностью 0,95 неизвестного математического
ожидания a нормально
распределенного признака генеральной совокупности, если генеральное среднее
квадратическое отклонение σ =5, выборочное среднее и объем выборки n=25.
2. Найти
доверительный интервал для оценки с надежностью 0,99 неизвестного математического
ожидания а нормально распределенного признака генеральной совокупности,
если известны генеральное среднее квадратическое отклонение σ, выборочная
средняя и объем выборки n:
а) σ=4, , n=16; б) σ=5,
, n=25.
3. Одним
и тем же прибором со средним квадратическим отклонением случайных ошибок
изменений σ=40 м произведено пять равноточных измерений расстояния
от орудия до цели. Найти доверительный интервал для оценки истинного расстояния а до
цели с надежностью , зная среднее арифметическое
результатов изменений
м.
4. Станок-автомат штампует валики. По выборке объема n = 100 вычислена выборочная средняя диаметров изготовленных валиков. Найти с надежностью 0,95 точность δ, с которой выборочная средняя оценивает математическое ожидание диаметров изготовляемых валиков, зная, что их среднее квадратическое отклонение σ=2 мм. Предполагается, что диаметры валиков распределены нормально.
5. Найти минимальный объем выборки, при котором с надежностью 0,975 точность оценки математического ожидания а генеральной совокупности по выборочной средней равна δ=0,3, если известно среднее квадратическое отклонение σ=1,2 нормально распределенной генеральной совокупности.
6. Найти минимальный объем выборки, при котором с надежностью 0,925 точность оценки математического ожидания нормально распределенной генеральной совокупности по выборочной средней равна 0,2, если известно средне квадратическое отклонение генеральной совокупности σ=1,5.
7. Из генеральной совокупности извлечена выборка объема n= 10:
значение |
xi |
–2 |
1 |
2 |
3 |
4 |
5 |
Частота |
ni |
2 |
1 |
2 |
2 |
2 |
1 |
Оценить с надежностью 0,95 математическое ожидание а нормально распределенного признака генеральной совокупности по выборочной средней при помощи доверительного интервала.
8. Из генеральной совокупности извлечена выборка объема n=12:
значение |
xi |
–0,5 |
–0,4 |
–0,2 |
0 |
0,2 |
0,6 |
0,8 |
1 |
1,2 |
1,5 |
частота |
ni |
1 |
2 |
1 |
1 |
1 |
1 |
1 |
1 |
2 |
1 |
Оценить с надежность 0,95 математическое ожидание а нормальной распределенного признака генеральной совокупности с помощью доверительного интервала.
9. По данным выборки объема n=16 из генеральной совокупности найдено «исправленное» среднее квадратическое отклонение s=1 нормально распределенного количественного признака. Найти доверительный интервал, покрывающий генеральное среднее квадратическое отклонение σ с надежностью 0,95.
10. Производятся независимые испытания с одинаковой, но неизвестной вероятностью р появления события А в каждом испытании. Найти доверительный интервал для оценки вероятности р с надежностью 0,95, если в 60 испытаниях событие А появилось 15 раз.
11. Проводятся независимые испытания с одинаковой, но неизвестной вероятностью р появления события А в каждом испытании. Найти доверительный интервал для оценки вероятности р с надежностью 0,99, если в 100 испытаниях событие А появилось 60 раз.
12. Изготовлен экспериментальный игровой автомат, который должен обеспечить появление выигрыша в одном случае из 100 бросаний монеты в автомат. Для проверки пригодности автомата произведено 400 испытаний, причем выигрыш появился 5 раз. Найти доверительный интервал, покрывающий неизвестную вероятность появления выигрыша с надежностью γ=0,999.