Ранее рассматривались примеры, где по умолчанию было взято нормальное распределение итогов испытаний. Такое допущение не всегда можно принять без дополнительной проверки. Если у нас есть эмпирическое распределение, а его гистограмма имеет явные отличия от типичного нормального распределения, то необходимо каким-то способом точно выяснить – имеет место ошибка измерения, случайное отклонение, либо дело в законе распределения и необходимо подбирать какой-либо другой закон, отличный от нормального.

Надёжно удостовериться и провести проверку того, насколько итог испытания соответствует теоретически спрогнозированному распределению $N(a,\sigma)$ поможет критерий, разработанный английским математиком Пирсоном. Данный параметр также называется критерием согласия $\chi ^2$.

Проще всего разобраться с понятием, использовав для обоснования его ввода гипотезу о нормальном распределении. Чтобы осуществить данную проверку проведём несложную операцию — возьмём ось OX и сделаем её разбиение на интервалы в количестве l штук. Получим:

$(-\infty,x_1), (x_1,x_2)... (x_{l-1},+\infty)$

Проведя разбиение, осуществим независимые измерения в количестве n. В итоге которых получим ряд эмпирических значений изучаемой случайной величины. Определим количество исходов ($m_i$), вошедших в i интервал и для дальнейших вычислений используем следующую формулу:

$p'_i=P(x_i<x<x_{i+1})=P(\frac{x_i-a}{\sigma}<x<\frac{x_{i+1}-a}{\sigma})=Ф(t_2)-Ф(t_1)$

здесь

$t_1=\frac{x_i-a}{\sigma}, t_2=\frac{x_{i+1}-a}{\sigma}, m_i'=p_i'\cdot n$

С помощью данных вычислений, мы смогли установить значения теоретических частот. Также их можно вычислить и следующим способом:

$m_i'=\frac{n\cdot d}{s}\cdot f(t_i)$

d — длина имеющегося интервала,

$\bar{x}$— среднее значение выборки,

$s^2$— дисперсия выборки.

Применяем затем теорему Муавра-Лапласа, напомним, что она используется в случае, когда число экспериментов чрезвычайно велико, у нас оно составляет n. Каждый из параметров $m_i$ имеет нормальное распределение асимптотического типа. Центр при этом будет располагаться в точке $np_i$. Поэтому для распределения нормирующих характеристик можно использовать формулу:

$y_i=\frac{m_i-np_i}{\sqrt{np_iq_i}}$,

где i взято от 1 до k.

Полученная зависимость более всего совпадает с простейшим видом нормального распределения. При этом, окажись $y_1,y_2...y_i$ параметрами независимого типа, их распределение хорошо согласовывалось бы с распределением $\chi ^2$. Однако, дело обстоит иначе и данные величины связаны между собой линейно, а именно таким образом:

$\sum_{i=1}^{k} y_i \sqrt{np_iq_i}=\sum_{i=1}^{k}m_i-n\sum_{i=1}^{k}p_i=n-n=0$

Установлено, что, при умножении каждого $y_i^2$ на $q_i$, получаемое распределение суммы

$\sum_{i=1}^{k} y_i^2q_i= \sum_{i=1}^{k}\frac{(m_i-np_i)^2}{np_i}$

будет стремиться к $\chi ^2$ распределению с l-1 степенью свободы при $n\rightarrow \infty$.

По распределению Пирсона находят критическое значение $t_\gamma$ , для которого

$P(u>u_1)=\int_{t_\gamma}^{\infty} P_{\chi^2}(u)du=1-\gamma$ $k=l-1$,

Здесь $\gamma$ — заданная надежность вывода (и, значит, $1-\gamma$ пренебрежимо малая вероятность).

Если сумма

$\sum_{i=1}^{k}\frac{(m_i-np_i)^2}{np_i}$

окажется больше этого критического значения, то с надежностью$\gamma$ можно считать, что проверяемое нормальное распределение не согласуется с результатами эксперимента, а значит гипотезу о нормальном распределении признака X следует отвергнуть. Число степеней свободы находят по формуле k=l-1-r, где l- число интервалов, r- число параметров предполагаемого распределения, которые оцениваются по данным выборки.

Решение примера, с использованием формул и таблиц, относящихся к критерию согласия Пирсона

Пример

Имеется сто скважин, по данным, полученным от которых, надо провести проверку того, что логарифм y=lg x проницаемости пласта горизонта $Д_1$ подчиняется нормальному закону распределения.

Данные, необходимые для вычислений задаются с помощью следующей таблицы

Номер Промежутки для $y_i=lg x$ $m_i$
1 1,3-1,6 3
2 1,6-1,9 13
3 1,9-2,2 33
4 2,2-2,5 30
5 2,5-2,8 17
6 2,8-3,1 4

Решение

Требуется сделать проверку для предположения о нормальном распределении генеральной совокупности для этого выполним следующие действия:

1) Определим размер рассматриваемой выборки n, также рассчитаем среднее значение каждого промежутка $y_i$, определяем среднее выборочное $y_i \cdot m_i$ и вычисляем значение дисперсии$s^2$. Для вычисления значений $\bar y$ и $s^2$ пользуемся следующими формулами:

$ \bar y=(\sum_{i=1}^{6} y_i\cdot m_i)/n$ =2,22

$ s^2=(\sum_{i=1}^{6} (y_i-\bar y)^2 \cdot m_i)/(n-1)$ =0,1150

2) Согласно предположительному закону распределения проводим расчёт для определения теоретически значений частот:

$m_{iT} = \frac{nd}{s} \cdot f(t_i)$

В данной формуле значения параметров в свою очередь определяются согласно следующим формулам:

$t_i=\frac{y_i-\bar y}{s}$

$f(t_i)=frac{1}{\sqrt{2\pi} exp(-\frac{t_i^2}{2})}$

$n=\sum_{i=1}^{6}m_i=100$

$d=0,3$ (длина интервала)

$s=\sqrt{s^2}=\sqrt{0,1150}=0,3391$ (среднеквадратическое отклонение)

При вычислении будем учитывать, что закон, соответствующий случаю нормального распределения — это функция чётная, поэтому достаточно определить $|t_i|$. Рассчитанные в ходе решения значения $m_{iT}$ допустимо округлять таким образом, чтобы действовало условие $\sum m’_{iT}=n$. При этом, если значения параметров $m_{iT}$ и $m’_{iT}$ будут менее пяти, то наиболее приемлемый вариант — сгруппировать их с соседними частотами — столбец $m_{iT_2} $ в следующей таблице.

Номер Середина промежутка $y_i$ $y_i \cdot m_i$ $(y_i- \bar y_i)^2 \cdot m_i$ $|t_i|$ $f(t_i)$ $m_{iT} $ $m’_{iT} $ $m_{iT_2} $ $\chi^2_i$
1 1,45 4,35 1,7787 2,27 0,0303 2,7 3
2 1,75 22,75 2,8717 1,39 0,1518 13,4 13 16 0
3 2,05 67,65 0,9537 0,50 0,3521 31,1 31 31 0,1290
4 2,35 70,5 0,5070 0,38 0,3712 32,8 33 33 0,2727
5 2,65 45,05 3,1433 1,27 0,1781 15,9 16 20 0,05
6 2,95 11,8 2,136 2,15 0,0396 3,5 4
$n=100$ $\bar y$=2,22 $s^2$ =0,1150 99,4 100 100 0,4518

3) Закончив подготовительные расчёты определим критерий согласия $\chi^2$, используя формулу:

$ \chi^2 = \sum_{i=1}^{l} \chi^2_i $

где

$ \chi^2_i = \frac{(m_i-m_{iT_2})^2}{ m_{iT_2}} $

получаем:

$ \chi^2 = \sum_{i=1}^{l} \frac{(m_i-m_{iT_2})^2}{ m_{iT_2}} $ = 0,4518

где l=4 и соответствует количеству интегралов после группировки результатов.

4) При степенях свободы k=l-3 и уровне значимости q=0,05 можно с помощью таблицы определить значение $\chi^2$. Далее необходимо сравнить его с параметром $\chi^2_q.k.$, если выполняется условие $\chi^2<\chi^2_q.k.$ , то спрогнозированный закон распределения принимается как не вызывающий противоречий и согласующийся с итогами испытаний. Получаем, что в рассматриваемой задаче для параметра согласия:

$\chi^2=0,4518<\chi^2_q.k.=3,841$

А это значит, что нормальный закон распределения может быть использован как статистическая модель распределения для логарифма проницаемости пород. А сам закон распределения в аналитической форме, учитывая, что $\sigma$=0,3391 , $M(y)$=2,22 будет выглядеть следующим образом:

$f(y)=\frac{1}{0,3391\sqrt{2\pi}}\cdot exp(-\frac{(y-2,22)^2}{2\cdot 0,1150})$


Warning: file_put_contents(./students_count.txt): failed to open stream: Permission denied in /var/www/webmath-q2ws/data/www/webmath.ru/poleznoe/guide_content_banner.php on line 20
236
проверенных автора готовы помочь в написании работы любой сложности
Мы помогли уже 4 468 ученикам и студентам сдать работы от решения задач до дипломных на отлично! Узнай стоимость своей работы за 15 минут!