Класичні методи статистики: критерій хі-квадрат. Визначення залежності між ознаками: критерій Хі-квадрат


). Конкретне формулювання гіпотези, що перевіряється, іноді варіюватиме.

У цьому повідомленні я опишу принцип роботи критерію \(\chi^2\) на (гіпотетичному) прикладі з імунології. Припустимо, що ми виконали експеримент із встановлення ефективності придушення розвитку мікробного захворювання при введенні в організм відповідних антитіл. Усього в експерименті було задіяно 111 мишей, яких ми розділили на дві групи, що включають 57 та 54 тварин відповідно. Першу групу мишей зробили ін'єкції патогенних бактерій з наступним введенням сироватки крові, що містить антитіла проти цих бактерій. Тварини із другої групи служили контролем – їм зробили лише бактеріальні ін'єкції. Після деякого часу інкубації виявилось, що 38 мишей загинули, а 73 вижили. Із загиблих 13 належали першій групі, а 25 – до другої (контрольної). Перевірену в цьому експерименті нульову гіпотезу можна сформулювати так: введення сироватки з антитілами не впливає на виживання мишей. Іншими словами, ми стверджуємо, що відмінності у виживаності мишей (77.2% у першій групі проти 53.7% у другій групі) абсолютно випадкові і не пов'язані з дією антитіл.

Отримані в експерименті дані можна подати у вигляді таблиці:

Усього

Бактерії + сироватка

Тільки бактерії

Усього

Таблиці, подібні до наведеної, називають таблицями сполученості . У прикладі таблиця має розмірність 2х2: є два класи об'єктів («Бактерії + сироватка» і «Тільки бактерії»), які досліджуються за двома ознаками ("Загинуло" і "Вижило"). Це найпростіший випадок таблиці сполученості: безумовно, і кількість досліджуваних класів, і кількість ознак може бути більшою.

Для перевірки сформульованої вище нульової гіпотези нам необхідно знати, яка була б ситуація, якби антитіла дійсно не мали жодного впливу на виживання мишей. Іншими словами, потрібно розрахувати очікувані частотидля відповідних осередків таблиці спряженості. Як це зробити? В експерименті загинуло 38 мишей, що становить 34.2% від загальної кількості задіяних тварин. Якщо введення антитіл не впливає на виживання мишей, в обох експериментальних групах має спостерігатись однаковий відсоток смертності, а саме 34.2%. Розрахувавши, скільки становить 34.2% від 57 та 54, отримаємо 19.5 та 18.5. Це і є очікувані розміри смертності в наших експериментальних групах. Аналогічним чином розраховуються і очікувані величини виживання: оскільки всього вижили 73 миші, або 65.8% від загальної їхньої кількості, то очікувані частоти виживання складуть 37.5 і 35.5. Складемо нову таблицю спряженості, тепер уже з очікуваними частотами:

Загиблі

Вижили

Усього

Бактерії + сироватка

Тільки бактерії

Усього

Як бачимо, очікувані частоти дуже відрізняються від спостережуваних, тобто. Введення антитіл, схоже, все-таки впливає на виживання мишей, заражених патогенним мікроорганізмом. Це враження ми можемо висловити кількісно за допомогою критерію згоди Пірсона \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


де \(f_o\) і \(f_e\) - частоти, що спостерігаються і очікувані відповідно. Підсумовування проводиться у всіх осередках таблиці. Так, для прикладу, що розглядається, маємо

\[\chi^2 = (13 – 19.5)^2/19.5 + (44 – 37.5)^2/37.5 + (25 – 18.5)^2/18.5 + (29 – 35.5)^2/35.5 = \]

Чи достатньо велике отримане значення \(\chi^2\), щоб відхилити нульову гіпотезу? Для відповіді це питання необхідно знайти відповідне критичне значення критерію. Число ступенів свободи для \(\chi^2\) розраховується як \(df = (R - 1)(C - 1)\), де \(R\) і \(C\) - кількість рядків та стовпців у таблиці сполучення. У разі \(df = (2 -1)(2 - 1) = 1\). Знаючи число ступенів свободи, ми тепер легко можемо дізнатися критичне значення \(\chi^2\) за допомогою стандартної функції R qchisq() :


Таким чином, за одного ступеня свободи лише в 5% випадків величина критерію \(\chi^2\) перевищує 3.841. Отримане нами значення 6.79 значно перевищує це критичного значення, що дає нам право відкинути нульову гіпотезу про відсутність зв'язку між введенням антитіл та виживання заражених мишей. Відкидаючи цю гіпотезу, ми ризикуємо помилитися з ймовірністю менш як 5%.

Слід зазначити, що наведена вище формула критерію \(\chi^2\) дає кілька завищені значення під час роботи з таблицями спряженості розміром 2х2. Причина у тому, що розподіл самого критерію \(\chi^2\) є безперервним, тоді як частоти бінарних ознак ( " загинуло " / " вижило " ) за визначенням дискретні. У зв'язку з цим при розрахунку критерію прийнято запроваджувати т.зв. поправку на безперервність, або поправку Єтса :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

"s Chi-squared test з Yates"


Як бачимо, R автоматично застосовує поправку Єтса на безперервність ( Pearson"s Chi-squared test with Yates" continuity correction). Розраховане програмою значення \(\chi^2\) склало 5.79213. Ми можемо відхилити нульову гіпотезу про відсутність ефекту антитіл, ризикуючи помилитися з ймовірністю трохи більше 1% (p-value = 0.0161).

1. Порівнювані показники повинні бути виміряні в номінальної шкали(наприклад, стать пацієнта - чоловіча або жіноча) або в порядковий(наприклад, ступінь артеріальної гіпертензії, що набуває значення від 0 до 3).

2. Цей методдозволяє проводити аналіз не тільки чотирипольних таблиць, коли і фактор, і результат є бінарними змінними, тобто мають лише два можливі значення (наприклад, чоловіча або жіноча стать, наявність або відсутність певного захворювання в анамнезі...). Критерій хі-квадрат Пірсона може застосовуватися і у разі аналізу багатопольних таблиць, коли фактор та (або) результат приймають три і більше значень.

3. Порівнювані групи повинні бути незалежними, тобто критерій хі-квадрат не повинен застосовуватися при порівнянні спостережень "до-"після". тест Мак-Немара(при порівнянні двох пов'язаних сукупностей) або розраховується Q-критерій Кохрена(у разі порівняння трьох та більше груп).

4. При аналізі чотирипольних таблиць очікувані значенняу кожному із осередків мають бути не менше 10. У тому випадку, якщо хоча б в одному осередку очікуване явище набуває значення від 5 до 9, критерій хі-квадрат повинен розраховуватися з поправкою Йейтса. Якщо хоча в одному осередку очікуване явище менше 5, то для аналізу повинен використовуватися точний критерій Фішера.

5. У разі аналізу багатопільних таблиць очікувана кількість спостережень не повинна набувати значення менше 5 більш ніж у 20% осередків.

Для розрахунку критерію хі-квадрату необхідно:

1. Розраховуємо очікувану кількість спостереженьдля кожної із осередків таблиці сполученості (за умови справедливості нульової гіпотези про відсутність взаємозв'язку) шляхом перемноження сум рядів і стовпців з наступним поділом отриманого твору на загальну кількість спостережень. Загальний виглядтаблиці очікуваних значень представлені нижче:

Вихід є (1) Виходу немає (0) Усього
Чинник ризику є (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A + B
Чинник ризику відсутній (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Усього A + C B + D A+B+C+D

2. Знаходимо значення критерію 2за наступною формулою:

де i- Номер рядка (від 1 до r), j- Номер стовпця (від 1 до с), O ij– фактична кількість спостережень у осередку ij, E ij- Очікувана кількість спостережень в осередку ij.

У тому випадку, якщо кількість очікуваного явища менше 10 хоча б в одному осередку, при аналізі чотирипольних таблиць слід розраховувати критерій хі-квадрат із поправкою Йейтса. Ця поправка дозволяє зменшити ймовірність помилки першого типу, тобто виявлення відмінностей там, де їх немає. Поправка Йейтса полягає у відніманні 0,5 з абсолютного значення різниці між фактичним та очікуваною кількістю спостережень у кожному осередку, що веде до зменшення величини критерію хі-квадрат.

Формула для розрахунку критерію 2 з поправкою Йейтса наступна:

3. Визначаємо кількість ступенів свободиза формулою: f = (r – 1) × (c – 1). Відповідно, для чотирипольної таблиці, в якій 2 ряди (r = 2) і 2 стовпці (c = 2), число ступенів свободи становить f 2x2 = (2 - 1) * (2 - 1) = 1.

4. Порівнюємо значення критерію 2 з критичним значенняму числі ступенів свободи f (по таблиці).

Даний алгоритм застосуємо як для чотирипольних, так багатопольних таблиць.

Як інтерпретувати значення критерію хі-квадрат Пірсона?

У тому випадку, якщо отримане значення критерію χ 2 більше критичного, робимо висновок про наявність статистичного взаємозв'язку між фактором ризику, що вивчається, і результатом при відповідному рівні значущості.

Приклад розрахунку критерію хі-квадрат Пірсона

Визначимо статистичну значимість впливу фактора куріння на частоту випадків артеріальної гіпертонії за розглянутою вище таблицею:

1. Розраховуємо очікувані значення для кожного осередку:

2. Знаходимо значення критерію хі-квадрат Пірсона:

χ 2 = (40-33.6) 2 / 33.6 + (30-36.4) 2 / 36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2 / 41.6 = 4.396.

3. Число ступенів свободи f = (2-1) * (2-1) = 1. Знаходимо по таблиці критичне значення критерію хі-квадрат Пірсона, яке при рівні значущості p = 0.05 та числі ступенів свободи 1 становить 3.841.

4. Порівнюємо отримане значення критерію хі-квадрат із критичним: 4.396 > 3.841, отже залежність частоти випадків артеріальної гіпертонії від наявності куріння – статистично значуща. Рівень значимості цього взаємозв'язку відповідає p<0.05.

Число ступенів свободи, f χ 2 при p=0.05 χ 2 при p=0.01
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566
  • Математика
  • У цій статті йтиметься про дослідження залежності між ознаками, або як більше подобається - випадковими величинами, змінними. Зокрема, ми розберемо як запровадити міру залежності між ознаками, використовуючи критерій Хі-квадрат та порівняємо її з коефіцієнтом кореляції.

    Навіщо це може знадобитися? Наприклад, щоб зрозуміти які ознаки сильніше залежні від цільової змінної при побудові кредитного скорингу - визначенні ймовірності дефолту клієнта. Або, як у моєму випадку, зрозуміти які показники потрібно використовувати для програмування торгового робота.

    Окремо зазначу, що з аналізу даних використовую мову c#. Можливо це все вже реалізовано на R або Python, але використання c# для мене дозволяє детально розібратися в темі, навіть це моя улюблена мова програмування.

    Почнемо з дуже простого прикладу, створимо в екселе чотири колонки, використовуючи генератор випадкових чисел:
    X=ВИПАДМІЖ(-100;100)
    Y =X*10+20
    Z =X*X
    T=ВИПАДМІЖ(-100;100)

    Як видно, змінна Yлінійно залежна від X; змінна Zквадратично залежить від X; змінні Xі Тнезалежні. Такий вибір я зробив спеціально, тому що нашу міру залежності ми порівнюватимемо з коефіцієнтом кореляції. Як відомо, між двома випадковими величинами він дорівнює по модулю 1 якщо між ними найжорсткіший вид залежності - лінійний. Між двома незалежними випадковими величинами кореляція нульова, але з рівності коефіцієнта кореляції нулю не випливає незалежність. Далі ми це побачимо на прикладі змінних Xі Z.

    Зберігаємо файл як data.csv і починаємо перші прикиди. Спочатку розрахуємо коефіцієнт кореляції між величинами. Код у статтю я вставляти не став, він є на моєму github. Отримуємо кореляцію по різних парах:

    Видно, що у лінійно залежних Xі Yкоефіцієнт кореляції дорівнює 1. А ось у Xі Zвін дорівнює 0.01, хоча залежність ми поставили явну Z=X*X. Зрозуміло, що нам потрібна міра, яка «відчуває» залежність краще. Але перш, ніж переходити до критерію Хі-квадрат, розглянемо що таке матриця сполученості.

    Щоб побудувати матрицю сполученості, ми розіб'ємо діапазон значень змінних на інтервали (або категоруємо). Є багато способів такого розбиття, при цьому якогось універсального не існує. Деякі їх розбивають на інтервали так, щоб у них потрапляла однакова кількість змінних, інші розбивають на рівні по довжині інтервали. Мені особисто за духом комбінувати ці підходи. Я вирішив скористатися у такий спосіб: зі змінної я віднімаю оцінку мат. очікування, потім отримане поділю на оцінку стандартного відхилення. Іншими словами, я центрую і нормую випадкову величину. Отримане значення множиться на коефіцієнт (у цьому прикладі він дорівнює 1), після чого все округляється до цілого. На виході виходить змінна типу int, що є ідентифікатором класу.

    Отже, візьмемо наші ознаки Xі Z, категоруємо описаним вище способом, після чого порахуємо кількість та ймовірності появи кожного класу та ймовірності появи пар ознак:

    Це матриця за кількістю. Тут у рядках – кількості появи класів змінної X, у стовпцях - кількості появ класів змінної Z, у клітинах – кількості появ пар класів одночасно. Наприклад, клас 0 зустрівся 865 разів для змінної X, 823 рази на змінну Zі жодного разу не було пари (0,0). Перейдемо до ймовірностей, поділивши всі значення на 3000 (загальна кількість спостережень):

    Отримали матрицю сполученості, одержану після категорування ознак. Тепер настав час задуматися над критерієм. За визначенням, випадкові величини незалежні, якщо незалежні сигма-алгебри, породжені цими випадковими величинами. Незалежність сигма-алгебр має на увазі попарну незалежність подій із них. Дві події називаються незалежними, якщо ймовірність їхньої спільної появи дорівнює добутку ймовірностей цих подій: Pij = Pi*Pj. Саме цією формулою ми будемо користуватися для побудови критерію.

    Нульова гіпотеза: категоровані ознаки Xі Zнезалежні. Еквівалентна їй: розподіл матриці сполученості визначається виключно ймовірностями появи класів змінних (ймовірності рядків і стовпців). Або так: осередки матриці знаходяться твором відповідних ймовірностей рядків та стовпців. Це формулювання нульової гіпотези ми будемо використовувати для побудови вирішального правила: суттєва розбіжність між Pijі Pi*Pjбуде основою відхилення нульової гіпотези.

    Нехай - ймовірність появи класу 0 у змінної X. Усього у нас nкласів у Xі mкласів у Z. Виходить, щоб задати розподіл матриці нам потрібно знати ці nі mймовірностей. Але насправді якщо ми знаємо n-1ймовірність для X, то остання знаходиться відніманням з 1 суми інших. Таким чином, для знаходження розподілу матриці сполученості нам треба знати l=(n-1)+(m-1)значень. Або ми маємо l-мірне параметричне простір, вектор з якого задає нам наш розподіл. Статистика Хі-квадрат матиме такий вигляд:

    і, згідно з теоремою Фішера, мати розподіл Хі-квадрат з n*m-l-1=(n-1)(m-1)ступенями свободи.

    Задамося рівнем значимості 0.95 (або ймовірність помилки першого роду дорівнює 0.05). Знайдемо квантиль розподілу Хі квадрат для даного рівня значущості та ступенів свободи з прикладу (n-1) (m-1) = 4 * 3 = 12: 21.02606982. Сама статистика Хі-квадрат для змінних Xі Zдорівнює 4088.006631. Видно, що гіпотеза про незалежність не ухвалюється. Зручно розглядати ставлення статистики Хі-квадрат до порогового значення - даному випадкувоно одно Chi2Coeff=194.4256186. Якщо це відношення менше 1, то гіпотеза про незалежність приймається, якщо більше, то ні. Знайдемо це відношення для всіх пар ознак:

    Тут Factor1і Factor2- імена ознак
    src_cnt1і src_cnt2- кількість унікальних значень вихідних ознак
    mod_cnt1і mod_cnt2- кількість унікальних значень ознак після категорування
    chi2- статистика Хі-квадрат
    chi2max- граничне значення статистики Хі-квадрат для рівня значимості 0.95
    chi2Coeff- Ставлення статистики Хі-квадрат до порогового значення
    corr- Коефіцієнт кореляції

    Видно, що незалежні (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) та ( Z,T), що логічно, оскільки змінна Tгенерується випадково. Змінні Xі Zзалежні, але менш, ніж лінійно залежні Xі Yщо теж логічно.

    Код утиліти, що розраховує дані показники, я виклав на github, там же файл data.csv. Утиліта приймає на вхід файл csv і вираховує залежності між усіма парами колонок: PtProject.Dependency.exe data.csv

    Використання цього критерію ґрунтується на застосуванні такого заходу (статистики) розбіжності між теоретичним. F(x) та емпіричним розподілом F* п (x) , яка приблизно підпорядковується закону розподілу χ 2 . Гіпотеза Н 0 про узгодженість розподілів перевіряється шляхом аналізу розподілу цієї статистики. Застосування критерію потребує побудови статистичного ряду.

    Отже, нехай вибірка представлена ​​статистичним поряд із кількістю розрядів M. Частота потраплянь, що спостерігається в i- й розряд n i. Відповідно до теоретичного закону розподілу очікувана частота потраплянь у i-й розряд складає F i. Різниця між спостерігається і очікуваною частотою складе величину ( n iF i). Для знаходження загального ступеня розходження між F(x) та F* п (x) необхідно підрахувати зважену суму квадратів різниць за всіма розрядами статистичного ряду

    Розмір χ 2 при необмеженому збільшенні n має χ 2 -розподіл (асимптотично розподілена як χ 2). Цей розподіл залежить від числа ступенів свободи k, тобто. кількості незалежних значень доданків у виразі (3.7). Число ступенів свободи дорівнює числу yмінус число лінійних зв'язків, накладених вибірку. Один зв'язок існує через те, що будь-яка частота може бути обчислена за сукупністю частот у решті M-1 Розрядах. Крім того, якщо параметри розподілу невідомі заздалегідь, є ще одне обмеження, обумовлене припасуванням розподілу до вибірки. Якщо за вибіркою визначаються S параметрів розподілу, то число ступенів свободи становитиме k= MS–1.

    Область прийняття гіпотези Н 0 визначається умовою χ 2 < χ 2 (k; a) де χ 2 (k; a) – критична точка χ2-розподілу з рівнем значущості a. Імовірність помилки першого роду дорівнює a, Імовірність помилки другого роду чітко визначити не можна, тому що існує безліч різних способів розбіжності розподілів. Потужність критерію залежить від кількості розрядів та обсягу вибірки. Критерій рекомендується застосовувати при n>200, допускається застосування при n>40, за таких умов критерій заможний (зазвичай, відкидає неправильну нульову гіпотезу).

    Алгоритм перевірки за критерієм

    1. Побудувати гістограму рівноймовірним способом.

    2. За видом гістограми висунути гіпотезу

    H 0: f(x) = f 0 (x),

    H 1: f(x) ¹ f 0 (x),

    де f 0 (x) – щільність ймовірності гіпотетичного закону розподілу (наприклад, рівномірного, експоненціального, нормального).

    Зауваження. Гіпотезу про експонентний закон розподілу можна висувати в тому випадку, якщо всі числа у вибірці позитивні.

    3. Обчислити значення критерію за такою формулою

    ,

    де
    частота влучення в i-Тий інтервал;

    p i- теоретична ймовірність влучення випадкової величини в i- тий інтервал за умови, що гіпотеза H 0 вірна.

    Формули для розрахунку p iу разі експоненційного, рівномірного та нормального законів відповідно рівні.

    Експонентний закон

    . (3.8)

    При цьому A 1 = 0, B m = +¥.

    Рівномірний закон

    Нормальний закон

    . (3.10)

    При цьому A 1 = - ¥, B M = + ¥.

    Зауваження. p iПісля обчислення всіх ймовірностей

    перевірити, чи виконується контрольне співвідношення Функція Ф(х

    4. З таблиці " Хі-квадрат" Програми вибирається значення
    де a - заданий рівень значущості (a = 0,05 або a = 0,01), а k- число ступенів свободи, що визначається за формулою

    k = M - 1 - S.

    Тут S- Число параметрів, від яких залежить обраний гіпотезою H 0 Закон розподілу. Значення Sдля рівномірного закону дорівнює 2, для експоненційного – 1, для нормального – 2.

    5. Якщо
    , то гіпотеза H 0 Відхиляється. В іншому випадку немає підстав її відхилити: з ймовірністю 1 - b вона вірна, а з ймовірністю - b невірна, але величина b невідома.

    Приклад3 . 1. За допомогою критерію c 2 висунути та перевірити гіпотезу про закон розподілу випадкової величини X, варіаційний ряд, інтервальні таблиці та гістограми розподілу якої наведено у прикладі 1.2. Рівень значимості дорівнює 0,05.

    Рішення . На вигляд гістограм висуваємо гіпотезу про те, що випадкова величина Xрозподілено за нормальним законом:

    H 0: f(x) = N(m, s);

    H 1: f(x) ¹ N(m, s).

    Значення критерію обчислюємо за такою формулою:

    (3.11)

    Як зазначалося вище, під час перевірки гіпотези краще використовувати равновероятностную гістограму. В цьому випадку

    Теоретичні ймовірності p iрозраховуємо за формулою (3.10). При цьому вважаємо, що

    p 1 = 0,5(Ф((-4,5245+1,7)/1,98)-Ф((-¥+1,7)/1,98)) = 0,5(Ф(-1,427) -Ф(-¥)) =

    0,5(-0,845+1) = 0,078.

    p 2 = 0,5(Ф((-3,8865+1,7)/1,98)-Ф((-4,5245+1,7)/1,98)) =

    0,5(Ф(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

    p 3 = 0,094; p 4 = 0,135; p 5 = 0,118; p 6 = 0,097; p 7 = 0,073; p 8 = 0,059; p 9 = 0,174;

    p 10 = 0,5(Ф((++1,7)/1,98)-Ф((0,6932+1,7)/1,98)) = 0,114.

    Після цього перевіряємо виконання контрольного співвідношення

    100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

    0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

    Після цього з таблиці "Хі - квадрат" вибираємо критичне значення

    .

    Так як
    то гіпотеза H 0 приймається (немає підстави її відхилити).

    У цій замітці χ 2 -розподіл використовується для перевірки узгодженості набору даних з фіксованим розподілом ймовірностей. У критерії згоди част оти, що належать до певної категорії, порівнюються з частотами, які є теоретично очікуваними, якби дані дійсно мали зазначений розподіл.

    Перевірка за допомогою критерію згоди 2 виконується в кілька етапів. По-перше, визначається конкретний розподіл ймовірностей, що порівнюється з вихідними даними. По-друге, висувається гіпотеза про параметри обраного розподілу ймовірностей (наприклад, про її математичне очікування) або проводиться їхня оцінка. По-третє, на основі теоретичного розподілу визначається теоретична ймовірність, що відповідає кожній категорії. На закінчення, для перевірки узгодженості даних та розподілу застосовується тестова χ 2 -статистика:

    де f 0- спостерігається частота, f е- теоретична, чи очікувана частота, k- кількість категорій, що залишилися після об'єднання, р- кількість параметрів, що оцінюються.

    Завантажити нотатку у форматі або , приклади у форматі

    Використання χ 2 -критерію згоди для розподілу Пуассона

    Для розрахунку за цією формулою в Excel зручно скористатися функцією СУММПРОИЗВ() (рис. 1).

    Для оцінки параметра λ можна скористатися оцінкою . Теоретичну частоту Xуспіхів (Х = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 і більше), що відповідає параметру λ = 2,9 можна визначити за допомогою функції = ПУАССОН.РАСП (Х;; Брехня). Помноживши пуассонівську можливість на обсяг вибірки n, отримаємо теоретичну частоту f e(Рис. 2).

    Мал. 2. Фактичні та теоретичні частоти прибуття за хвилину

    Як випливає з рис. 2, теоретична частота дев'яти і більше прибутків вбирається у 1,0. Щоб кожна категорія містила частоту, рівну 1,0 чи більшому числу, категорію «9 і більше» слід об'єднати з категорією «8». Тобто залишається дев'ять категорій (0, 1, 2, 3, 4, 5, 6, 7, 8 і більше). Оскільки математичне очікування розподілу Пуассона визначається на основі вибіркових даних, кількість ступенів свободи дорівнює k - р - 1 = 9 - 1 - 1 = 7. Використовуючи рівень значущості, рівний 0,05 знаходимо критичне значення χ 2 -статистики, що має 7 ступенів свободи формулі = ХІ2.ОБР (1-0,05; 7) = 14,067. Вирішальне правило формулюється так: гіпотеза Н 0відхиляється, якщо χ 2 > 14,067, інакше гіпотеза Н 0не відхиляється.

    Для розрахунку 2 скористаємося формулою (1) (рис. 3).

    Мал. 3. Розрахунок χ 2 -критерія згоди для розподілу Пуассона

    Оскільки χ 2 = 2,277< 14,067, следует, что гипотезу Н 0відхиляти не можна. Інакше кажучи, ми не маємо підстав стверджувати, що прибуття клієнтів до банку не підпорядковується розподілу Пуассона.

    Застосування ? 2 -критерія згоди для нормального розподілу

    У попередніх нотатках під час перевірки гіпотез про числові змінні використовувалося припущення про те, що досліджувана Генеральна сукупністьмає нормальний розподіл. Для перевірки цього припущення можна застосовувати графічні засоби, наприклад, блокову діаграму або графік нормального розподілу (докладніше див.). При більших обсягах вибірок для перевірки цих припущень можна використовувати χ 2 критерій згоди для нормального розподілу.

    Розглянемо як приклад дані про 5-річну прибутковість 158 інвестиційних фондів (рис. 4). Припустимо, потрібно повірити, чи ці дані мають нормальний розподіл. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: 5-річна прибутковість підпорядковується нормальному розподілу, Н 1: 5-річна прибутковість не підпорядковується нормальному розподілу Нормальний розподіл має два параметри - математичне очікування μ та стандартне відхиленняσ, які можна оцінити на основі вибіркових даних. В даному випадку = 10,149 та S = 4,773.

    Мал. 4. Упорядкований масив, що містить дані про п'ятирічну середньорічну прибутковість 158 фондів

    Дані про прибутковість фондів можна згрупувати, розбивши, наприклад, на класи (інтервали) шириною 5% (рис. 5).

    Мал. 5. Розподіл частот для п'ятирічної середньорічної доходності 158 фондів

    Оскільки нормальний розподіл є безперервним, необхідно визначити площу фігур, обмежених кривою нормального розподілу та межами кожного інтервалу. Крім того, оскільки нормальний розподіл теоретично змінюється від –∞ до +∞, необхідно враховувати площу фігур, що виходять за межі класів. Отже, площа, що лежить під нормальною кривою зліва від точки –10, дорівнює площі фігури, що лежить під стандартизованою нормальною кривою зліва від величини Z, що дорівнює

    Z = (-10 - 10,149) / 4,773 = -4,22

    Площа фігури, що лежить під стандартизованою нормальною кривою зліва від величини Z = -4,22 визначається за формулою = НОРМ.РАСП(-10; 10,149; 4,773; ІСТИНА) і приблизно дорівнює 0,00001. Для того щоб обчислити площу фігури, що лежить під нормальною кривою між точками –10 і –5, спочатку необхідно обчислити площу фігури, що лежить ліворуч від точки –5: =НОРМ.РАСП(-5;10,149;4,773;ІСТИНА) = 0,00075 . Отже, площа фігури, що лежить під нормальною кривою між точками –10 та –5, дорівнює 0,00075 – 0,00001 = 0,00074. Аналогічно можна обчислити площу фігури, обмеженою межами кожного класу (рис. 6).

    Мал. 6. Площі та очікувані частоти для кожного класу 5-річної прибутковості

    Видно, що теоретичні частоти в чотирьох крайніх класах (два мінімальні та два максимальні) менше 1, тому проведемо об'єднання класів, як показано на рис 7.

    Мал. 7. Обчислення, пов'язані із застосуванням χ 2 -критерію згоди для нормального розподілу

    Використовуємо 2 -критерій згоди даних з нормальним розподіломза допомогою формули (1). У прикладі після об'єднання залишаються шість класів. Оскільки математичне очікування та стандартне відхилення оцінюються на основі вибіркових даних, кількість ступенів свободи дорівнює kp – 1 = 6 – 2 – 1 = 3. Використовуючи рівень значимості, рівний 0,05, бачимо, що критичне значення χ 2 -статистики, має три ступені свободи = ХІ2.ОБР(1-0,05; F3) = 7,815. Обчислення, пов'язані із застосуванням 2 -критерію згоди, наведено на рис. 7.

    Видно, що ? 2 -статистика = 3,964< χ U 2 7,815, следовательно гипотезу Н 0відхиляти не можна. Інакше кажучи, ми не маємо підстав стверджувати, що 5-річна прибутковість інвестиційних фондів, орієнтованих на швидке зростання, не підпорядковується нормальному розподілу.

    У кількох останніх нотатках розглянуто різні підходидля аналізу категорійних даних. Описано методи перевірки гіпотез про категорійні дані, отримані на основі аналізу двох або декількох незалежних вибірок. Окрім критеріїв «хі-квадрат», розглянуто непараметричні процедури. Описано ранговий критерій Вілкоксону, який використовується у ситуаціях, коли не виконуються умови застосування. t-критерія для перевірки гіпотези про рівність математичних очікуваньдвох незалежних груп, а також критерій Крускала-Уолліса, який є альтернативою однофакторному дисперсійному аналізу (рис. 8).

    Мал. 8. Структурна схема методів перевірки гіпотез про категорійні дані

    Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 763–769

    Вибір редакції
    Сонник С. Каратова Снилася Редиска - то вам вдасться набрати велику фізичну силу.

    Келихи: бачити уві сні, розбити келих з вином Що означає бачити уві сні повні келихи

    Сонник С. Каратова До чого сняться Дрова: Бачити, що заготовляли дрова - то на вас чекає успіх у справах. Бачити, що ви побачили дрова в...

    Пояснень побачених уві сні погодних неприємностей досить багато. Щоб дізнатися, до чого сниться гроза, слід напружити свою пам'ять і...
    До чого сниться верблюд жінці
    Млинці з дитячої розчинної каші
    Простий спосіб здивувати гостей
    Курячі оладки з фото для дітей