Klassikalised statistikameetodid: hii-ruut test. Tunnustevahelise seose määramine: hii-ruut test


). Testitava hüpoteesi konkreetne sõnastus on igal üksikjuhul erinev.

Selles postituses kirjeldan immunoloogia (hüpoteetilise) näite abil, kuidas \(\chi^2\) kriteerium töötab. Kujutagem ette, et oleme läbi viinud eksperimendi, et määrata kindlaks mikroobse haiguse arengu mahasurumise tõhusus, kui kehasse viiakse vastavad antikehad. Kokku osales katses 111 hiirt, kelle jagasime kahte rühma, sealhulgas vastavalt 57 ja 54 looma. Esimesele hiirerühmale süstiti patogeenseid baktereid, millele järgnes nende bakterite vastaseid antikehi sisaldava vereseerumi sisseviimine. Teise rühma loomad olid kontrollid - nad said ainult bakterite süsti. Pärast mõnda aega inkubeerimist selgus, et 38 hiirt suri ja 73 jäi ellu. Hukkunutest kuulus esimesse gruppi 13 ja teise (kontroll) 25 inimest. Selles katses testitud nullhüpoteesi saab sõnastada järgmiselt: seerumi manustamine koos antikehadega ei mõjuta hiirte ellujäämist. Teisisõnu väidame, et täheldatud erinevused hiirte ellujäämises (77,2% esimeses rühmas versus 53,7% teises rühmas) on täiesti juhuslikud ega ole seotud antikehade toimega.

Katse käigus saadud andmed saab esitada tabeli kujul:

Kokku

Bakterid + seerum

Ainult bakterid

Kokku

Näidatud tabeleid nimetatakse situatsioonitabeliteks. Vaadeldavas näites on tabeli mõõtmed 2x2: on kaks objektide klassi (“Bakterid + seerum” ja “Ainult bakterid”), mida uuritakse kahe kriteeriumi järgi (“Surnud” ja “Ellujäänud”). See on juhuslikkuse tabeli kõige lihtsam juhtum: loomulikult võib nii uuritavate klasside kui ka tunnuste arv olla suurem.

Eespool nimetatud nullhüpoteesi testimiseks peame teadma, milline oleks olukord, kui antikehad ei mõjutaks tegelikult hiirte ellujäämist. Teisisõnu, peate arvutama eeldatavad sagedused situatsioonitabeli vastavate lahtrite jaoks. Kuidas seda teha? Katses suri kokku 38 hiirt, mis moodustab 34,2% kaasatud loomade koguarvust. Kui antikehade manustamine ei mõjuta hiirte ellujäämist, tuleks mõlemas katserühmas täheldada samasugust suremuse protsenti, nimelt 34,2%. Arvutades, kui palju on 34,2% 57-st ja 54-st, saame 19,5 ja 18,5. Need on meie katserühmade eeldatavad suremusnäitajad. Eeldatavad elulemusnäitajad arvutatakse sarnaselt: kuna kokku jäi ellu 73 hiirt ehk 65,8% koguarvust, on eeldatav elulemus 37,5 ja 35,5. Loome uue situatsioonitabeli, nüüd eeldatavate sagedustega:

Surnud

Ellujäänud

Kokku

Bakterid + seerum

Ainult bakterid

Kokku

Nagu näeme, on oodatavad sagedused üsna erinevad vaadeldavatest, s.t. antikehade manustamine näib avaldavat mõju patogeeniga nakatunud hiirte ellujäämisele. Selle mulje saame kvantifitseerida Pearsoni sobivuse testi abil \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


kus \(f_o\) ja \(f_e\) on vastavalt vaadeldavad ja eeldatavad sagedused. Summeerimine toimub kõigi tabeli lahtrite üle. Niisiis, vaadeldava näite jaoks on meil

\[\chi^2 = (13–19,5)^2/19,5 + (44–37,5)^2/37,5 + (25–18,5)^2/18,5 + (29–35,5)^2/35,5 = \]

Kas \(\chi^2\) saadud väärtus on nullhüpoteesi tagasilükkamiseks piisavalt suur? Sellele küsimusele vastamiseks on vaja leida kriteeriumile vastav kriitiline väärtus. \(\chi^2\) vabadusastmete arv arvutatakse järgmiselt: \(df = (R - 1)(C - 1)\), kus \(R\) ja \(C\) on arv ridadest ja veergudest tabeli konjugaadis. Meie puhul \(df = (2 -1)(2 - 1) = 1\). Teades vabadusastmete arvu, saame nüüd hõlpsasti teada kriitilise väärtuse \(\chi^2\), kasutades standardset R-funktsiooni qchisq() :


Seega ületab ühe vabadusastmega kriteeriumi \(\chi^2\) väärtus 3,841 vaid 5% juhtudest. Saadud väärtus 6, 79 ületab oluliselt seda kriitilist väärtust, mis annab meile õiguse lükata tagasi nullhüpoteesi, et antikehade manustamise ja nakatunud hiirte ellujäämise vahel puudub seos. Selle hüpoteesi ümberlükkamisel riskime eksimisega vähem kui 5% tõenäosusega.

Tuleb märkida, et ülaltoodud kriteeriumi \(\chi^2\) valem annab 2x2 suuruse situatsioonitabelitega töötamisel veidi pumbatud väärtused. Põhjus on selles, et kriteeriumi \(\chi^2\) enda jaotus on pidev, samas kui binaarsete tunnuste (“surnud” / “ellujäänud”) sagedused on definitsiooni järgi diskreetsed. Sellega seoses on kriteeriumi arvutamisel tavaks juurutada nn järjepidevuse korrigeerimine, või Yatesi muudatusettepanek :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

"s Chi-ruut test Yatesiga" järjepidevuse korrigeerimise andmed: hiirte X-ruut = 5,7923, df = 1, p-väärtus = 0,0161


Nagu näeme, rakendab R automaatselt Yatesi järjepidevuse parandus ( Pearsoni hii-ruut test Yatesi" järjepidevuse korrektsiooniga). Programmi arvutatud \(\chi^2\) väärtus oli 5,79213. Võime tagasi lükata nullhüpoteesi, et antikehade mõju puudub, kui on oht eksida, kui tõenäosus on veidi üle 1% (p-väärtus = 0,0161).

1. Võrreldavates näitajates tuleb mõõta nominaalne skaala(näiteks patsiendi sugu on mees või naine) või in järguline(näiteks arteriaalse hüpertensiooni aste, võttes väärtused vahemikus 0 kuni 3).

2. See meetod võimaldab analüüsida mitte ainult neljaväljalisi tabeleid, kui nii tegur kui ka tulemus on binaarsed muutujad, see tähendab, et neil on ainult kaks võimalikku väärtust (näiteks mees või naine, teatud haiguse olemasolu või puudumine anamnees...). Pearsoni hii-ruuttesti saab kasutada ka mitmeväljatabelite analüüsimisel, kui tegur ja (või) tulemus võtavad kolm või enam väärtust.

3. Võrreldavad rühmad peavad olema sõltumatud, st hii-ruut testi ei tohiks kasutada vaatluste “enne-pärast” võrdlemisel. McNemari test(kahe seotud populatsiooni võrdlemisel) või arvutatud Cochrani Q-test(kolme või enama rühma võrdluse korral).

4. Neljaväljatabelite analüüsimisel eeldatavad väärtused igas lahtris peab olema vähemalt 10. Kui vähemalt ühes lahtris on oodatava nähtuse väärtus vahemikus 5 kuni 9, tuleb arvutada hii-ruut test Yatesi muudatusettepanekuga. Kui vähemalt ühes lahtris on oodatav nähtus alla 5, tuleks analüüsi kasutada Fisheri täpne test.

5. Mitmeväljaliste tabelite analüüsimisel ei tohiks oodatav vaatluste arv olla väiksem kui 5 rohkem kui 20% lahtritest.

Hii-ruudu testi arvutamiseks vajate:

1. Arvutage eeldatav vaatluste arv iga situatsioonitabeli lahtri jaoks (eeldusel, et nullhüpotees seose puudumisest on tõene), korrutades ridade ja veergude summad ning jagades saadud korrutise vaatluste koguarvuga. Üldine vorm Eeldatavate väärtuste tabel on esitatud allpool:

On tulemus (1) Tulemus puudub (0) Kokku
On olemas riskitegur (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
Riskifaktor puudub (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Kokku A+C B+D A+B+C+D

2. χ 2 kriteeriumi väärtuse leidmine järgmise valemi järgi:

Kus i- rea number (1 kuni r), j- veeru number (1 kuni c), O ij– tegelik vaatluste arv lahtris ij, E ij– eeldatav vaatluste arv lahtris ij.

Juhul, kui oodatava nähtuse arv on vähemalt ühes lahtris väiksem kui 10, tuleks neljaväljaliste tabelite analüüsimisel see välja arvutada hii-ruut test Yatesi korrektsiooniga. See muudatus vähendab 1. tüüpi vea tõenäosust, st erinevuste tuvastamist seal, kus neid pole. Yatesi parandus seisneb selles, et iga lahtri tegeliku ja eeldatava vaatluste arvu erinevuse absoluutväärtusest lahutatakse 0,5, mis viib hii-ruut-testi väärtuse vähenemiseni.

Yatesi korrektsiooniga χ 2 kriteeriumi arvutamise valem on järgmine:

3. Vabadusastmete arvu määramine valemi järgi: f = (r – 1) × (c – 1). Vastavalt sellele on neljaväljalise tabeli puhul, milles on 2 rida (r = 2) ja 2 veergu (c = 2), vabadusastmete arv f 2x2 = (2 - 1)*(2 - 1) = 1.

4. Võrdleme χ 2 kriteeriumi väärtust kriitilise väärtusega vabadusastmete arvul f (tabeli järgi).

See algoritm on rakendatav nii nelja- kui ka mitmeväljaliste tabelite jaoks.

Kuidas tõlgendada Pearsoni hii-ruut testi väärtust?

Kui χ 2 kriteeriumi saadud väärtus on suurem kui kriitiline väärtus, järeldame, et uuritud riskiteguri ja tulemuse vahel on statistiline seos sobival olulisuse tasemel.

Pearsoni hii-ruuttesti arvutamise näide

Määrake ülalkirjeldatud tabeli abil suitsetamisteguri mõju statistiline olulisus arteriaalse hüpertensiooni esinemissagedusele:

1. Arvutage iga lahtri eeldatavad väärtused:

2. Leidke Pearsoni hii-ruuttesti väärtus:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Vabadusastmete arv f = (2-1)*(2-1) = 1. Tabelit kasutades leiame Pearsoni hii-ruuttesti kriitilise väärtuse, mis olulisuse tasemel p=0,05 ja vabadusastmete arv 1 on 3,841.

4. Võrdleme saadud hii-ruut testi väärtust kriitilisega: 4,396 > 3,841, seega on arteriaalse hüpertensiooni esinemissageduse sõltuvus suitsetamise esinemisest statistiliselt oluline. Selle seose olulisuse tase vastab p<0.05.

Vabadusastmete arv, f χ 2 p = 0,05 juures χ 2 p = 0,01 juures
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566
  • Matemaatika
  • Selles artiklis räägime märkide vahelise sõltuvuse uurimisest või vastavalt teie eelistustele juhuslikest väärtustest, muutujatest. Eelkõige vaatleme, kuidas kehtestada Khi-ruuttesti abil karakteristikute vahelise sõltuvuse mõõt ja võrrelda seda korrelatsioonikoefitsiendiga.

    Miks võib seda vaja minna? Näiteks selleks, et mõista, millised omadused on krediidiskoori koostamisel sihtmuutujast rohkem sõltuvad – kliendi maksejõuetuse tõenäosuse määramine. Või, nagu minu puhul, mõista, milliseid näitajaid tuleb kauplemisroboti programmeerimiseks kasutada.

    Eraldi tahaksin märkida, et kasutan andmete analüüsiks C# keelt. Võib-olla on see kõik juba R-is või Pythonis realiseeritud, kuid C# kasutamine võimaldab mul teemast üksikasjalikult aru saada, pealegi on see minu lemmik programmeerimiskeel.

    Alustame väga lihtsa näitega, looge Excelis juhuslike arvude generaatori abil neli veergu:
    X=RANDBETWEEN(-100 100)
    Y =X*10+20
    Z =X*X
    T=RANDBETWEEN(-100 100)

    Nagu näete, muutuja Y lineaarselt sõltuv X; muutuv Z ruutkeskmiselt sõltuv X; muutujad X Ja T sõltumatu. Tegin selle valiku meelega, sest me võrdleme oma sõltuvuse mõõdikut korrelatsioonikordajaga. Teatavasti on kahe juhusliku muutuja vahel võrdne moodul 1, kui nendevaheline "kõige raskem" sõltuvus on lineaarne. Kahe sõltumatu juhusliku muutuja vahel on nullkorrelatsioon, kuid korrelatsioonikordaja võrdsus nulliga ei tähenda sõltumatust. Järgmisena näeme seda muutujate näitel X Ja Z.

    Salvestage fail nimega data.csv ja alustage esimesi hinnanguid. Esiteks arvutame väärtuste vahelise korrelatsioonikoefitsiendi. Ma ei sisestanud koodi artiklisse, see on minu githubis. Saame kõigi võimalike paaride korrelatsiooni:

    On näha, et lineaarselt sõltuv X Ja Y korrelatsioonikordaja on 1. Aga X Ja Z see on võrdne 0,01-ga, kuigi me määrame sõltuvuse selgesõnaliselt Z=X*X. On selge, et vajame meedet, mis "tunneb" sõltuvust paremini. Kuid enne hii-ruuttesti juurde liikumist vaatame, mis on juhuslikkuse maatriks.

    Kontingentsimaatriksi koostamiseks jagame muutujate väärtuste vahemiku intervallideks (või kategoriseerime). Selleks on palju võimalusi, kuid universaalset võimalust pole. Mõned neist on jagatud intervallideks nii, et need sisaldavad sama palju muutujaid, teised on jagatud võrdse pikkusega intervallideks. Mulle isiklikult meeldib neid lähenemisviise kombineerida. Otsustasin kasutada seda meetodit: lahutan muutujast matskoori. ootustele, jagage tulemus standardhälbe hinnanguga. Teisisõnu, ma tsentreerin ja normaliseerin juhusliku muutuja. Saadud väärtus korrutatakse koefitsiendiga (selles näites on see 1), mille järel kõik ümardatakse lähima täisarvuni. Väljund on int tüüpi muutuja, mis on klassi identifikaator.

    Nii et võtame oma märgid X Ja Z, kategoriseerime ülalkirjeldatud viisil, mille järel arvutame iga klassi ilmumise arvu ja tõenäosused ning tunnuspaaride ilmnemise tõenäosused:

    See on maatriks koguse järgi. Siin ridadel - muutujaklasside esinemiste arv X, veergudes - muutuja klasside esinemiste arv Z, lahtrites - klassipaaride samaaegsete esinemiste arv. Näiteks klass 0 esines muutuja puhul 865 korda X, muutuja puhul 823 korda Z ja kunagi polnud paari (0,0). Liigume edasi tõenäosuste juurde, jagades kõik väärtused 3000-ga (vaatluste koguarv):

    Saime pärast funktsioonide kategoriseerimist saadud situatsioonimaatriksi. Nüüd on aeg mõelda kriteeriumile. Definitsiooni järgi on juhuslikud suurused sõltumatud, kui nende juhuslike muutujate poolt genereeritud sigma-algebrad on sõltumatud. Sigma algebra sõltumatus eeldab sündmuste paarisõltumatust neist. Kahte sündmust nimetatakse sõltumatuks, kui nende ühise toimumise tõenäosus on võrdne nende sündmuste tõenäosuste korrutisega: Pij = Pi*Pj. Seda valemit kasutame kriteeriumi koostamiseks.

    Nullhüpotees: kategoriseeritud märgid X Ja Z sõltumatu. Sellega samaväärne: kontingentsimaatriksi jaotus on määratud ainult muutujaklasside (ridade ja veergude tõenäosuste) esinemise tõenäosustega. Või see: maatrikslahtrid leitakse ridade ja veergude vastavate tõenäosuste korrutise järgi. Me kasutame seda nullhüpoteesi sõnastust, et konstrueerida otsustusreeglit: oluline lahknevus Pij Ja Pi*Pj on nullhüpoteesi tagasilükkamise aluseks.

    Olgu klassi 0 esinemise tõenäosus muutujas X. Meie kogusumma n klassid kl X Ja m klassid kl Z. Selgub, et maatriksijaotuse täpsustamiseks peame neid teadma n Ja m tõenäosused. Aga tegelikult, kui me teame n-1 tõenäosus jaoks X, siis leitakse viimane, lahutades 1-st teiste summa. Seega, et leida juhuslikkuse maatriksi jaotus, peame teadma l=(n-1)+(m-1) väärtused. Või on meil l-mõõtmeline parameetriline ruum, mille vektor annab meile soovitud jaotuse. Chi-ruudu statistika näeb välja selline:

    ja vastavalt Fisheri teoreemile on hii-ruutjaotus koos n*m-l-1=(n-1)(m-1) vabadusastmed.

    Määrame olulisuse tasemeks 0,95 (või I tüüpi vea tõenäosus on 0,05). Leiame näitest Chi ruudu jaotuse kvantiili antud olulisuse ja vabadusastmete jaoks (n-1) (m-1) = 4 * 3 = 12: 21.02606982. Hii-ruudu statistika ise muutujate jaoks X Ja Z võrdub 4088.006631. On selge, et iseseisvuse hüpoteesiga ei nõustuta. Mugav on arvestada hii-ruudu statistika ja läviväärtuse suhet - in sel juhul see on võrdne Chi2Coeff = 194,4256186. Kui see suhe on väiksem kui 1, aktsepteeritakse sõltumatuse hüpoteesi, kui see on suurem, siis mitte. Leiame selle suhte kõigi funktsioonipaaride jaoks:

    Siin Tegur1 Ja Tegur2- funktsioonide nimed
    src_cnt1 Ja src_cnt2- algfunktsioonide kordumatute väärtuste arv
    mod_cnt1 Ja mod_cnt2- ainulaadsete funktsioonide väärtuste arv pärast kategoriseerimist
    chi2- Chi-ruudu statistika
    chi2max- hii-ruudu statistika läviväärtus olulisuse taseme 0,95 jaoks
    chi2Coeff- hii-ruudu statistika ja läviväärtuse suhe
    korr- korrelatsioonikordaja

    On näha, et nad on sõltumatud (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) ja ( Z,T), mis on loogiline, kuna muutuja T genereeritakse juhuslikult. Muutujad X Ja Z sõltuv, kuid vähem kui lineaarne X Ja Y, mis on ka loogiline.

    Panin neid näitajaid arvutava utiliidi koodi githubisse, kus on ka fail data.csv. Utiliit võtab sisendiks csv-faili ja arvutab kõigi veergude paaride vahelised sõltuvused: PtProject.Dependency.exe data.csv

    Selle kriteeriumi kasutamine põhineb sellise mõõdu (statistika) kasutamisel teoreetilise lahknevuse kohta. F(x) ja empiiriline jaotus F* P (x) , mis järgib ligikaudu jaotusseadust χ 2 . Hüpotees N 0 Jaotuste järjepidevust kontrollitakse selle statistika jaotuse analüüsimise teel. Kriteeriumi kohaldamine eeldab statistilise jada koostamist.

    Niisiis, valim esitatakse statistiliselt numbrite arvu kõrval M. Täheldatud tabamusmäär i- järgu n i. Vastavalt teoreetilisele jaotusseadusele on sissetulevate tabamuste eeldatav sagedus i- kategooria on F i. Erinevus vaadeldava ja eeldatava sageduse vahel on ( n iF i). Et leida üldine lahknevuse määr F(x) Ja F* P (x) on vaja arvutada statistilise andmerea kõigi numbrite ruutude erinevuste kaalutud summa

    Väärtus χ 2 piiramatu suurendusega n omab χ 2 jaotust (asümptootiliselt jaotunud kui χ 2). See jaotus sõltub vabadusastmete arvust k, st. terminite sõltumatute väärtuste arv avaldises (3.7). Vabadusastmete arv on võrdne arvuga y miinus valimile kehtestatud lineaarsete seoste arv. Üks seos on olemas tänu sellele, et ülejäänud sageduste koguarvust saab arvutada mis tahes sageduse M-1 numbrit. Lisaks, kui jaotuse parameetrid pole ette teada, on jaotuse valimile sobitamisest tingitud veel üks piirang. Kui valim määrab S jaotuse parameetrid, siis on vabadusastmete arv k= MS–1.

    Hüpoteesi aktsepteerimise piirkond N 0 määratakse tingimusega χ 2 < χ 2 (k; a) , kus χ 2 (k; a) – χ2 jaotuse kriitiline punkt olulisuse tasemega a. I tüüpi vea tõenäosus on a, ei saa II tüüpi vea tõenäosust selgelt määratleda, kuna on lõpmatult palju erinevaid viise, kuidas jaotused ei pruugi ühtida. Testi võimsus sõltub numbrite arvust ja valimi suurusest. Kriteeriumit soovitatakse rakendada siis, kui n>200, kasutamine on lubatud siis, kui n>40, just sellistel tingimustel kriteerium kehtib (reeglina lükkab see ümber vale nullhüpoteesi).

    Kriteeriumide järgi kontrollimise algoritm

    1. Koostage histogramm, kasutades võrdse tõenäosuse meetodit.

    2. Esitage hüpotees histogrammi välimuse põhjal

    H 0: f(x) = f 0 (x),

    H 1: f(x) ¹ f 0 (x),

    Kus f 0 (x) - hüpoteetilise jaotusseaduse tõenäosustihedus (näiteks ühtlane, eksponentsiaalne, normaalne).

    Kommenteeri. Hüpoteesi eksponentsiaalse jaotuse seaduse kohta saab esitada, kui kõik valimis olevad arvud on positiivsed.

    3. Arvutage valemi abil kriteeriumi väärtus

    ,

    Kus
    tabamusmäär i-th intervall;

    lk i- juhusliku suuruse sattumise teoreetiline tõenäosus i- th intervalli tingimusel, et hüpotees H 0 on õige.

    Valemid arvutamiseks lk i eksponentsiaalsete, ühtsete ja normaalseaduste korral on need vastavalt võrdsed.

    eksponentsiaalne seadus

    . (3.8)

    Kus A 1 = 0, B m = +¥.

    Ühtne seadus

    Tavaline seadus

    . (3.10)

    Kus A 1 = -¥, B M = +¥.

    Märkmed. Pärast kõigi tõenäosuste arvutamist lk i kontrollige, kas võrdlusseos on täidetud

    Funktsioon Ф( X) - kummaline. Ф(+¥) = 1.

    4. Valige liites olevast Chi-ruut tabelist väärtus
    , kus a on määratud olulisuse tase (a = 0,05 või a = 0,01) ja k- valemiga määratud vabadusastmete arv

    k = M - 1 - S.

    Siin S- parameetrite arv, millest sõltub valitud hüpotees H 0 jaotusseadus. Väärtused Sühtse seaduse puhul on see 2, eksponentsiaalseaduse puhul on see 1, tavaseaduse puhul on see 2.

    5. Kui
    , siis hüpotees H 0 lükatakse tagasi. Vastasel juhul pole põhjust seda tagasi lükata: tõenäosusega 1 - b on see tõene ja tõenäosusega - b on see vale, kuid b väärtus on teadmata.

    Näide3 . 1. Kasutades kriteeriumi c 2, püstitage ja kontrollige hüpotees juhusliku suuruse jaotusseaduse kohta X, mille variatsiooniread, intervallitabelid ja jaotuse histogrammid on toodud näites 1.2. Olulisuse tase a on 0,05.

    Lahendus . Histogrammide välimuse põhjal esitame hüpoteesi, et juhuslik väärtus X jaotatakse vastavalt tavaseadusele:

    H 0: f(x) = N(m, s);

    H 1: f(x) ¹ N(m, s).

    Kriteeriumi väärtus arvutatakse järgmise valemi abil:

    (3.11)

    Nagu eespool märgitud, on hüpoteesi kontrollimisel eelistatav kasutada võrdse tõenäosusega histogrammi. Sel juhul

    Teoreetilised tõenäosused lk i Arvutame valemi (3.10) abil. Samas me usume seda

    lk 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

    0,5(-0,845+1) = 0,078.

    lk 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

    0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

    lk 3 = 0,094; lk 4 = 0,135; lk 5 = 0,118; lk 6 = 0,097; lk 7 = 0,073; lk 8 = 0,059; lk 9 = 0,174;

    lk 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

    Pärast seda kontrollime kontrollsuhte täitmist

    100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

    0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

    Pärast seda valige tabelist "Chi-ruut" kriitiline väärtus

    .

    Sest
    siis hüpotees H 0 on aktsepteeritud (ei ole põhjust tagasi lükata).

    Selles märkuses kasutatakse χ 2 jaotust fikseeritud tõenäosusjaotusega andmekogumi järjepidevuse testimiseks. Kokkuleppe kriteerium sageli O Teid, kes kuulute teatud kategooriasse, võrreldakse sagedustega, mida teoreetiliselt eeldataks, kui andmetel oleks tegelikult määratud jaotus.

    Testimine, kasutades χ 2 sobivuse kriteeriumi, viiakse läbi mitmes etapis. Esiteks määratakse konkreetne tõenäosusjaotus ja võrreldakse seda algandmetega. Teiseks püstitatakse hüpotees valitud tõenäosusjaotuse parameetrite kohta (näiteks selle matemaatiline ootus) või hinnatakse neid. Kolmandaks, teoreetilise jaotuse põhjal määratakse igale kategooriale vastav teoreetiline tõenäosus. Lõpuks kasutatakse andmete ja jaotuse järjepidevuse kontrollimiseks χ2 testi statistikat:

    Kus f 0- täheldatud sagedus, f e- teoreetiline või eeldatav sagedus, k- pärast ühendamist allesjäänud kategooriate arv, R- hinnatavate parameetrite arv.

    Laadige märkus alla või vormingus, näited vormingus

    χ2 sobivuse testi kasutamine Poissoni jaotuse jaoks

    Selle valemi abil arvutamiseks Excelis on mugav kasutada funktsiooni =SUMPRODUCT() (joonis 1).

    Parameetri hindamiseks λ võite kasutada hinnangut . Teoreetiline sagedus X parameetrile vastavad õnnestumised (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ja rohkem) λ = 2,9 saab määrata funktsiooni =POISSON.DIST(X;;FALSE) abil. Poissoni tõenäosuse korrutamine valimi suurusega n, saame teoreetilise sageduse f e(Joonis 2).

    Riis. 2. Tegelik ja teoreetiline saabumismäär minutis

    Nagu jooniselt fig. 2, ei ületa üheksa või enama saabumise teoreetiline sagedus 1,0. Tagamaks, et iga kategooria sagedus on 1,0 või suurem, tuleks kategooria „9 või enam” kombineerida kategooriaga „8”. See tähendab, et alles jääb üheksa kategooriat (0, 1, 2, 3, 4, 5, 6, 7, 8 ja rohkem). Kuna Poissoni jaotuse matemaatiline ootus määratakse näidisandmete põhjal, siis on vabadusastmete arv võrdne k – p – 1 = 9 – 1 – 1 = 7. Kasutades olulisustaset 0,05, leiame χ 2 statistika kriitiline väärtus, millel on 7 vabadusastet valemi =CHI2.OBR(1-0.05;7) = 14.067 järgi. Otsustusreegel on sõnastatud järgmiselt: hüpotees H 0 lükatakse tagasi, kui χ 2 > 14,067, vastasel juhul hüpotees H 0 ei kaldu kõrvale.

    χ 2 arvutamiseks kasutame valemit (1) (joonis 3).

    Riis. 3. Poissoni jaotuse χ 2 -sobivuse kriteeriumi arvutamine

    Kuna χ 2 = 2,277< 14,067, следует, что гипотезу H 0 ei saa tagasi lükata. Teisisõnu, meil pole põhjust väita, et klientide saabumine panka ei allu Poissoni jaotusele.

    χ 2 -sobivuse testi rakendamine normaaljaotuse jaoks

    Eelmistes märkustes eeldati arvuliste muutujate hüpoteeside kontrollimisel, et uuritav subjekt elanikkonnast on normaaljaotusega. Selle eelduse kontrollimiseks võite kasutada graafilisi tööriistu, näiteks kastdiagrammi või normaaljaotuse graafikut (vt täpsemalt). Suurte valimite puhul saab nende eelduste kontrollimiseks kasutada normaaljaotuse sobivuse testi χ 2.

    Vaatame näiteks 158 investeerimisfondi 5 aasta tootluse andmeid (joonis 4). Oletame, et soovite uskuda, kas andmed on normaalselt jaotatud. Null- ja alternatiivsed hüpoteesid on sõnastatud järgmiselt: H 0: 5-aastane saagikus järgib normaaljaotust, H 1: 5-aastane saagikus ei järgi normaalset jaotust. Normaaljaotusel on kaks parameetrit – matemaatiline ootus μ ja standardhälveσ, mida saab hinnata näidisandmete põhjal. Sel juhul = 10,149 ja S = 4,773.

    Riis. 4. Järjestatud massiiv, mis sisaldab andmeid 158 fondi viie aasta keskmise aastatootluse kohta

    Fondide tootluse andmeid saab rühmitada näiteks klassidesse (intervallidesse) laiusega 5% (joonis 5).

    Riis. 5. Sagedusjaotus 158 fondi viie aasta keskmise aastatootluse korral

    Kuna normaaljaotus on pidev, on vaja kindlaks määrata normaaljaotuse kõveraga piiratud kujundite pindala ja iga intervalli piirid. Lisaks, kuna normaaljaotus jääb teoreetiliselt vahemikku –∞ kuni +∞, on vaja arvestada klassipiire väljapoole jäävate kujundite pindalaga. Seega on punktist –10 vasakul asuv normaalkõvera alune pindala võrdne Z väärtusest vasakul oleva standardse normaalkõvera all oleva joonise pindalaga, mis on võrdne

    Z = (–10–10,149) / 4,773 = –4,22

    Standardiseeritud normaalkõvera all väärtusest Z = –4,22 vasakul asuva joonise pindala määratakse valemiga =NORM.DIST(-10;10,149;4,773;TRUE) ja see on ligikaudu võrdne 0,00001-ga. Punktide –10 ja –5 vahelise normaalkõvera all oleva kujundi pindala arvutamiseks peate esmalt arvutama punktist –5 vasakul asuva kujundi pindala: =NORM.DIST( -5,10,149,4,773,TRUE) = 0,00075 . Seega on punktide –10 ja –5 vahel normaalkõvera all oleva kujundi pindala 0,00075 – 0,00001 = 0,00074. Samamoodi saate arvutada iga klassi piiridega piiratud joonise pindala (joonis 6).

    Riis. 6. Valdkonnad ja eeldatavad sagedused iga 5-aastase tootluse klassi kohta

    On näha, et teoreetilised sagedused neljas äärmusklassis (kaks minimaalset ja kaks maksimaalset) on väiksemad kui 1, seega ühendame klassid, nagu on näidatud joonisel 7.

    Riis. 7. Arvutused, mis on seotud normaaljaotuse sobivuse testi χ 2 kasutamisega

    Kasutame χ 2 kriteeriumi andmete kokkuleppel normaaljaotus kasutades valemit (1). Meie näites jääb pärast ühendamist alles kuus klassi. Kuna eeldatav väärtus ja standardhälve on hinnatud näidisandmete põhjal, on vabadusastmete arv klk – 1 = 6 – 2 – 1 = 3. Kasutades olulisuse taset 0,05, leiame, et kolme vabadusastmega χ 2 statistika kriitiline väärtus = CI2.OBR(1-0,05;F3) = 7,815. χ 2 sobivuse kriteeriumi kasutamisega seotud arvutused on näidatud joonisel fig. 7.

    On näha, et χ 2 -statistika = 3,964< χ U 2 7,815, следовательно гипотезу H 0 ei saa tagasi lükata. Teisisõnu pole meil alust väita, et suurele kasvule keskendunud investeerimisfondide 5-aastased tootlused ei allu normaaljaotusele.

    Mitmed hiljutised postitused on arutanud erinevaid lähenemisviise kategooriliste andmete analüüsile. Kirjeldatakse kahe või enama sõltumatu valimi analüüsimisel saadud kategooriliste andmete hüpoteeside kontrollimise meetodeid. Lisaks hii-ruuttestidele võetakse arvesse mitteparameetrilisi protseduure. Kirjeldatud on Wilcoxoni auaste testi, mida kasutatakse olukordades, kus rakendustingimused ei ole täidetud t-võrdsuse hüpoteesi kontrollimise kriteeriumid matemaatilised ootused kaks sõltumatut rühma, samuti Kruskal-Wallise test, mis on alternatiiv ühesuunalisele dispersioonanalüüsile (joonis 8).

    Riis. 8. Kategoorilisi andmeid puudutavate hüpoteeside kontrollimise meetodite plokkskeem

    Kasutatud on materjale raamatust Levin jt Statistics for Managers. – M.: Williams, 2004. – Lk. 763–769

    Toimetaja valik
    1943. aastal küüditati Karachais'd ebaseaduslikult nende sünnikohtadest. Üleöö kaotasid nad kõik – oma kodu, kodumaa ja...

    Meie veebisaidil Mari ja Vjatka piirkondadest rääkides mainisime sageli ja. Selle päritolu on salapärane, pealegi on marid (ise...

    Sissejuhatus Rahvusvahelise riigi föderaalne struktuur ja ajalugu Venemaa on rahvusvaheline riik Kokkuvõte Sissejuhatus...

    Üldine teave Venemaa väikerahvaste kohtaMärkus 1 Pikka aega elas Venemaal palju erinevaid rahvaid ja hõime. Sest...
    Kviitungi kassaorderi (PKO) ja väljamineku kassaorderi (RKO) koostamine Kassadokumendid raamatupidamises vormistatakse reeglina...
    Kas teile meeldis materjal? Saate autorit kostitada tassi aromaatse kohviga ja jätta talle head soovid 🙂Sinu maiuspalaks saab...
    Muu bilansis olev käibevara on ettevõtte majandusressursid, mis ei kuulu kajastamisele 2. jao aruande põhiridadel....
    Peagi peavad kõik tööandjad-kindlustusandjad esitama föderaalsele maksuteenistusele 2017. aasta 9 kuu kindlustusmaksete arvestuse. Kas ma pean selle viima...
    Juhised: vabasta oma ettevõte käibemaksust. See meetod on seadusega ette nähtud ja põhineb maksuseadustiku artiklil 145...