Klasik istatistik yöntemleri: ki-kare testi. Özellikler arasındaki ilişkinin belirlenmesi: Ki-kare testi


). Test edilen hipotezin özel formülasyonu duruma göre değişecektir.

Bu yazıda \(\chi^2\) kriterinin nasıl çalıştığını immünolojiden (varsayımsal) bir örnek kullanarak açıklayacağım. Vücuda uygun antikorlar verildiğinde mikrobiyal bir hastalığın gelişimini baskılamanın etkinliğini belirlemek için bir deney yaptığımızı hayal edelim. Sırasıyla 57 ve 54 hayvan olmak üzere iki gruba ayırdığımız deneye toplam 111 fare dahil edildi. Birinci grup farelere patojen bakteri enjeksiyonları yapıldı, ardından bu bakterilere karşı antikor içeren kan serumu verildi. İkinci gruptaki hayvanlar kontrol olarak kullanıldı; onlara yalnızca bakteri enjeksiyonu yapıldı. Bir süre kuluçkadan sonra 38 farenin öldüğü ve 73 farenin hayatta kaldığı ortaya çıktı. Ölenlerin 13'ü birinci gruba, 25'i ise ikinci gruba (kontrol) aitti. Bu deneyde test edilen sıfır hipotezi şu şekilde formüle edilebilir: serumun antikorlarla uygulanmasının farelerin hayatta kalması üzerinde hiçbir etkisi yoktur. Başka bir deyişle, farelerin hayatta kalmasında gözlemlenen farklılıkların (birinci grupta %77,2'ye karşılık ikinci grupta %53,7) tamamen rastgele olduğunu ve antikorların etkisiyle ilişkili olmadığını savunuyoruz.

Deneyde elde edilen veriler bir tablo şeklinde sunulabilir:

Toplam

Bakteri + serum

Yalnızca bakteriler

Toplam

Gösterilen tabloya benzer tablolara beklenmedik durum tabloları denir. Söz konusu örnekte, tablonun boyutu 2x2'dir: iki kritere göre ("Ölü" ve "Hayatta Kalan") incelenen iki nesne sınıfı ("Bakteri + serum" ve "Yalnızca Bakteriler") vardır. Bu, beklenmedik durum tablosunun en basit örneğidir: Elbette hem üzerinde çalışılan sınıfların sayısı hem de özelliklerin sayısı daha fazla olabilir.

Yukarıda belirtilen sıfır hipotezini test etmek için, antikorların farelerin hayatta kalması üzerinde gerçekten hiçbir etkisi olmasaydı durumun ne olacağını bilmemiz gerekiyor. Başka bir deyişle, hesaplamanız gerekir beklenen frekanslar beklenmedik durum tablosunun karşılık gelen hücreleri için. Bu nasıl yapılır? Deneyde toplam 38 fare öldü, bu da toplam hayvan sayısının %34,2'sine tekabül ediyor. Antikorların uygulanması farelerin hayatta kalma oranını etkilemiyorsa, her iki deney grubunda da aynı ölüm yüzdesi, yani %34,2 gözlemlenmelidir. 57 ve 54'ün %34,2'sinin ne kadar olduğunu hesapladığımızda 19,5 ve 18,5 elde ederiz. Bunlar deney gruplarımızdaki beklenen ölüm oranlarıdır. Beklenen hayatta kalma oranları da benzer şekilde hesaplanır: Toplam 73 fare veya toplam sayının %65,8'i hayatta kaldığından, beklenen hayatta kalma oranları 37,5 ve 35,5 olacaktır. Şimdi beklenen frekansları içeren yeni bir acil durum tablosu oluşturalım:

Ölü

Hayatta kalanlar

Toplam

Bakteri + serum

Yalnızca bakteriler

Toplam

Görebildiğimiz gibi beklenen frekanslar gözlemlenenlerden oldukça farklıdır; Antikorların uygulanmasının, patojenle enfekte olmuş farelerin hayatta kalması üzerinde bir etkisi olduğu görülüyor. Bu izlenimi Pearson uyum iyiliği testini \(\chi^2\) kullanarak ölçebiliriz:

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


burada \(f_o\) ve \(f_e\) sırasıyla gözlemlenen ve beklenen frekanslardır. Toplama işlemi tablonun tüm hücreleri üzerinde gerçekleştirilir. Yani, ele aldığımız örnek için

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Ortaya çıkan \(\chi^2\) değeri sıfır hipotezini reddedecek kadar büyük mü? Bu soruyu cevaplamak için kriterin karşılık gelen kritik değerini bulmak gerekir. \(\chi^2\) için serbestlik derecesi sayısı \(df = (R - 1)(C - 1)\) olarak hesaplanır; burada \(R\) ve \(C\) sayıdır Tablo eşleniklerindeki satır ve sütunların sayısı. Bizim durumumuzda \(df = (2 -1)(2 - 1) = 1\). Serbestlik derecesinin sayısını bildiğimizden, artık standart R fonksiyonunu qchisq() kullanarak kritik değeri \(\chi^2\) kolayca bulabiliriz:


Dolayısıyla, bir serbestlik derecesiyle, vakaların yalnızca %5'inde \(\chi^2\) kriterinin değeri 3,841'i aşar. Elde ettiğimiz değer (6,79), bu kritik değeri önemli ölçüde aşıyor ve bu bize antikorların uygulanması ile enfekte farelerin hayatta kalması arasında hiçbir bağlantı olmadığı yönündeki boş hipotezi reddetme hakkını veriyor. Bu hipotezi reddederek %5'ten daha az bir olasılıkla yanılma riskine girmiş oluruz.

\(\chi^2\) kriteri için yukarıdaki formülün, 2x2 boyutunda beklenmedik durum tablolarıyla çalışırken biraz şişirilmiş değerler verdiğine dikkat edilmelidir. Bunun nedeni \(\chi^2\) kriterinin dağılımının sürekli olması, ikili özelliklerin frekanslarının (“öldü” / “hayatta kaldı”) tanımı gereği ayrık olmasıdır. Bu bağlamda, kriteri hesaplarken, sözde tanıtmak gelenekseldir. süreklilik düzeltmesi, veya Yates değişikliği :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

"Yates ile Ki-kare testi" süreklilik düzeltme verileri: fareler X-kare = 5,7923, df = 1, p-değeri = 0,0161


Gördüğümüz gibi R, Yates süreklilik düzeltmesini otomatik olarak uyguluyor ( Yates'in süreklilik düzeltmesi ile Pearson'un Ki-kare testi). Program tarafından hesaplanan \(\chi^2\) değeri 5,79213'tür. Antikor etkisi olmadığını belirten boş hipotezi, %1'in biraz üzerinde bir olasılıkla yanlış olma riskiyle reddedebiliriz (p-değeri = 0,0161).

1. Karşılaştırılabilir göstergeler şu şekilde ölçülmelidir: nominal ölçek(örneğin hastanın cinsiyetinin erkek veya kadın olması) veya sıralı(örneğin, 0'dan 3'e kadar değerler alan arteriyel hipertansiyon derecesi).

2. Bu yöntem hem faktör hem de sonuç ikili değişkenler olduğunda, yani yalnızca iki olası değere sahip olduklarında (örneğin, erkek veya kadın, belirli bir hastalığın varlığı veya yokluğu) yalnızca dört alanlı tabloları analiz etmenize olanak tanır. anamnez...). Pearson ki-kare testi, bir faktörün ve/veya sonucun üç veya daha fazla değer alması durumunda çok alanlı tabloların analiz edilmesi durumunda da kullanılabilir.

3. Karşılaştırılan gruplar bağımsız olmalı, yani “öncesi-sonrası” gözlemleri karşılaştırırken ki-kare testi kullanılmamalıdır. McNemar testi(ilgili iki popülasyonu karşılaştırırken) veya hesaplanan Cochran'ın Q testi(üç veya daha fazla grubun karşılaştırılması durumunda).

4. Dört alanlı tabloları analiz ederken beklenen değerler her hücrede en az 10 adet olmalıdır. En az bir hücrede beklenen olay 5'ten 9'a kadar bir değer alıyorsa ki-kare testi hesaplanmalıdır. Yates'in değişikliğiyle. En az bir hücrede beklenen fenomen 5'ten azsa analizde şu değer kullanılmalıdır: Fisher'in kesin testi.

5. Çok alanlı tablolar analiz edilirken hücrelerin %20'sinden fazlasında beklenen gözlem sayısı 5'ten az olmamalıdır.

Ki-kare testini hesaplamak için ihtiyacınız olan:

1. Beklenen gözlem sayısını hesaplayın beklenmedik durum tablosunun her bir hücresi için (ilişkinin olmadığını belirten sıfır hipotezinin doğru olması şartıyla), satır ve sütunların toplamını çarparak ve ardından elde edilen sonucu toplam gözlem sayısına bölerek. Genel görünüm Beklenen değerler tablosu aşağıda sunulmuştur:

Bir sonuç var (1) Sonuç yok (0) Toplam
Risk faktörü var (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
Risk faktörü yok (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Toplam A+C B+G A+B+C+D

2. χ 2 kriterinin değerini bulun aşağıdaki formüle göre:

Nerede Ben– satır numarası (1'den r'ye kadar), J– sütun numarası (1'den c'ye kadar), Ah ben– ij hücresindeki gerçek gözlem sayısı, E ben– ij hücresinde beklenen gözlem sayısı.

Dört alanlı tablolar incelenirken en az bir hücrede beklenen olay sayısının 10'dan az olması durumunda hesaplanmalıdır. Yates düzeltmeli ki-kare testi. Bu değişiklik, 1. tip hata olasılığını, yani farklılıkların olmadığı yerde tespit edilmesini azaltır. Yates düzeltmesi, her bir hücredeki gerçek ve beklenen gözlem sayısı arasındaki farkın mutlak değerinden 0,5 çıkarılmasından oluşur, bu da ki-kare testinin değerinde bir azalmaya yol açar.

Yates düzeltmesi ile χ 2 kriterini hesaplama formülü aşağıdaki gibidir:

3. Serbestlik derecesi sayısının belirlenmesi formüle göre: f = (r – 1) × (c – 1). Buna göre 2 satırı (r = 2) ve 2 sütunu (c = 2) olan dört alanlı bir tablo için serbestlik derecesi sayısı f 2x2 = (2 - 1)*(2 - 1) = 1'dir.

4. χ 2 kriterinin değerini kritik değerle karşılaştırıyoruz f serbestlik derecesi sayısında (tabloya göre).

Bu algoritma hem dört alanlı hem de çok alanlı tablolar için geçerlidir.

Pearson ki-kare testinin değeri nasıl yorumlanır?

χ 2 kriterinin elde edilen değeri kritik değerden büyükse, çalışılan risk faktörü ile sonuç arasında uygun anlamlılık düzeyinde istatistiksel bir ilişki olduğu sonucuna varırız.

Pearson ki-kare testinin hesaplanmasına örnek

Yukarıda tartışılan tabloyu kullanarak sigara içme faktörünün arteriyel hipertansiyon insidansı üzerindeki etkisinin istatistiksel önemini belirleyelim:

1. Her hücre için beklenen değerleri hesaplayın:

2. Pearson ki-kare testinin değerini bulun:

χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

3. Serbestlik derecesi sayısı f = (2-1)*(2-1) = 1. Tabloyu kullanarak Pearson ki-kare testinin anlamlılık düzeyinde p=0,05 olan kritik değerini ve 1 serbestlik derecesi sayısı 3,841'dir.

4. Ki-kare testinin elde edilen değerini kritik değerle karşılaştırıyoruz: 4.396> 3.841, bu nedenle arteriyel hipertansiyon görülme sıklığının sigara içme varlığına bağımlılığı istatistiksel olarak anlamlıdır. Bu ilişkinin anlamlılık düzeyi p'ye karşılık gelir.<0.05.

Serbestlik derecesi sayısı, f χ 2 p=0,05'te χ 2 p=0,01'de
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566
  • Matematik
  • Bu yazıda işaretler arasındaki veya tercihinize göre rastgele değerler, değişkenler arasındaki bağımlılığın incelenmesinden bahsedeceğiz. Özellikle, Ki-kare testini kullanarak özellikler arasındaki bağımlılık ölçüsünü nasıl uygulayacağımıza ve bunu korelasyon katsayısıyla nasıl karşılaştıracağımıza bakacağız.

    Buna neden ihtiyaç duyulabilir? Örneğin, kredi puanlaması oluşturulurken hangi özelliklerin hedef değişkene daha fazla bağımlı olduğunu anlamak için müşterinin temerrüde düşme olasılığının belirlenmesi. Veya benim durumumda olduğu gibi, bir ticaret robotunu programlamak için hangi göstergelerin kullanılması gerektiğini anlayın.

    Ayrıca veri analizi için C# dilini kullandığımı da belirtmek isterim. Belki tüm bunlar zaten R veya Python'da uygulanmıştır, ancak C# kullanmak benim için konuyu detaylı olarak anlamamı sağlıyor, üstelik en sevdiğim programlama dili.

    Çok basit bir örnekle başlayalım; rastgele sayı üreteci kullanarak Excel'de dört sütun oluşturun:
    X=RANDBEEN(-100,100)
    e =X*10+20
    Z =X*X
    T=RANDBEEN(-100,100)

    Gördüğünüz gibi değişken e doğrusal olarak bağımlı X; değişken Z ikinci dereceden bağımlı X; değişkenler X Ve T bağımsız. Bu seçimi bilerek yaptım çünkü bağımlılık ölçümümüzü korelasyon katsayısıyla karşılaştıracağız. Bilindiği gibi iki rastgele değişken arasında, eğer aralarındaki “en zor” bağımlılık türü doğrusal ise modülo 1'e eşittir. İki bağımsız rastgele değişken arasında sıfır korelasyon vardır, ancak Korelasyon katsayısının sıfıra eşit olması bağımsızlık anlamına gelmez. Daha sonra bunu değişken örneğini kullanarak göreceğiz X Ve Z.

    Dosyayı data.csv olarak kaydedin ve ilk tahminlere başlayın. Öncelikle değerler arasındaki korelasyon katsayısını hesaplayalım. Kodu makaleye eklemedim; github'ımda. Tüm olası çiftler için korelasyonu elde ederiz:

    Görülüyor ki doğrusal bağımlı X Ve e korelasyon katsayısı 1'dir. Ancak X Ve Z bağımlılığı açıkça belirlememize rağmen 0,01'e eşittir Z=X*X. Açıkça, bağımlılığı daha iyi “hissettiren” bir ölçüme ihtiyacımız var. Ancak Ki-kare testine geçmeden önce, bir olasılık matrisinin ne olduğuna bakalım.

    Bir beklenmedik durum matrisi oluşturmak için değişken değer aralığını aralıklara böleriz (veya kategorilere ayırırız). Bunu yapmanın birçok yolu vardır, ancak evrensel bir yol yoktur. Bazıları aynı sayıda değişken içerecek şekilde aralıklara bölünür, bazıları ise eşit uzunlukta aralıklara bölünür. Ben kişisel olarak bu yaklaşımları birleştirmeyi seviyorum. Bu yöntemi kullanmaya karar verdim: Mat puanını değişkenden çıkarıyorum. beklentileri, ardından sonucu standart sapma tahminine bölün. Başka bir deyişle rastgele değişkeni ortalayıp normalleştiriyorum. Ortaya çıkan değer bir katsayı ile çarpılır (bu örnekte 1'dir), ardından her şey en yakın tam sayıya yuvarlanır. Çıktı, sınıf tanımlayıcısı olan int türünde bir değişkendir.

    Öyleyse işaretlerimizi alalım X Ve Z, yukarıda açıklanan şekilde kategorilere ayırıyoruz, ardından her bir sınıfın ortaya çıkma sayısını ve olasılıklarını ve özellik çiftlerinin ortaya çıkma olasılıklarını hesaplıyoruz:

    Bu miktara göre bir matristir. Buradaki satırlarda - değişken sınıflarının oluşum sayısı X, sütunlarda - değişkenin sınıflarının oluşum sayısı Z, hücrelerde - sınıf çiftlerinin aynı anda görünme sayısı. Örneğin, sınıf 0 değişkeni için 865 kez meydana geldi X, bir değişken için 823 kez Z ve hiçbir zaman (0,0) çifti olmadı. Tüm değerleri 3000'e (toplam gözlem sayısı) bölerek olasılıklara geçelim:

    Özellikleri kategorize ettikten sonra elde edilen bir olasılık matrisi elde ettik. Artık kriteri düşünmenin zamanı geldi. Tanım gereği, rastgele değişkenler, bu rastgele değişkenler tarafından oluşturulan sigma cebirleri bağımsızsa bağımsızdır. Sigma cebirlerinin bağımsızlığı, olayların onlardan ikili bağımsızlığını ima eder. Birlikte gerçekleşme olasılıkları bu olayların olasılıklarının çarpımına eşitse, iki olaya bağımsız denir: Pij = Pi*Pj. Kriteri oluşturmak için kullanacağımız formül budur.

    Boş hipotez: kategorize edilmiş işaretler X Ve Z bağımsız. Buna eşdeğer: beklenmedik durum matrisinin dağılımı yalnızca değişken sınıflarının (satır ve sütun olasılıkları) ortaya çıkma olasılıkları ile belirlenir. Veya şu: Matris hücreleri, satır ve sütunların karşılık gelen olasılıklarının çarpımı ile bulunur. Karar kuralını oluşturmak için sıfır hipotezinin bu formülasyonunu kullanacağız: Pij Ve Pi*Pj sıfır hipotezinin reddedilmesinin temeli olacaktır.

    Bir değişkende 0 sınıfının ortaya çıkma olasılığı olsun X. Toplamımız N sınıflar X Ve M sınıflar Z. Matris dağılımını belirlemek için bunları bilmemiz gerektiği ortaya çıktı. N Ve M olasılıklar. Ama aslında eğer biliyorsak n-1 için olasılık X ise diğerlerinin toplamı 1'den çıkarılarak ikincisi bulunur. Dolayısıyla, beklenmedik durum matrisinin dağılımını bulmak için bilmemiz gerekenler l=(n-1)+(m-1) değerler. Yoksa bizde var mı ben boyutlu parametrik uzay, bize istediğimiz dağılımı veren vektör. Ki-kare istatistiği şu şekilde görünecektir:

    ve Fisher teoremine göre Ki-kare dağılımına sahiptir n*m-l-1=(n-1)(m-1) serbestlik dereceleri.

    Anlamlılık düzeyini 0,95'e (veya I. tip hata olasılığını 0,05'e) ayarlayalım. Örnekten belirli bir önem düzeyi ve serbestlik dereceleri için Ki kare dağılımının niceliğini bulalım. (n-1)(m-1)=4*3=12: 21.02606982. Değişkenler için Ki-kare istatistiğinin kendisi X Ve Z 4088.006631'e eşittir. Bağımsızlık hipotezinin kabul edilmediği açıktır. Ki-kare istatistiğinin eşik değerine oranını dikkate almak uygundur - bu durumda eşit Chi2Katsayısı=194,4256186. Bu oran 1'den küçükse bağımsızlık hipotezi kabul edilir, büyükse değildir. Tüm özellik çiftleri için bu oranı bulalım:

    Burada Faktör1 Ve Faktör2- özellik adları
    kaynak_cnt1 Ve kaynak_cnt2- başlangıç ​​özelliklerinin benzersiz değerlerinin sayısı
    mod_cnt1 Ve mod_cnt2- kategorize edildikten sonra benzersiz özellik değerlerinin sayısı
    chi2- Ki-kare istatistikleri
    chi2max- 0,95 anlamlılık düzeyi için Ki-kare istatistiğinin eşik değeri
    chi2Katsayısı- Ki-kare istatistiğinin eşik değerine oranı
    düzelt- korelasyon katsayısı

    Bağımsız oldukları görülebilir (chi2coeff<1) получились следующие пары признаков - (X, T), (Y,T) Ve ( Z, T), bu mantıklıdır, çünkü değişken T rastgele oluşturulur. Değişkenler X Ve Z bağımlı, ancak doğrusal bağımlıdan daha az X Ve e ki bu da mantıklıdır.

    Bu göstergeleri hesaplayan yardımcı programın kodunu, data.csv dosyasının da bulunduğu github'da yayınladım. Yardımcı program girdi olarak bir csv dosyası alır ve tüm sütun çiftleri arasındaki bağımlılıkları hesaplar: PtProject.Dependency.exe data.csv

    Bu kriterin kullanımı, teorik değerler arasındaki tutarsızlığın böyle bir ölçüsünün (istatistik) kullanılmasına dayanmaktadır. F(X) ve ampirik dağılım F* N (X) , yaklaşık olarak dağıtım yasasına uyan χ 2 . Hipotez N 0 Bu istatistiklerin dağılımları analiz edilerek dağılımların tutarlılığı kontrol edilir. Kriterin uygulanması bir istatistiksel serinin oluşturulmasını gerektirir.

    O halde örneklemin basamak sayısının yanında istatistiksel olarak sunulmasına izin verin. M. Gözlemlenen isabet oranı Ben- sıra N Ben. Teorik dağılım yasasına uygun olarak, beklenen isabet sıklığı Ben-inci kategori F Ben. Gözlemlenen ve beklenen frekans arasındaki fark ( N BenF Ben). arasındaki genel farkın derecesini bulmak için F(X) Ve F* N (X) istatistiksel serinin tüm basamaklarındaki kare farkların ağırlıklı toplamını hesaplamak gerekir

    Değer χ 2 sınırsız büyütme ile N χ 2 dağılımına sahiptir (χ 2 olarak asimptotik olarak dağıtılır). Bu dağılım serbestlik derecesi sayısına bağlıdır k, yani ifadesindeki terimlerin bağımsız değerlerinin sayısı (3.7). Serbestlik derecesi sayısı sayıya eşittir sen eksi numuneye uygulanan doğrusal ilişkilerin sayısı. Geriye kalan frekansların toplamından herhangi bir frekansın hesaplanabilmesi nedeniyle tek bir bağlantı mevcuttur. M–1 hane. Ayrıca dağılım parametreleri önceden bilinmiyorsa dağılımın örneğe uydurulmasından kaynaklanan bir sınırlama daha ortaya çıkar. Örnek belirlerse S dağılım parametreleri, o zaman serbestlik derecesi sayısı olacaktır k= MS–1.

    Hipotez Kabul Alanı N 0 χ koşuluyla belirlenir 2 < χ 2 (k; A) , nerede χ 2 (k; A) – χ2 dağılımının anlamlılık düzeyi ile kritik noktası A. Tip I hatanın olasılığı A, II. tip hatanın olasılığı açıkça tanımlanamaz çünkü dağılımların eşleşmeyebileceği sonsuz sayıda farklı yol vardır. Testin gücü basamak sayısına ve örneklem büyüklüğüne bağlıdır. Kriterin aşağıdaki durumlarda uygulanması tavsiye edilir: N>200, şu durumlarda kullanıma izin verilir: N>40, kriterin geçerli olduğu koşullar altındadır (kural olarak yanlış sıfır hipotezini reddeder).

    Kriterlere göre kontrol algoritması

    1. Eşit olasılık yöntemini kullanarak bir histogram oluşturun.

    2. Histogramın görünümüne dayanarak bir hipotez ileri sürün

    H 0: F(X) = F 0 (X),

    H 1: F(X) ¹ F 0 (X),

    Nerede F 0 (X) - varsayımsal bir dağılım yasasının olasılık yoğunluğu (örneğin, tek biçimli, üstel, normal).

    Yorum. Örneklemdeki tüm sayıların pozitif olması durumunda üstel dağılım yasasına ilişkin hipotez ileri sürülebilir.

    3. Formülü kullanarak kriterin değerini hesaplayın

    ,

    Nerede
    isabet oranı Ben-inci aralık;

    P Ben- rastgele bir değişkenin teorik olasılığı Ben- hipotezin sağlanması koşuluyla inci aralık H 0 doğrudur.

    Hesaplama formülleri P Benüstel, tek biçimli ve normal yasalar durumunda bunlar sırasıyla eşittir.

    üstel yasa

    . (3.8)

    Aynı zamanda A 1 = 0, B M = +¥.

    Tek tip hukuk

    Normal Hukuk

    . (3.10)

    Aynı zamanda A 1 = -¥, BM = +¥.

    Notlar. P Ben Tüm olasılıkları hesapladıktan sonra

    referans ilişkisinin sağlanıp sağlanmadığını kontrol edin Fonksiyon Ф( X

    4. Ekteki Ki-kare tablosundan değeri seçin
    burada a belirtilen anlamlılık düzeyidir (a = 0,05 veya a = 0,01) ve k- formülle belirlenen serbestlik derecesi sayısı

    k = M - 1 - S.

    Burada S- seçilen hipotezin bağlı olduğu parametrelerin sayısı H 0 dağıtım kanunu. Değerler S tekdüze yasa için 2, üstel yasa için 1, normal yasa için 2'dir.

    5. Eğer
    , o zaman hipotez H 0 reddedilir. Aksi takdirde reddetmek için hiçbir neden yoktur: 1 - b olasılıkla doğrudur ve - b olasılıkla yanlıştır, ancak b'nin değeri bilinmemektedir.

    Örnek3 . 1. Kriter c 2'yi kullanarak, rastgele bir değişkenin dağılım yasası hakkında bir hipotez ileri sürün ve test edin XÖrnek 1.2'de varyasyon serileri, aralık tabloları ve dağılım histogramları verilmiştir. Anlamlılık düzeyi a 0,05'tir.

    Çözüm . Histogramların görünümüne dayanarak şu hipotezi ileri sürdük: rastgele değişken X normal yasaya göre dağıtılır:

    H 0: F(X) = N(M, S);

    H 1: F(X) ¹ N(M, S).

    Kriterin değeri aşağıdaki formül kullanılarak hesaplanır:

    (3.11)

    Yukarıda belirtildiği gibi, bir hipotezi test ederken eşit olasılık histogramının kullanılması tercih edilir. Bu durumda

    Teorik olasılıklar P Ben Formül (3.10)'u kullanarak hesaplıyoruz. Aynı zamanda şuna da inanıyoruz:

    P 1 = 0,5(F((-4,5245+1,7)/1,98)-F((-¥+1,7)/1,98)) = 0,5(F(-1,427) -F(-¥)) =

    0,5(-0,845+1) = 0,078.

    P 2 = 0,5(F((-3,8865+1,7)/1,98)-F((-4,5245+1,7)/1,98)) =

    0,5(F(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

    P 3 = 0,094; P 4 = 0,135; P 5 = 0,118; P 6 = 0,097; P 7 = 0,073; P 8 = 0,059; P 9 = 0,174;

    P 10 = 0,5(F((+¥+1,7)/1,98)-F((0,6932+1,7)/1,98)) = 0,114.

    Bundan sonra kontrol oranının yerine getirilip getirilmediğini kontrol ediyoruz

    100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

    0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

    Bundan sonra “Ki-kare” tablosundan kritik değeri seçin.

    .

    Çünkü
    o zaman hipotez H 0 kabul edilir (reddetmek için bir neden yoktur).

    Bu notta χ2 dağılımı, sabit olasılık dağılımına sahip bir veri setinin tutarlılığını test etmek için kullanılır. Anlaşma kriteri sıklıkla O Belirli bir kategoriye ait olduğunuz veriler, gerçekte belirtilen dağılıma sahip olsaydı teorik olarak beklenecek frekanslarla karşılaştırılır.

    χ2 uyum iyiliği kriterini kullanan testler birkaç aşamada gerçekleştirilir. Öncelikle belirli bir olasılık dağılımı belirlenerek orijinal verilerle karşılaştırılır. İkinci olarak, seçilen olasılık dağılımının parametreleri (örneğin matematiksel beklentisi) hakkında bir hipotez ortaya atılır veya bunların değerlendirmesi yapılır. Üçüncüsü, teorik dağılıma dayalı olarak her bir kategoriye karşılık gelen teorik olasılık belirlenir. Son olarak verilerin ve dağılımın tutarlılığını kontrol etmek için χ2 test istatistiği kullanılır:

    Nerede f 0- gözlemlenen frekans, f e- teorik veya beklenen frekans, k- birleştirme sonrasında kalan kategori sayısı, R- tahmin edilecek parametre sayısı.

    Notu veya formatında indirin, formattaki örnekler

    Poisson dağılımı için χ2 uyum iyiliği testinin kullanılması

    Excel'de bu formülü kullanarak hesaplama yapmak için =SUMproduct() işlevini kullanmak uygundur (Şekil 1).

    Parametreyi tahmin etmek için λ tahmini kullanabilirsiniz . Teorik frekans X parametreye karşılık gelen başarılar (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ve daha fazlası) λ = 2,9 =POISSON.DAĞ(X;;YANLIŞ) fonksiyonu kullanılarak belirlenebilir. Poisson olasılığının örneklem büyüklüğüyle çarpılması N teorik frekansı elde ederiz f e(Şekil 2).

    Pirinç. 2. Dakika başına gerçek ve teorik varış oranları

    Şekil 2'den aşağıdaki gibi. 2'de dokuz veya daha fazla varışın teorik sıklığı 1,0'ı geçmez. Her kategorinin 1,0 veya daha yüksek bir sıklık içerdiğinden emin olmak için "9 veya daha fazla" kategorisi "8" kategorisiyle birleştirilmelidir. Yani geriye dokuz kategori kalır (0, 1, 2, 3, 4, 5, 6, 7, 8 ve daha fazlası). Poisson dağılımının matematiksel beklentisi örnek verilere göre belirlendiğinden serbestlik derecesi sayısı k – p – 1 = 9 – 1 – 1 = 7'ye eşittir. 0,05 anlamlılık düzeyini kullanarak şunu buluruz: =CHI2.OBR(1-0.05;7) = 14.067 formülüne göre 7 serbestlik derecesine sahip olan χ 2 istatistiğinin kritik değeri. Karar kuralı şu şekilde formüle edilir: hipotez H 0χ 2 > 14,067 ise reddedilir, aksi takdirde hipotez reddedilir H 0 sapma yapmaz.

    χ 2'yi hesaplamak için formül (1)'i kullanıyoruz (Şekil 3).

    Pirinç. 3. Poisson dağılımı için χ2 -uygunluk kriterinin hesaplanması

    χ 2 = 2,277 olduğundan< 14,067, следует, что гипотезу H 0 reddedilemez. Başka bir deyişle, müşterilerin bankaya gelişinin Poisson dağılımına uymadığını iddia etmek için hiçbir nedenimiz yok.

    Normal dağılım için χ 2 -uygunluk testinin uygulanması

    Önceki notlarda, sayısal değişkenlerle ilgili hipotezleri test ederken, incelenen konunun nüfus normal dağılıma sahiptir. Bu varsayımı kontrol etmek için kutu grafiği veya normal dağılım grafiği gibi grafik araçlarını kullanabilirsiniz (daha fazla ayrıntı için bkz.). Büyük örneklem boyutları için, bu varsayımları test etmek amacıyla normal dağılıma yönelik χ2 uyum iyiliği testi kullanılabilir.

    Örnek olarak 158 yatırım fonunun 5 yıllık getiri verilerini ele alalım (Şekil 4). Verilerin normal şekilde dağılıp dağılmadığına inanmak istediğinizi varsayalım. Sıfır ve alternatif hipotezler şu şekilde formüle edilmiştir: H 0: 5 yıllık getiri normal dağılıma uymaktadır, H 1: 5 yıllık getiri normal dağılıma uymuyor. Normal dağılımın iki parametresi vardır: matematiksel beklenti μ ve standart sapmaσ, örnek verilere dayanarak tahmin edilebilir. Bu durumda = 10,149 ve S = 4,773.

    Pirinç. 4. 158 fonun beş yıllık ortalama yıllık getirisine ilişkin verileri içeren sıralı bir dizi

    Fon getirilerine ilişkin veriler örneğin %5 genişliğinde sınıflara (aralıklara) göre gruplandırılabilir (Şekil 5).

    Pirinç. 5. 158 fonun beş yıllık ortalama yıllık getirisinin frekans dağılımı

    Normal dağılım sürekli olduğundan normal dağılım eğrisinin sınırladığı şekillerin alanının ve her aralığın sınırlarının belirlenmesi gerekir. Ayrıca normal dağılım teorik olarak –∞ ile +∞ arasında değiştiğinden, şekillerin sınıf sınırları dışındaki alanlarının da dikkate alınması gerekir. Yani -10 noktasının solundaki normal eğrinin altındaki alan, Z değerinin solundaki standartlaştırılmış normal eğrinin altında yatan şeklin alanına eşittir:

    Z = (–10 – 10,149) / 4,773 = –4,22

    Z = –4,22 değerinin solundaki standartlaştırılmış normal eğrinin altında kalan şeklin alanı =NORM.DAĞ(-10;10.149;4.773;DOĞRU) formülü ile belirlenir ve yaklaşık olarak 0,00001'e eşittir. Normal eğrinin altında kalan şeklin –10 ile –5 noktaları arasındaki alanını hesaplamak için öncelikle –5 noktasının solunda kalan şeklin alanını hesaplamanız gerekir: =NORM.DAĞ( -5,10.149,4.773,DOĞRU) = 0,00075 . Yani şeklin –10 ve –5 noktaları arasındaki normal eğrinin altında kalan alanı 0,00075 – 0,00001 = 0,00074'tür. Benzer şekilde, her sınıfın sınırlarıyla sınırlı olan şeklin alanını hesaplayabilirsiniz (Şekil 6).

    Pirinç. 6. 5 yıllık getirilerin her bir sınıfı için alanlar ve beklenen sıklıklar

    Dört uç sınıftaki (iki minimum ve iki maksimum) teorik frekansların 1'den küçük olduğu görülebilir, dolayısıyla sınıfları Şekil 7'de gösterildiği gibi birleştireceğiz.

    Pirinç. 7. Normal dağılım için χ2 uyum iyiliği testinin kullanımına ilişkin hesaplamalar

    Veri uyumu için χ 2 kriterini kullanıyoruz. normal dağılım formül (1) kullanılarak. Örneğimizde birleştirme sonrasında geriye altı sınıf kalıyor. Beklenen değer ve standart sapma örnek verilerden tahmin edildiği için serbestlik derecesi sayısı kP – 1 = 6 – 2 – 1 = 3. 0,05 anlamlılık düzeyini kullanarak, üç serbestlik derecesine sahip χ 2 istatistiğinin kritik değerinin = CI2.OBR(1-0.05;F3) = 7,815 olduğunu buluyoruz. χ2 uyum iyiliği kriterinin kullanımına ilişkin hesaplamalar Şekil 2'de gösterilmektedir. 7.

    χ 2 -istatistik = 3,964 olduğu görülebilir.< χ U 2 7,815, следовательно гипотезу H 0 reddedilemez. Yani hızlı büyüyen yatırım fonlarının 5 yıllık getirilerinin normal dağılmadığına inanmamız için hiçbir neden yok.

    Son birkaç gönderi tartışıldı farklı yaklaşımlar kategorik verilerin analizi. İki veya daha fazla bağımsız örneğin analizinden elde edilen kategorik verilerle ilgili hipotezleri test etmeye yönelik yöntemler açıklanmaktadır. Ki-kare testlerine ek olarak parametrik olmayan prosedürler de dikkate alınır. Uygulama koşullarının sağlanamadığı durumlarda kullanılan Wilcoxon sıra testi anlatılmaktadır. T-eşitlik hipotezini test etmek için kriterler matematiksel beklentiler iki bağımsız grup ve tek yönlü varyans analizine alternatif olan Kruskal-Wallis testi (Şekil 8).

    Pirinç. 8. Kategorik verilerle ilgili hipotezleri test etmeye yönelik yöntemlerin blok diyagramı

    Levin ve diğerleri İstatistikleri kitabından materyaller kullanılmıştır. – M.: Williams, 2004. – s. 763–769

    Editörün Seçimi
    En basit ve anlaşılır maaş sistemlerinden biri tarife sistemidir. Çalışana harcanan zaman için sabit bir ödemeyi içerir.

    “KATILDI” Sendika komitesi başkanı ____________ P.P. Bortsov “ONAYLANDI” OJSC “Şirket” Genel Müdürü OJSC “Şirket” D.D....

    Rusya Federasyonu Çalışma Bakanlığı tarafından kabul edilen Mesleki Standartlar Kaydı şu anda 800'den fazla mesleki standart içermektedir. Fakat...

    Çalışma kitabı herkesin iş deneyimini kaydetmesi gereken çok önemli bir belgedir. Bu nedenle doldurmanız gerekmektedir...
    İşten "tek başına" ayrılmak, işten çıkarılmanın en yaygın nedenidir. Burada iki ilginç nokta var: Çok sık...
    benzenin neyle etkileşime girdiği ve reaksiyon denklemleri; onlar için en karakteristik reaksiyonlar, benzen halkasının hidrojen atomlarının ikamesidir. Onlar...
    -------| toplama sitesi|----------| Lev Nikolayeviç Tolstoy | İnsanlar nasıl yaşıyor ------- Ölümden yaşama geçtiğimizi biliyoruz çünkü...
    Asitler ve asit oksitlerle kolayca reaksiyona girer. Oldukça güçlü bir baz olduğundan tuzlarla reaksiyona girebilir, fakat...
    Slayt 1 Kaliningrad Bölgesi, Sovetsk şehrinin 10 Nolu Belediye Eğitim Kurumu Lisesi, matematik öğretmeni Razygraeva Tatyana Nikolaevna N'inci kök kavramı...