Saya memiliki dua sampel data, sampel awal, dan sampel perawatan.
Hipotesisnya adalah bahwa sampel perlakuan memiliki rata-rata yang lebih tinggi daripada sampel awal.
Kedua sampel berbentuk eksponensial. Karena datanya agak besar, saya hanya memiliki rata-rata dan jumlah elemen untuk setiap sampel pada saat saya akan menjalankan tes.
Bagaimana saya bisa menguji hipotesis itu? Saya menduga itu super mudah, dan saya telah menemukan beberapa referensi untuk menggunakan F-Test, tapi saya tidak yakin bagaimana parameternya dipetakan.
hypothesis-testing
statistical-significance
exponential
Jonathan Dobbie
sumber
sumber
Jawaban:
Anda dapat menguji persamaan parameter rata-rata terhadap alternatif yang parameter rata-rata tidak sama dengan uji rasio kemungkinan (uji LR). (Namun, jika parameter rata-rata berbeda dan distribusinya eksponensial, ini adalah pergeseran skala, bukan pergeseran lokasi.)
Untuk tes satu sisi (tetapi hanya asimtotik dalam kasus dua sisi), saya percaya bahwa uji LR setara dengan yang berikut (untuk menunjukkan bahwa ini sebenarnya sama dengan tes LR untuk ekor satu sisi. jika seseorang perlu menunjukkan statistik LR adalah monoton di ):x¯/y¯
Katakanlah kita parameterkan pengamatan ke- dalam eksponensial pertama sebagai memiliki pdf dan observasi ke- dalam sampel kedua memiliki pdf (di atas domain yang jelas untuk pengamatan dan parameter). (Untuk lebih jelasnya, kami bekerja dalam bentuk rata-rata bukan bentuk kurs di sini; ini tidak akan mempengaruhi hasil perhitungan.)i 1/μxexp(−xi/μx) j 1/μyexp(−yj/μy)
Karena distribusi adalah kasus khusus dari gamma, , distribusi jumlah , didistribusikan ; sama halnya dengan jumlah s, adalah .Xi Γ(1,μx) X Sx Γ(nx,μx) Y Sy Γ(ny,μy)
Karena hubungan antara distribusi gamma dan distribusi chi-kuadrat, ternyata didistribusikan . Rasio dua chi-square pada derajat kebebasan mereka adalah F. Oleh karena itu rasio, .2/μxSx χ22nx μyμxSx/nxSy/ny∼F2nx,2ny
Maka, di bawah hipotesis nol tentang kesetaraan sarana, , dan di bawah alternatif dua sisi, nilainya mungkin cenderung lebih kecil atau lebih besar daripada nilai dari nol distribusi, jadi Anda perlu tes dua sisi.x¯/y¯∼F2nx,2ny
Simulasi untuk memastikan bahwa kami tidak membuat kesalahan sederhana dalam aljabar:
Di sini saya mensimulasikan 1000 sampel ukuran 30 untuk dan 20 untuk dari distribusi eksponensial dengan rata-rata yang sama, dan menghitung statistik rasio sarana di atas.YX Y
Di bawah ini adalah histogram dari distribusi yang dihasilkan serta kurva yang menunjukkan distribusi kami hitung di bawah nol:F
Contoh, dengan diskusi tentang perhitungan nilai-dua-ekor :
Untuk menggambarkan perhitungan, inilah dua sampel kecil dari distribusi eksponensial. Sampel-X memiliki 14 pengamatan dari populasi dengan rata-rata 10, sampel-Y memiliki 17 pengamatan dari populasi dengan rata-rata 15:
Berarti sampel masing-masing adalah 12.082 dan 16.077. Rasio rata-rata adalah 0,7515
Area di sebelah kiri sangat mudah, karena berada di ekor bawah (calc in R):
Kami membutuhkan probabilitas untuk ekor lainnya. Jika distribusinya simetris dalam invers, akan mudah untuk melakukan ini.
Sebuah konvensi umum dengan rasio varian F-test (yang sama dua-tailed) hanya untuk menggandakan nilai-satu-tailed (efektif apa yang terjadi seperti di sini ; itu juga yang tampaknya dilakukan dalam R, misalnya ); dalam hal ini memberikan nilai-p 0,44.
Namun, jika Anda melakukannya dengan aturan penolakan formal, dengan meletakkan area di setiap ekor, Anda akan mendapatkan nilai kritis seperti dijelaskan di sini . Nilai-p kemudian nilai terbesar yang akan mengarah pada penolakan, yang setara dengan menambahkan nilai-satu ekor di atas ke nilai-satu-ekor di ekor lainnya untuk derajat kebebasan yang dipertukarkan. Dalam contoh di atas yang memberikan nilai p 0,43.αα/2 α
sumber
Sebagai tambahan untuk jawaban @ Glen_b, rasio kemungkinannya adalah yang dapat Anda atur ulang menjadi mana . Ada satu minimum pada , sehingga uji-F memang merupakan uji rasio kemungkinan terhadap alternatif satu sisi terhadap hipotesis nol dari distribusi yang identik.
Untuk melakukan uji rasio kemungkinan yang tepat untuk alternatif dua sisi Anda masih dapat menggunakan distribusi-F; Anda hanya perlu menemukan nilai lain dari rasio sampel berarti yang rasio kemungkinannya sama dengan rasio yang diamati , & kemudian . Untuk contoh ini , & , memberikan nilai p keseluruhan , (agak dekat dengan yang diperoleh dengan perkiraan chi-square ke distribusi dua kali rasio kemungkinan log, ).rELR robs r E L R = 1.3272Pr(R>rELR) rELR=1.3272 Pr(R>rELR)=0.2142 0.4352 0.4315
Tetapi menggandakan nilai-satu-ekor mungkin merupakan cara paling umum untuk mendapatkan nilai-dua-ekor: itu setara dengan menemukan nilai rasio sampel berarti yang probabilitas ekornya sama dengan , & kemudian menemukan . Dijelaskan seperti itu, mungkin kelihatannya menempatkan kereta di depan kuda dalam membiarkan probabilitas ekor menentukan ekstremeness dari statistik uji, tetapi dapat dibenarkan sebagai akibatnya dua tes satu-ekor (masing-masing LRT) dengan beberapa perbandingan koreksi— & orang biasanya tertarik untuk mengklaim bahwa atau bahwa Pr ( R > r E T P ) Pr ( R < r o b s ) Pr ( R > r E T P ) μ x > μ y μ x < μ y μ x > μ y μ x < μ yrETP Pr(R>rETP) Pr(R<robs) Pr(R>rETP) μx>μy μx<μy μx>μy atau . Ini juga kurang rewel, & bahkan untuk ukuran sampel yang cukup kecil, memberikan banyak jawaban yang sama dengan LRT dua sisi.μx<μy
Kode R berikut:
sumber