Jika Anda melempar koin dan mendapatkan 268 kepala dan 98 ekor, Anda dapat menghitung probabilitas bahwa koin itu adil beberapa cara. Pengamatan heuristik yang sederhana kemungkinan besar akan menyimpulkan bahwa koin semacam itu tidak adil. Saya telah menghitung nilai p dalam R dengan:
> coin <- pbinom(98, 366, 0.5)
> coin*2
[1] 2.214369e-19
Nilai ini lebih kecil dari 0,05, kami menolak hipotesis bahwa ini adalah koin yang adil.
Tetapi bagaimana jika Anda diberitahu di mana bahwa koin yang sama mendarat di sisinya 676 kali selama persidangan. Secara heuristik kemungkinan Anda akan sampai pada kesimpulan yang sama, tetapi apakah tes koin biasa masih valid?
Berikut ini adalah grafik untuk menggambarkan masalahnya:
Apa metode yang valid untuk menguji hipotesis bahwa ada probabilitas yang sama bahwa suatu peristiwa terjadi di daerah yang diarsir?
CATATAN: ada 629 gerakan positif (413 negatif) dalam ilustrasi grafik.
Kode R yang menghasilkan data:
require("quantmod")
ticker <- getSymbols("SLV")[,6]
change <- (ticker - lag(ticker, 24)) / lag(ticker, 24)
change <- na.locf(change, na.rm=TRUE)
# some other calculations
dens <- density(change)
plot(dens)
# some formatting stuff
sumber
Jawaban:
Saya cukup yakin jawabannya adalah ya , tes standar binomial 'fair koin' adalah masih berlaku: jika Anda ingin menguji apakah dua dari tiga probabilitas dari distribusi multinomial adalah sama tetapi Anda tidak tertarik dalam setiap hipotesis tentang probabilitas ketiga, Anda dapat menganalisis angka dari dua hasil yang sesuai seolah-olah mereka diambil dari distribusi binomial .
Kenyataannya hal ini tampaknya membuat latihan yang cukup bagus tentang statistik yang cukup dan kemungkinan bersyarat:
Anda dapat menganggap ini sebagai distribusi multinomial dengan tiga hasil yang mungkin dan karenanya dua parameter yang dapat diperkirakan (karena tiga probabilitas harus berjumlah 1). Tetapi Anda tidak tertarik pada probabilitas hasil 'sedang', sehingga Anda dapat menganggap ini sebagai parameter gangguan , dan perbedaan antara jumlah hasil 'atas' dan 'bawah' menjadi parameter yang menarik.
Sangat mudah untuk menunjukkan (menggunakan teorema faktorisasi Fisher-Neyman ) bahwa jumlah hasil 'atas' dan 'bawah' bersama-sama membentuk statistik yang cukup (dua dimensi) untuk parameter minat, yaitu jumlah hasil 'menengah' tidak tidak dapat memberikan informasi tambahan apa pun tentang nilai parameter bunga. Jumlah hasil 'menengah' jelas merupakan statistik yang cukup untuk prameter gangguan. Jika kita mengkondisikan yang terakhir, saya pikir (belum memeriksa dengan benar) bahwa kemungkinan kondisional yang dihasilkan akan berakhir sama dengan kemungkinan untuk distribusi binomial, yaitu masalah melempar koin.
sumber
Jika Anda membingkai ini sebagai masalah binomial (p, 1-p), bukan masalah multinomial, Anda hanya akan dapat menggambarkan masa lalu. Anda tidak akan bisa mengatakan apa pun tentang masa depan. Mengapa? Penghapusan Anda dari "edge edge flips" tersirat dalam pengelompokan ulang data Anda.
Dengan kata lain, "data Anda menggambarkan" probabilitas "p" dari hasil positif dan probabilitas "1-p" dari hasil negatif tidak akan berlaku pada "flip binomial koin" berikutnya, karena di masa depan Anda benar-benar memiliki probabilitas "x", "y", dan "(1-xy)".
Sunting (27/3/2011) ===============================
Saya menambahkan diagram berikut untuk membantu menjelaskan komentar saya di bawah ini.
sumber