Bisakah tes koin yang adil diterapkan pada koin yang sering mendarat di tepinya?

8

Jika Anda melempar koin dan mendapatkan 268 kepala dan 98 ekor, Anda dapat menghitung probabilitas bahwa koin itu adil beberapa cara. Pengamatan heuristik yang sederhana kemungkinan besar akan menyimpulkan bahwa koin semacam itu tidak adil. Saya telah menghitung nilai p dalam R dengan:

> coin <- pbinom(98, 366, 0.5)
> coin*2
[1] 2.214369e-19

Nilai ini lebih kecil dari 0,05, kami menolak hipotesis bahwa ini adalah koin yang adil.

Tetapi bagaimana jika Anda diberitahu di mana bahwa koin yang sama mendarat di sisinya 676 kali selama persidangan. Secara heuristik kemungkinan Anda akan sampai pada kesimpulan yang sama, tetapi apakah tes koin biasa masih valid?

Berikut ini adalah grafik untuk menggambarkan masalahnya:

Apa metode yang valid untuk menguji hipotesis bahwa ada probabilitas yang sama bahwa suatu peristiwa terjadi di daerah yang diarsir?

CATATAN: ada 629 gerakan positif (413 negatif) dalam ilustrasi grafik.

Kode R yang menghasilkan data:

require("quantmod")

ticker <- getSymbols("SLV")[,6]

change <- (ticker - lag(ticker, 24)) / lag(ticker, 24)  
change <- na.locf(change, na.rm=TRUE)   

# some other calculations

dens <- density(change)
plot(dens)

# some formatting stuff
Milktrader
sumber
3
Jelas data yang menjadi dasar grafik ini bukan berasal dari melempar koin dan tampaknya bersifat terus-menerus, bukan biner. Bisakah Anda memberi tahu kami apa pertanyaan substantif yang Anda coba jawab? Menyebutnya dengan contoh stereotip tidak membantu di sini.
onestop
Grafik berasal dari menghitung berapa (dalam persentase) penutupan hari ini jika dibandingkan dengan penutupan 24 hari yang lalu. Model penentuan harga opsi berasumsi bahwa ada kemungkinan 50% bahwa suatu saham akan 10% lebih tinggi atau 10% lebih rendah dalam n hari. Grafik ini adalah distribusi harga aktual. Bisakah kita menerima hipotesis bahwa ada probabilitas yang sama bahwa harga saham akan 10% lebih tinggi atau 10% lebih rendah dalam n hari.
Milktrader
1
@Milktrader, pertama-tama, model opsi tidak berasumsi bahwa ada probabilitas yang sama dari pengembalian ke atas 10% versus persentase pengembalian ke bawah yang sama. Memang, model opsi di bawah kerangka tanpa arbitrase bahkan tidak bekerja dengan distribusi pengembalian yang sebenarnya. Lebih jauh lagi, bahkan ukuran risiko-netral umumnya mengasumsikan bahwa harga memiliki probabilitas lebih tinggi untuk naik daripada turun. Akhirnya, komentar Anda membuat dua pernyataan yang sangat berbeda tentang pengembalian, meskipun Anda tampaknya menganggapnya sama. Mungkin Anda dapat menulis ulang dan mengklarifikasi pertanyaan Anda.
kardinal
@ kardinal Saya sebenarnya lebih tertarik pada teori probabilitas daripada model penentuan harga opsi dengan pertanyaan ini, meskipun topik model penentuan harga opsi menarik. Anda mungkin memiliki model penetapan harga opsi yang lebih kuat, tetapi tambang saya menunjukkan ada 14,81% prob SLV ditutup> 40,04 dan 14,52% prob ditutup <32,75 pada akhir APR (20 hari). Saya juga senang mengulangi pertanyaan saya untuk memperjelasnya, tapi saya tidak yakin bagaimana saya membuat dua pernyataan unik tentang pengembalian.
Milktrader
@Milktrader, saya hanya mencoba mencari tahu masalah apa yang Anda coba selesaikan. Referensi saya untuk model penetapan harga opsi sebenarnya dimaksudkan untuk merujuk bahkan yang paling mendasar dan "standar". Saat ini mereka mungkin muncul untuk mengasumsikan distribusi simetris, tetapi itu hanya karena suku bunga mendekati nol.
kardinal

Jawaban:

5

Saya cukup yakin jawabannya adalah ya , tes standar binomial 'fair koin' adalah masih berlaku: jika Anda ingin menguji apakah dua dari tiga probabilitas dari distribusi multinomial adalah sama tetapi Anda tidak tertarik dalam setiap hipotesis tentang probabilitas ketiga, Anda dapat menganalisis angka dari dua hasil yang sesuai seolah-olah mereka diambil dari distribusi binomial .

Kenyataannya hal ini tampaknya membuat latihan yang cukup bagus tentang statistik yang cukup dan kemungkinan bersyarat:

Anda dapat menganggap ini sebagai distribusi multinomial dengan tiga hasil yang mungkin dan karenanya dua parameter yang dapat diperkirakan (karena tiga probabilitas harus berjumlah 1). Tetapi Anda tidak tertarik pada probabilitas hasil 'sedang', sehingga Anda dapat menganggap ini sebagai parameter gangguan , dan perbedaan antara jumlah hasil 'atas' dan 'bawah' menjadi parameter yang menarik.

Sangat mudah untuk menunjukkan (menggunakan teorema faktorisasi Fisher-Neyman ) bahwa jumlah hasil 'atas' dan 'bawah' bersama-sama membentuk statistik yang cukup (dua dimensi) untuk parameter minat, yaitu jumlah hasil 'menengah' tidak tidak dapat memberikan informasi tambahan apa pun tentang nilai parameter bunga. Jumlah hasil 'menengah' jelas merupakan statistik yang cukup untuk prameter gangguan. Jika kita mengkondisikan yang terakhir, saya pikir (belum memeriksa dengan benar) bahwa kemungkinan kondisional yang dihasilkan akan berakhir sama dengan kemungkinan untuk distribusi binomial, yaitu masalah melempar koin.

onestop
sumber
1
Ini sangat tidak masuk akal karena saya belum melakukan perhitungan. Semua yang Anda tulis terdengar bagus. Satu-satunya pertanyaan yang awalnya muncul pada saya adalah tampaknya estimasi varians mungkin berbeda dari jika Anda "membuang" sampel yang sesuai dengan hasil ketiga.
kardinal
Ya, ini adalah deskripsi formal masalah saya. Bisakah distribusi multinomial direduksi menjadi distribusi binomial? Yang mengkhawatirkan saya adalah ukuran dari hasil 'menengah'.
Milktrader
Saya menerima ini sebagai "Ya, Anda bisa, asalkan kemungkinan bersyarat Anda sama dengan kemungkinan distribusi binomial". Saya tidak yakin bagaimana Anda akan mengatur tes itu, tapi itu mencapai di luar cakupan pertanyaan awal saya.
Milktrader
Meskipun penjelasan jawaban melibatkan kemungkinan bersyarat, saya bermaksud jawaban saya untuk pertanyaan Anda "apakah tes koin biasa masih valid?" menjadi un bersyarat ya !
onestop
3

Jika Anda membingkai ini sebagai masalah binomial (p, 1-p), bukan masalah multinomial, Anda hanya akan dapat menggambarkan masa lalu. Anda tidak akan bisa mengatakan apa pun tentang masa depan. Mengapa? Penghapusan Anda dari "edge edge flips" tersirat dalam pengelompokan ulang data Anda.

Dengan kata lain, "data Anda menggambarkan" probabilitas "p" dari hasil positif dan probabilitas "1-p" dari hasil negatif tidak akan berlaku pada "flip binomial koin" berikutnya, karena di masa depan Anda benar-benar memiliki probabilitas "x", "y", dan "(1-xy)".

Sunting (27/3/2011) ===============================

Saya menambahkan diagram berikut untuk membantu menjelaskan komentar saya di bawah ini.

masukkan deskripsi gambar di sini

bill_080
sumber
Jadi saya tidak bisa mengklaim bahwa P (langkah positif | 10% bergerak)? Atau, jika saya tahu ada langkah 10%, saya dapat mengatakan bahwa langkah tersebut memiliki probabilitas (268/366) menjadi positif. Tapi saya pikir saya selalu dapat mengklaim P (10% bergerak | langkah positif), bukan? Jika bergerak positif, ada kemungkinan (268/629) probabilitas bahwa gerakan tersebut akan melebihi 10%. (Saya tidak mencetak total positif pada grafik karena saya tidak berpikir sejauh itu).
Milktrader
@Milktrader: Proses dan angka asli Anda didasarkan pada Tutup Harian yang konsisten. Ketika Anda mendapatkan Tutup di masa depan, itu juga akan didasarkan pada Tutup Harian. Tidak ada yang didasarkan pada "Preferred Close" (yang membutuhkan informasi KNOWN setelah fakta). Anda dapat mewakili proses sebagai multinomial, atau satu setengah binomial (satu proses binomial untuk memilih jalur "Preferred" versus "Not Preferred", dan kemudian proses binomial lain menggunakan "Preferred Probabilities") Anda. Cobalah. Apakah mungkin untuk mensimulasikan keseluruhan proses dengan "Kemungkinan yang Diinginkan" saja?
bill_080
Jika saham ini bergerak 10% dalam 24 hari ke depan, dapatkah saya mengklaim bahwa probabilitas bahwa pergerakan akan naik adalah 268/366? Saya tidak bermaksud mencampur kerangka waktu. (Baru saja menyaring bagian kedua dari komentar Anda)
Milktrader
@Milktrader: Dari data di atas, untuk delta 24 hari, Anda memiliki 268 Ups, 98 Downs, dan 676 Nulls (1042 Total Acara). Dengan asumsi tidak ada perubahan struktural, setiap hari perdagangan di MASA DEPAN, sebelum hari perdagangan, Anda menghadapi probabilitas 268/1042 Naik, 98/1042 Turun. Sisanya 676/1042 Nulls akan lebih sering muncul. Semua ini berkaitan dengan masa depan. Setelah Tutup, Anda akan tahu apakah itu "Hari yang Dipilih", tetapi sekali lagi ini adalah setelah penutupan (bukan masa depan). "Kemungkinan yang Diutamakan" hanya berlaku setelah fakta (di masa lalu). Saya menambahkan diagram dalam jawaban saya di atas untuk membantu menjelaskan.
bill_080