Saya menyederhanakan pertanyaan penelitian yang saya miliki di tempat kerja. Bayangkan saya punya 5 koin dan mari kita sebut kepala sukses. Ini adalah koin yang SANGAT bias dengan probabilitas keberhasilan p = 0,1. Sekarang, jika koin-koin itu independen, kemudian mendapatkan probabilitas minimal 1 kepala atau lebih sangat sederhana, . Dalam skenario saya, percobaan Bernoulli saya (lemparan koin) tidak independen. Satu-satunya informasi yang saya miliki akses adalah probabilitas keberhasilan (masing-masing adalah p = .1) dan korelasi Pearson teoretis antara variabel-variabel biner.
Apakah ada cara untuk menghitung probabilitas satu keberhasilan atau lebih hanya dengan informasi ini? Saya mencoba untuk menghindari pendekatan berbasis simulasi karena hasil teoritis ini akan digunakan untuk memandu keakuratan studi simulasi. Saya telah melihat ke dalam distribusi Bernoulli multivariat tetapi saya tidak berpikir bahwa saya dapat sepenuhnya menentukannya hanya dengan korelasi dan probabilitas keberhasilan marjinal. Seorang teman saya merekomendasikan membangun Gaussian copula dengan marginal bernoulli (menggunakan paket R copula
) dan kemudian menggunakan pMvdc()
fungsi pada sampel besar untuk mendapatkan probabilitas yang saya inginkan, tetapi saya tidak yakin bagaimana cara melakukannya.
Jawaban:
Tidak, ini tidak mungkin setiap kali Anda memiliki tiga koin atau lebih.
Kasing dua koin
Mari kita lihat mengapa ini bekerja untuk dua koin karena ini memberikan intuisi tentang apa yang rusak dalam kasus lebih banyak koin.
Misalkan dan Y menunjukkan variabel terdistribusi Bernoulli yang sesuai dengan dua kasus, X ∼ B e r ( p ) , Y ∼ B e r ( q ) . Pertama, ingatlah bahwa korelasi X dan Y adalahX Y X∼ B e r ( p ) Y∼ B e r ( q) X Y
dan karena Anda tahu marginal, Anda tahu , E [ Y ] , V a r ( X ) , dan V a r ( Y ) , jadi dengan mengetahui korelasinya, Anda juga tahu E [ X Y ] . Sekarang, X Y = 1 jika dan hanya jika keduanya X = 1 dan Y = 1 , jadi E [ X Y ] = P (E[ X] E[ Y] V a r (X) Var(Y) E[XY] XY=1 X=1 Y=1
Dengan mengetahui marginal, Anda tahu , dan q = P ( X = 0 , Y = 1 ) + P ( X = 1 , Y = 1 ) . Karena kami baru saja menemukan bahwa Anda tahu P ( X = 1 , Yp=P(X=1,Y=0)+P(X=1,Y=1) q=P(X=0,Y=1)+P(X=1,Y=1) , ini berarti Anda juga tahu P ( X = 1 , Y = 0 ) dan P ( X = 0 , Y = 0 ) , tetapi sekarang Anda selesai, karena probabilitas yang Anda cari adalahP(X=1,Y=1) P(X=1,Y=0) P(X=0,Y=0)
Sekarang, saya pribadi menemukan semua ini lebih mudah dilihat dengan gambar. Biarkan . Maka kita dapat menggambarkan berbagai probabilitas sebagai membentuk persegi:Pij=P(X=i,Y=j)
Di sini, kami melihat bahwa mengetahui korelasi berarti Anda dapat menyimpulkan , bertanda merah, dan mengetahui marjinal, Anda tahu jumlah untuk setiap sisi (salah satunya ditandai dengan persegi panjang biru).P11
Kasing tiga koin
Ini tidak akan mudah untuk tiga koin; secara intuitif tidak sulit untuk melihat alasannya: Dengan mengetahui marginal dan korelasinya, Anda tahu total parameter, tetapi distribusi gabungan memiliki 2 3 = 8 hasil, tetapi dengan mengetahui probabilitas untuk 7 dari mereka, Anda bisa mengetahui yang terakhir; sekarang, 7 > 6 , jadi tampaknya masuk akal bahwa seseorang dapat memasak dua distribusi bersama yang berbeda yang marjinal dan korelasinya sama, dan bahwa seseorang dapat mengubah probabilitas hingga yang Anda cari akan berbeda.6=3+3 23=8 7 7>6
Biarkan , Y , dan Z menjadi tiga variabel, dan biarkanX Y Z
Dalam hal ini, gambar dari atas menjadi sebagai berikut:
Dimensi telah ditabrak oleh satu: Verteks merah telah menjadi beberapa tepi berwarna, dan tepi yang ditutupi oleh persegi panjang biru telah menjadi seluruh wajah. Di sini, bidang biru menunjukkan bahwa dengan mengetahui marginal, Anda tahu jumlah probabilitas di dalamnya; untuk yang ada dalam gambar,
dan juga untuk semua wajah lain di kubus. Tepi berwarna menunjukkan bahwa dengan mengetahui korelasi, Anda tahu jumlah dari dua probabilitas yang terhubung oleh tepi. Misalnya, dengan mengetahui , Anda tahu E [ X Y ] (persis seperti di atas), dancorr(X,Y) E[XY]
Jadi, ini menempatkan beberapa batasan pada kemungkinan distribusi bersama, tetapi sekarang kami telah mengurangi latihan menjadi latihan kombinatorial dengan menempatkan angka pada simpul sebuah kubus. Tanpa basa-basi lagi, mari kita berikan dua distribusi bersama yang marginal dan korelasinya sama:
Akhirnya, probabilitas mendapatkan setidaknya satu kepala,1−P000 1−P′000
Empat atau lebih koin
Akhirnya, ketika kita memiliki lebih dari tiga koin, tidak mengherankan bahwa kita dapat memasak contoh yang gagal, karena kita sekarang memiliki perbedaan yang lebih besar antara jumlah parameter yang diperlukan untuk menggambarkan distribusi bersama dan yang diberikan kepada kita oleh marginal dan korelasi.
Secara konkret, untuk jumlah koin yang lebih besar dari tiga, Anda dapat dengan mudah mempertimbangkan contoh-contoh yang tiga koin pertamanya berperilaku seperti pada dua contoh di atas dan yang hasilnya dua koin terakhir bebas dari semua koin lainnya.
sumber
Uji coba Bernoulli yang berhubungan menyebabkan distribusi beta-binomial untuk hasil yang dihitung. Seharusnya dimungkinkan untuk parameterisasi distribusi ini untuk memberikan nilai korelasi yang ditentukan, dan kemudian menghitung probabilitas yang Anda inginkan.
sumber