Dalam eksperimen mencicipi teh oleh RA Fisher, wanita tersebut diberitahu tentang berapa banyak cangkir susu-pertama / teh-pertama (4 untuk masing-masing dari 8 cangkir). Ini menghormati asumsi total marjinal tetap dari uji eksak Fisher.
Saya membayangkan melakukan tes ini dengan teman saya, tetapi pikiran itu muncul di benak saya. Jika wanita itu benar-benar dapat mengetahui perbedaan antara cangkir susu pertama dan pertama, dia harus bisa mengetahui total marjinal dari cangkir pertama-susu / pertama-teh serta yang mana.
Jadi inilah pertanyaannya: Tes apa yang bisa digunakan jika RA Fisher tidak memberi tahu wanita itu tentang jumlah total cangkir susu pertama dan teh pertama?
Jawaban:
Beberapa akan berpendapat bahwa bahkan jika margin kedua tidak diperbaiki oleh desain, ia membawa sedikit informasi tentang kemampuan wanita untuk melakukan diskriminasi (yaitu kira-kira tambahan) & harus dikondisikan. Tes tanpa syarat yang tepat (pertama kali diusulkan oleh Barnard ) lebih rumit karena Anda harus menghitung nilai p maksimal atas semua nilai yang mungkin dari parameter gangguan, yaitu probabilitas Bernoulli yang umum di bawah hipotesis nol. Baru-baru ini, memaksimalkan nilai p selama interval kepercayaan untuk parameter gangguan telah diusulkan: lihat Berger (1996), "Tes Lebih Kuat dari Nilai Interval Keyakinan p", The American Statistician , 50 , 4; tes yang tepat memiliki ukuran yang tepat dapat dibangun menggunakan ide ini.
Fisher's Exact Test juga muncul sebagai tes pengacakan, dalam arti Edgington: penugasan acak dari perawatan eksperimental memungkinkan distribusi statistik uji atas permutasi dari penugasan ini untuk digunakan untuk menguji hipotesis nol. Dalam pendekatan ini determinasi wanita dianggap tetap (& total marjinal dari susu pertama dan cangkir teh pertama tentu saja diawetkan dengan permutasi).
sumber
Barnard::barnardw.test()
digunakan di sini? Apa perbedaan dalam kompleksitas komputasi yang dapat diharapkan dalam praktik?Exact
. Adapun kompleksitas komputasi, saya tidak tahu - itu akan tergantung pada algoritma maksimalisasi yang digunakan.Hari ini, saya membaca bab pertama "Desain Eksperimen" oleh RA Fisher, dan salah satu paragraf membuat saya menyadari kelemahan mendasar dalam pertanyaan saya.
Yaitu, bahkan jika wanita itu benar-benar dapat membedakan antara cangkir susu pertama dan cangkir teh pertama , saya tidak pernah dapat membuktikan bahwa dia memiliki kemampuan itu "dengan eksperimen berhingga apa pun". Untuk alasan ini, sebagai percobaan, saya harus mulai dengan asumsi bahwa dia tidak memiliki kemampuan (hipotesis nol) dan mencoba untuk tidak menyetujui itu. Dan desain eksperimen asli (uji eksak fisher) adalah prosedur yang cukup, efisien, dan dapat dibenarkan untuk melakukannya.
Berikut adalah kutipan dari "Desain Eksperimen" oleh RA Fisher:
sumber
Uji Barnard digunakan ketika parameter gangguan tidak diketahui berdasarkan hipotesis nol.
Namun dalam tes pencicipan wanita Anda dapat berargumen bahwa parameter gangguan dapat ditetapkan pada 0,5 di bawah hipotesis nol (wanita yang tidak diberi informasi memiliki kemungkinan 50% untuk menebak dengan benar gelas).
Kemudian jumlah tebakan yang benar, di bawah hipotesis nol, menjadi distribusi binomial: menebak 8 cangkir dengan probabilitas 50% untuk setiap cangkir.
Dalam kesempatan lain, Anda mungkin tidak memiliki probabilitas sepele 50% untuk hipotesis nol. Dan tanpa margin tetap, Anda mungkin tidak tahu probabilitas apa yang seharusnya. Dalam hal ini Anda memerlukan tes Barnard.
Bahkan jika Anda akan melakukan tes Barnard pada tes mencicipi teh wanita, itu akan menjadi 50% pula (jika hasilnya semua tebakan yang benar) karena parameter gangguan dengan nilai-p tertinggi adalah 0,5 dan akan menghasilkan tes binomial sepele ( sebenarnya adalah kombinasi dari dua tes binomial satu untuk empat cangkir pertama susu dan satu untuk empat cangkir pertama teh).
Di bawah ini adalah bagaimana hasilnya akan lebih rumit (jika tidak semua tebakan benar misalnya 2 banding 4), maka penghitungan apa yang ada dan apa yang tidak ekstrem menjadi sedikit lebih sulit.
(Perhatikan juga bahwa tes Barnard menggunakan, dalam kasus hasil 4-2 parameter gangguan p = 0,686 yang Anda dapat berargumentasi tidak benar, nilai p untuk probabilitas 50% menjawab 'teh pertama' adalah 0,08203125. Ini menjadi lebih kecil ketika Anda mempertimbangkan wilayah yang berbeda, alih-alih yang didasarkan pada statistik Wald, meskipun mendefinisikan wilayah itu tidak begitu mudah )
sumber