Pada uji eksak Fisher: Tes apa yang cocok jika wanita itu tidak tahu jumlah cangkir susu pertama?

18

Dalam eksperimen mencicipi teh oleh RA Fisher, wanita tersebut diberitahu tentang berapa banyak cangkir susu-pertama / teh-pertama (4 untuk masing-masing dari 8 cangkir). Ini menghormati asumsi total marjinal tetap dari uji eksak Fisher.

Saya membayangkan melakukan tes ini dengan teman saya, tetapi pikiran itu muncul di benak saya. Jika wanita itu benar-benar dapat mengetahui perbedaan antara cangkir susu pertama dan pertama, dia harus bisa mengetahui total marjinal dari cangkir pertama-susu / pertama-teh serta yang mana.

Jadi inilah pertanyaannya: Tes apa yang bisa digunakan jika RA Fisher tidak memberi tahu wanita itu tentang jumlah total cangkir susu pertama dan teh pertama?

Alby
sumber
4
Beberapa akan berpendapat bahwa bahkan jika margin kedua tidak diperbaiki oleh desain, ia membawa sedikit informasi tentang kemampuan wanita untuk melakukan diskriminasi (yaitu kira-kira tambahan) & harus dikondisikan. Tes tanpa syarat yang tepat (pertama kali diusulkan oleh Barnard saya pikir) lebih rumit karena Anda harus menghitung nilai p maksimal dari semua nilai yang mungkin dari parameter gangguan.
Scortchi
4
Sebenarnya tes Barnard memiliki halaman Wikipedia.
Scortchi
@ Scortchi apa lagi yang bisa dikatakan? Saya tidak akan menambahkan apa pun ke dalamnya (saya juga tidak akan bisa mengatakannya dengan jelas dan ringkas). Di kedua komentar Anda, saya pikir Anda punya jawaban yang bagus di sana.
Glen_b -Reinstate Monica
1
Ada beberapa diskusi yang layak untuk dilihat (antara makalah dan diskusi) di Yates, F. (1984) "Tes Signifikansi untuk Tabel Kontingensi 2 × 2", Jurnal Masyarakat Statistik Kerajaan. Seri A (Umum) , Vol. 147, No. 3, hlm. 426-463.
Glen_b -Reinstate Monica
1
Hanya rata-rata, lebih dari 4 cangkir teh dengan susu & 4 tanpa, dapat kita katakan dia kemungkinan 121212

Jawaban:

16

Beberapa akan berpendapat bahwa bahkan jika margin kedua tidak diperbaiki oleh desain, ia membawa sedikit informasi tentang kemampuan wanita untuk melakukan diskriminasi (yaitu kira-kira tambahan) & harus dikondisikan. Tes tanpa syarat yang tepat (pertama kali diusulkan oleh Barnard ) lebih rumit karena Anda harus menghitung nilai p maksimal atas semua nilai yang mungkin dari parameter gangguan, yaitu probabilitas Bernoulli yang umum di bawah hipotesis nol. Baru-baru ini, memaksimalkan nilai p selama interval kepercayaan untuk parameter gangguan telah diusulkan: lihat Berger (1996), "Tes Lebih Kuat dari Nilai Interval Keyakinan p", The American Statistician , 50 , 4; tes yang tepat memiliki ukuran yang tepat dapat dibangun menggunakan ide ini.

Fisher's Exact Test juga muncul sebagai tes pengacakan, dalam arti Edgington: penugasan acak dari perawatan eksperimental memungkinkan distribusi statistik uji atas permutasi dari penugasan ini untuk digunakan untuk menguji hipotesis nol. Dalam pendekatan ini determinasi wanita dianggap tetap (& total marjinal dari susu pertama dan cangkir teh pertama tentu saja diawetkan dengan permutasi).

Scortchi - Reinstate Monica
sumber
Bisakah Barnard::barnardw.test()digunakan di sini? Apa perbedaan dalam kompleksitas komputasi yang dapat diharapkan dalam praktik?
krlmlr
Saya tidak terbiasa dengan paket itu, tetapi halaman bantuan yang Anda tautkan ke referensi persis dengan tes yang saya bicarakan. Lihat juga Exact. Adapun kompleksitas komputasi, saya tidak tahu - itu akan tergantung pada algoritma maksimalisasi yang digunakan.
Scortchi
2

Hari ini, saya membaca bab pertama "Desain Eksperimen" oleh RA Fisher, dan salah satu paragraf membuat saya menyadari kelemahan mendasar dalam pertanyaan saya.

Yaitu, bahkan jika wanita itu benar-benar dapat membedakan antara cangkir susu pertama dan cangkir teh pertama , saya tidak pernah dapat membuktikan bahwa dia memiliki kemampuan itu "dengan eksperimen berhingga apa pun". Untuk alasan ini, sebagai percobaan, saya harus mulai dengan asumsi bahwa dia tidak memiliki kemampuan (hipotesis nol) dan mencoba untuk tidak menyetujui itu. Dan desain eksperimen asli (uji eksak fisher) adalah prosedur yang cukup, efisien, dan dapat dibenarkan untuk melakukannya.

Berikut adalah kutipan dari "Desain Eksperimen" oleh RA Fisher:

Dapat dikatakan bahwa jika percobaan dapat membuktikan hipotesis bahwa subjek tidak memiliki diskriminasi sensorik antara dua jenis objek yang berbeda, maka itu harus dapat membuktikan hipotesis yang berlawanan, bahwa ia dapat membuat beberapa diskriminasi semacam itu. Tetapi hipotesis terakhir ini, betapapun masuk akal atau betapapun benarnya, tidak memenuhi syarat sebagai hipotesis nol untuk diuji dengan eksperimen, karena itu tidak tepat. Jika ditegaskan bahwa subjek tidak akan salah dalam penilaiannya, kami memegang lagi memiliki hipotesis yang tepat, dan mudah untuk melihat bahwa hipotesis ini dapat dibantah oleh kegagalan tunggal, tetapi tidak pernah bisa dibuktikan dengan jumlah eksperimen yang terbatas. .

Alby
sumber
1

Uji Barnard digunakan ketika parameter gangguan tidak diketahui berdasarkan hipotesis nol.

Namun dalam tes pencicipan wanita Anda dapat berargumen bahwa parameter gangguan dapat ditetapkan pada 0,5 di bawah hipotesis nol (wanita yang tidak diberi informasi memiliki kemungkinan 50% untuk menebak dengan benar gelas).

Kemudian jumlah tebakan yang benar, di bawah hipotesis nol, menjadi distribusi binomial: menebak 8 cangkir dengan probabilitas 50% untuk setiap cangkir.


Dalam kesempatan lain, Anda mungkin tidak memiliki probabilitas sepele 50% untuk hipotesis nol. Dan tanpa margin tetap, Anda mungkin tidak tahu probabilitas apa yang seharusnya. Dalam hal ini Anda memerlukan tes Barnard.


Bahkan jika Anda akan melakukan tes Barnard pada tes mencicipi teh wanita, itu akan menjadi 50% pula (jika hasilnya semua tebakan yang benar) karena parameter gangguan dengan nilai-p tertinggi adalah 0,5 dan akan menghasilkan tes binomial sepele ( sebenarnya adalah kombinasi dari dua tes binomial satu untuk empat cangkir pertama susu dan satu untuk empat cangkir pertama teh).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Di bawah ini adalah bagaimana hasilnya akan lebih rumit (jika tidak semua tebakan benar misalnya 2 banding 4), maka penghitungan apa yang ada dan apa yang tidak ekstrem menjadi sedikit lebih sulit.

(Perhatikan juga bahwa tes Barnard menggunakan, dalam kasus hasil 4-2 parameter gangguan p = 0,686 yang Anda dapat berargumentasi tidak benar, nilai p untuk probabilitas 50% menjawab 'teh pertama' adalah 0,08203125. Ini menjadi lebih kecil ketika Anda mempertimbangkan wilayah yang berbeda, alih-alih yang didasarkan pada statistik Wald, meskipun mendefinisikan wilayah itu tidak begitu mudah )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
Sextus Empiricus
sumber