Apa yang dimaksud Fisher dengan kutipan ini?

14

Saya terus melihat kutipan terkenal ini di mana-mana, tetapi gagal memahami bagian yang ditekankan setiap saat.

Seorang pria yang 'menolak' hipotesis untuk sementara, sebagai praktik kebiasaan, ketika signifikansinya di level 1% atau lebih tinggi, tentu akan keliru jika tidak lebih dari 1% dari keputusan semacam itu. Karena ketika hipotesisnya benar dia akan keliru hanya dalam 1% dari kasus-kasus ini, dan ketika itu salah dia tidak akan pernah salah dalam penolakan. [...] Namun, kalkulasi ini tidak masuk akal secara akademis, karena pada kenyataannya tidak ada pekerja ilmiah yang memiliki tingkat signifikansi tetap di mana dari tahun ke tahun, dan dalam semua keadaan, ia menolak hipotesis; dia lebih suka memberikan pikirannya untuk setiap kasus tertentu berdasarkan bukti dan idenya.Tidak boleh dilupakan bahwa kasus-kasus yang dipilih untuk menerapkan tes secara nyata adalah set yang sangat dipilih, dan bahwa kondisi seleksi tidak dapat ditentukan bahkan untuk seorang pekerja tunggal; atau bahwa dalam argumen yang digunakan jelas tidak sah bagi seseorang untuk memilih tingkat signifikansi aktual yang ditunjukkan oleh uji coba tertentu seolah-olah itu adalah kebiasaan seumur hidupnya untuk menggunakan tingkat ini saja.

(Metode Statistik dan Inferensi Ilmiah, 1956, hlm. 42-45)

Lebih khusus lagi, saya tidak mengerti

Mengapa kasus yang dipilih untuk menerapkan tes "sangat dipilih"? Katakan Anda bertanya-tanya apakah ketinggian rata-rata orang di suatu daerah kurang dari 165 cm, dan memutuskan untuk melakukan tes. Prosedur standar, sejauh yang saya tahu, adalah mengambil sampel acak dari area dan mengukur tinggi mereka. Bagaimana ini bisa sangat dipilih?
Misalkan kasus-kasus tersebut sangat dipilih, tetapi bagaimana ini terkait dengan pilihan tingkat signifikansi? Pertimbangkan lagi contoh di atas, jika metode pengambilan sampel Anda (yang saya duga adalah apa yang Fisher sebut sebagai kondisi seleksi ) condong dan entah bagaimana menguntungkan orang-orang yang tinggi, maka seluruh penelitian hancur, dan penentuan subyektif dari tingkat signifikansi tidak dapat menyelamatkannya.
$p$

hypothesis-testing statistical-significance references experiment-design philosophical nalzok
sumber

15

Ini adalah parafrase dari apa yang dikatakan Fisher dalam kutipan tebal Anda. Tidak boleh dilupakan bahwa cukup banyak masuk ke dalam memilih hipotesis apa yang akan diuji, begitu banyak sehingga bahkan untuk keputusan satu orang, Anda tidak dapat menentukan semuanya. Juga jangan dilupakan bahwa, untuk alasan yang disebutkan di atas, Anda tidak dapat memutuskan tingkat signifikansi uji coba tertentu dengan cara yang sama, seperti kebiasaan seumur hidup.

Sebuah hipotesis ilmiah dipilih sebagai pengujian yang layak terhadap banyak hipotesis lain yang bersaing karena bias peneliti dan keadaan pengetahuan mereka saat ini. The hipotesis yang "sangat dipilih", bukan sampel; yang hipotesis adalah kasus di mana kita menerapkan tes.
Proses pemilihan hipotesis mempengaruhi tingkat signifikansi kami. Jika kita sangat yakin akan suatu hipotesis, itu seharusnya membuat tingkat signifikansi kurang ketat untuk memuaskan diri kita sendiri. Jika kita tidak yakin ada beban pembuktian yang lebih tinggi. Faktor-faktor lain juga ikut berperan, seperti kesalahan Tipe I lebih buruk daripada Tipe II dalam uji coba narkoba.
Saya pikir ketika dia mengatakan "ditunjukkan oleh" dia hanya berarti "dipilih untuk". Ya, itu adalah nilai yang telah ditetapkan di mana kami menolak hipotesis jika nilai-p lebih ekstrim.

Drew N
sumber

10

Kasus-kasus yang dirujuk oleh Fisher bukanlah observasi melainkan tes. Yaitu, kami memilih hipotesis untuk diuji. Kami tidak hanya menguji hipotesis acak - kami mendasarkannya pada observasi, literatur, teori-teori ilmiah dan sebagainya.

Jika Anda melakukan tes hipotesis acak, maka jumlah kali Anda keliru (dalam kalimat pertama dari kutipan Anda) akan menjadi 1% (atau nilai apa pun yang dipilih). Misal jika kita menguji hipotesis suka

Paritas nomor jaminan sosial seseorang terkait dengan IQ-nya
Orang berambut pirang melemparkan Frisbee lebih baik daripada orang berambut hitam
Waktu untuk mendapatkan jawaban tentang Cross Validated terkait dengan jumlah suku kata dalam nama depan Anda.

Dan menguji sejumlah besar dari mereka pada 1%, kami akan menolak nol sekitar 1% dari waktu, dan melakukannya dengan salah. (Kecuali, tentu saja, saya ke sesuatu dengan omong kosong di atas).

Saya pernah melihat artikel tentang warna rambut dan melempar Frisbee - dan ternyata ada perbedaan! Jadi, saya menyebut hal semacam ini "Frisbee research".

Tetapi bagian yang saya sukai dari kutipan adalah ini:

karena pada kenyataannya tidak ada pekerja ilmiah yang memiliki tingkat signifikansi tetap di mana dari tahun ke tahun, dan dalam semua keadaan, ia menolak hipotesis; dia lebih suka memberikan pikirannya untuk setiap kasus tertentu berdasarkan bukti dan idenya.

Dia harus berputar di kuburnya.

Peter Flom - Pasang kembali Monica
sumber

4

Ini adalah jawaban yang bagus, tetapi saya ragu untuk menganggap "penelitian Frisbee" sebagai hal yang buruk. Selama metodologi digunakan dengan benar (dengan mempertimbangkan ukuran efek, dll), saya akan mempertimbangkan hasilnya masuk akal. Maksud saya, diyakini bahwa warna rambut tidak ada hubungannya dengan lemparan Frisbee, tetapi diterima bahwa Bumi berada di pusat alam semesta sampai ratusan tahun yang lalu! Kita dapat mengkritik orang karena melakukan sesuatu yang salah, tetapi kita tidak seharusnya menyalahkan siapa pun karena mengajukan pertanyaan. Yang sedang berkata, saya setuju bahwa beberapa hipotesis kurang bermanfaat daripada yang lain, tetapi masih, mereka bisa benar .

nalzok

Dan mereka juga bisa menjadi kesalahan tipe I.

Peter Flom - Reinstate Monica

1

Terkait: xkcd.com/882

jkdev

2

Mencoba melihat latar belakang kutipan saya datang ke versi buku (saya tidak yakin yang mana versi) yang memiliki kutipan yang sedikit berbeda

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

Upaya-upaya yang telah dilakukan untuk menjelaskan kepastian tes signifikansi dalam penelitian ilmiah, dengan mengacu pada frekuensi hipotetis dari pernyataan yang mungkin, berdasarkan pada mereka, yang benar atau salah, dengan demikian tampaknya kehilangan sifat esensial dari tes tersebut. Seorang pria yang "menolak" hipotesis untuk sementara, sebagai praktik kebiasaan, ketika signifikansinya di level 1% atau lebih tinggi, tentu akan keliru jika tidak lebih dari 1% dari keputusan semacam itu. Karena ketika hipotesisnya benar dia akan keliru hanya dalam 1% dari kasus-kasus ini, dan ketika itu salah dia tidak akan pernah salah dalam penolakan. Pernyataan ketidaksetaraan ini dapat dibuat. Akan tetapi, perhitungannya bukan kepalang akademis, karena pada kenyataannya tidak ada pekerja ilmiah yang memiliki tingkat signifikansi tetap di mana dari tahun ke tahun, dan dalam semua keadaan, dia menolak hipotesis; dia lebih suka memberikan pikirannya pada setiap kasus berdasarkan bukti dan idenya. Lebih lanjut, perhitungan ini semata-mata didasarkan pada hipotesis, yang, berdasarkan bukti, sering kali tidak diyakini benar sama sekali, sehingga probabilitas aktual dari keputusan yang salah, seandainya kalimat semacam itu memiliki makna, mungkin jauh lebih sedikit daripada frekuensi yang menentukan tingkat signifikansi. Bagi seorang pria praktis, juga, yang menolak hipotesis, tentu saja, adalah masalah ketidakpedulian dengan probabilitas apa yang mungkin dituntunnya untuk menerima hipotesis secara keliru, karena dalam kasusnya ia tidak menerimanya. sering kali tidak diyakini benar sama sekali, sehingga probabilitas aktual dari keputusan yang salah, seandainya ungkapan semacam itu memiliki makna, mungkin jauh lebih kecil daripada frekuensi yang menentukan tingkat signifikansi. Bagi seorang pria praktis, juga, yang menolak hipotesis, tentu saja, adalah masalah ketidakpedulian dengan probabilitas apa yang mungkin dituntunnya untuk menerima hipotesis secara keliru, karena dalam kasusnya ia tidak menerimanya. sering kali tidak diyakini benar sama sekali, sehingga probabilitas aktual dari keputusan yang salah, seandainya ungkapan semacam itu memiliki makna, mungkin jauh lebih kecil daripada frekuensi yang menentukan tingkat signifikansi. Bagi seorang pria praktis, juga, yang menolak hipotesis, tentu saja, adalah masalah ketidakpedulian dengan probabilitas apa yang mungkin dituntunnya untuk menerima hipotesis secara keliru, karena dalam kasusnya ia tidak menerimanya.

Bagi saya ini adalah kritik untuk menggunakan ekspresi matematika dari kemungkinan penolakan, kesalahan tipe I, seperti beberapa argumen yang keras. Ungkapan-ungkapan itu seringkali bukan ungkapan yang baik untuk apa yang relevan dan juga tidak teliti.

Mengapa kasus yang dipilih untuk menerapkan tes "sangat dipilih"?

Ini sepertinya berhubungan dengan kalimat

Lebih lanjut, perhitungan didasarkan hanya pada hipotesis, yang, berdasarkan bukti, seringkali tidak diyakini benar sama sekali

Kami tidak acuh terhadap hipotesis yang sedang diuji, dan seringkali hipotesis yang sedang diuji tidak diyakini benar.
bagaimana ini terkait dengan pilihan tingkat signifikansi?

Ini berhubungan dengan

sehingga probabilitas aktual dari keputusan yang salah, seandainya ungkapan seperti itu memiliki makna, mungkin jauh lebih kecil daripada frekuensi yang menentukan tingkat signifikansi

P-value adalah frekuensi membuat kesalahan ketika hipotesis nol adalah benar. Tetapi frekuensi sebenarnya melakukan kesalahan akan berbeda (lebih rendah).
apa yang dimaksud dengan "tingkat signifikansi aktual yang ditunjukkan oleh uji coba tertentu"

Saya percaya bahwa bagian ini merujuk pada semacam peretasan nilai-p. Mengubah tingkat signifikansi, alfa, setelah pengamatan telah terjadi untuk mencocokkan nilai p yang diamati, dan berpura-pura bahwa ini adalah nilai cut-off sejak awal.

Sextus Empiricus
sumber

Apa yang dimaksud Fisher dengan kutipan ini?

Jawaban: