Kapan harus menggunakan kerangka kerja Fisher dan Neyman-Pearson?

73

Saya telah membaca banyak akhir-akhir ini tentang perbedaan antara metode pengujian hipotesis Fisher dan sekolah pemikiran Neyman-Pearson.

Pertanyaan saya adalah, mengabaikan keberatan filosofis sejenak; kapan kita harus menggunakan pendekatan pemodelan statistik Fisher dan kapan harus menggunakan metode tingkat signifikansi Neyman-Pearson dan lain-lain? Apakah ada cara praktis untuk memutuskan sudut pandang mana yang akan didukung dalam masalah praktis yang diberikan?

Stijn
sumber
Di mana Anda membaca tentang itu? Tolong, kutip sumber Anda.
xmjx
8
Lihat, misalnya, di sini ( jstor.org/stable/2291263 ) atau di sini ( stats.org.uk/statistics-inference/Lenhard2006.pdf ).
Stijn

Jawaban:

83

Mari saya mulai dengan mendefinisikan persyaratan diskusi seperti yang saya lihat. Nilai p adalah probabilitas mendapatkan statistik sampel (katakanlah, mean sampel) sejauh , atau lebih jauh dari beberapa nilai referensi daripada statistik sampel Anda, jika nilai referensi adalah parameter populasi yang benar. Sebagai contoh, nilai-p menjawab pertanyaan: berapa probabilitas mendapatkan sampel berarti IQ lebih daripoin jauh dari 100, jika 100 benar-benar rata-rata populasi dari mana sampel Anda diambil. Sekarang masalahnya adalah, bagaimana seharusnya angka itu digunakan dalam membuat kesimpulan statistik? |x¯100|

Fisher berpikir bahwa nilai-p dapat ditafsirkan sebagai ukuran bukti yang berkelanjutan terhadap hipotesis nol . Tidak ada nilai tetap tertentu di mana hasilnya menjadi 'signifikan'. Cara saya biasanya mencoba menyampaikan hal ini kepada orang-orang adalah dengan menunjukkan bahwa, untuk semua maksud dan tujuan, p = .049 dan p = .051 merupakan jumlah bukti yang identik terhadap hipotesis nol (lihat jawaban @ Henrik di sini ) .

Di sisi lain, Neyman & Pearson berpikir Anda dapat menggunakan nilai-p sebagai bagian dari proses pengambilan keputusan yang diformalkan . Pada akhir penyelidikan Anda, Anda harus menolak hipotesis nol, atau gagal menolak hipotesis nol. Selain itu, hipotesis nol bisa benar atau tidak benar. Dengan demikian, ada empat kemungkinan teoretis (walaupun dalam situasi tertentu, hanya ada dua): Anda dapat membuat keputusan yang benar (gagal untuk menolak yang benar - atau menolak hipotesis yang salah - nol), atau Anda dapat membuat jenis Saya atau tipe II kesalahan (dengan menolak nol benar, atau gagal untuk menolak hipotesis nol palsu, masing-masing). (Perhatikan bahwa nilai p tidak sama dengan tingkat kesalahan tipe I, yang saya bahas di sini.) Nilai-p memungkinkan proses memutuskan apakah akan menolak hipotesis nol untuk diformalkan atau tidak. Dalam kerangka Neyman-Pearson, prosesnya akan berjalan seperti ini: ada hipotesis nol bahwa orang akan percaya secara default dengan tidak adanya bukti yang cukup untuk sebaliknya, dan hipotesis alternatif yang Anda percaya mungkin benar sebagai gantinya. Ada beberapa tingkat kesalahan jangka panjang yang akan Anda jalani (perhatikan bahwa tidak ada alasan ini harus 5% dan 20%). Dengan adanya hal-hal ini, Anda merancang penelitian Anda untuk membedakan antara dua hipotesis sambil mempertahankan, paling banyak, tingkat kesalahan, dengan melakukan analisis kekuatan dan melakukan studi Anda sesuai. (Biasanya, ini berarti memiliki data yang cukup.) Setelah studi Anda selesai, Anda membandingkan nilai p Anda denganαdan tolak hipotesis nol jika ; jika tidak, Anda gagal menolak hipotesis nol. Either way, studi Anda selesai dan Anda telah membuat keputusan. p<α

Pendekatan Fisherian dan Neyman-Pearson tidak sama . Pendapat utama dari kerangka kerja Neyman-Pearson adalah bahwa pada akhir studi Anda, Anda harus membuat keputusan dan berjalan pergi. Diduga, seorang peneliti pernah mendekati Fisher dengan hasil 'tidak signifikan', menanyakan apa yang harus ia lakukan, dan Fisher berkata, 'dapatkan lebih banyak data'.


Secara pribadi, saya menemukan logika elegan dari pendekatan Neyman-Pearson sangat menarik. Tapi saya tidak berpikir itu selalu tepat. Menurut saya, setidaknya dua syarat harus dipenuhi sebelum kerangka kerja Neyman-Pearson harus dipertimbangkan:

  1. Seharusnya ada beberapa hipotesis alternatif spesifik ( besarnya efek ) yang Anda pedulikan karena suatu alasan. (Saya tidak peduli apa ukuran efeknya, apa alasan Anda, apakah itu beralasan atau koheren, dll., Hanya Anda yang memilikinya.)
  2. Harus ada beberapa alasan untuk curiga bahwa efeknya akan 'signifikan', jika hipotesis alternatif itu benar. (Dalam praktiknya, ini biasanya berarti bahwa Anda melakukan analisis kekuatan, dan memiliki cukup data.)

Ketika kondisi ini tidak terpenuhi, nilai-p masih dapat ditafsirkan sesuai dengan ide-ide Fisher. Selain itu, tampaknya bagi saya bahwa sebagian besar waktu kondisi ini tidak terpenuhi. Berikut adalah beberapa contoh mudah yang datang ke pikiran, di mana tes dijalankan, tetapi kondisi di atas tidak terpenuhi:

  • omnibus ANOVA untuk model regresi berganda (dimungkinkan untuk mencari tahu bagaimana semua parameter kemiringan non-nol yang dihipotesiskan bersatu untuk membuat parameter non-sentralitas untuk distribusi F , tetapi itu tidak intuitif dari jarak jauh, dan saya ragu ada orang melakukannya)
  • nilai uji Shapiro-Wilk dari normalitas residu Anda dalam analisis regresi (berapa besar yang Anda pedulikan dan mengapa? berapa banyak daya yang Anda miliki untuk menolak nol ketika besaran itu benar?) W
  • nilai tes homogenitas varians (misalnya, tes Levene ; komentar yang sama seperti di atas)
  • tes lain untuk memeriksa asumsi, dll.
  • t-tes kovariat selain variabel penjelas minat utama dalam penelitian
  • penelitian awal / eksplorasi (mis., studi pendahuluan)
gung - Reinstate Monica
sumber
Meskipun ini adalah topik yang lebih tua, jawabannya sangat dihargai. +1
Stijn
+1 Jawaban bagus! Saya terkesan dengan kemampuan Anda untuk menjelaskan konsep-konsep ini sedemikian ringkas.
COOLSerdash
1
Ini adalah jawaban yang sangat luar biasa, @ungung
Patrick S. Forscher
5
AFAIK Neyman-Pearson tidak menggunakan nilai p Fisherian dan dengan demikian kriteria "p <alpha". Apa yang Anda sebut "Neyman-Pearson" sebenarnya adalah "pengujian signifikansi Null-hipotesis" (hibrida Fisher dan NP), bukan teori keputusan murni Neyman-Pearson.
Frank
"Jika nilai referensi adalah parameter populasi sebenarnya." Lebih tepatnya, itu "jika distribusi probabilitas adalah apa yang ditentukan dalam hipotesis nol". Hipotesis nol tidak hanya merinci statistik ringkasan seperti rata-rata, tetapi menetapkan seluruh distribusi probabilitas. Seringkali keluarga distribusi dianggap implisit (mis. Distribusi normal), pada titik mana menentukan parameter menentukan distribusi.
Akumulasi
18

Kepraktisan ada di mata yang melihatnya, tetapi;

  • Pengujian signifikansi Fisher dapat diinterpretasikan sebagai cara untuk memutuskan apakah data menunjukkan sinyal yang menarik atau tidak. Kami menolak hipotesis nol (yang mungkin merupakan kesalahan Tipe I) atau tidak mengatakan apa-apa sama sekali. Misalnya, dalam banyak aplikasi 'omics' modern, interpretasi ini cocok; kami tidak ingin membuat terlalu banyak kesalahan Tipe I, kami ingin mengeluarkan sinyal yang paling menarik, meskipun kami mungkin kehilangan beberapa.

  • Hipotesis Neyman-Pearson masuk akal ketika ada dua alternatif yang terpisah (misalnya Higgs Boson ada atau tidak ada) di antara yang kita putuskan. Seperti halnya risiko kesalahan Tipe I, di sini kita juga bisa membuat kesalahan Tipe II - ketika ada sinyal nyata tetapi kita mengatakan itu tidak ada di sana, membuat keputusan 'nol'. Argumen NP adalah bahwa, tanpa membuat terlalu banyak tingkat kesalahan tipe I, kami ingin meminimalkan risiko kesalahan Tipe II.

Seringkali, sistem tidak akan tampak sempurna - misalnya Anda mungkin hanya menginginkan estimasi titik dan ukuran ketidakpastian yang sesuai. Juga, mungkin tidak masalah versi mana yang Anda gunakan, karena Anda melaporkan nilai p dan memberikan interpretasi tes kepada pembaca. Tetapi untuk memilih antara pendekatan di atas, identifikasi apakah (atau tidak) kesalahan Tipe II relevan dengan aplikasi Anda.

tamu
sumber
5

Intinya adalah Anda tidak dapat mengabaikan perbedaan filosofis. Prosedur matematika dalam statistik tidak hanya berdiri sendiri sebagai sesuatu yang Anda terapkan tanpa beberapa hipotesis, asumsi, teori ... filosofi yang mendasarinya.

Yang mengatakan, jika Anda bersikeras berpegang pada filosofi yang sering muncul mungkin ada beberapa jenis masalah yang sangat spesifik di mana Neyman-Pearson benar-benar perlu dipertimbangkan. Mereka semua termasuk dalam kelas pengujian berulang seperti kontrol kualitas atau fMRI. Pengaturan alpha tertentu sebelumnya dan mempertimbangkan seluruh Tipe I, Tipe II, dan kerangka kerja daya menjadi lebih penting dalam pengaturan itu.

John
sumber
Saya tidak bersikeras berpegang pada statistik sering, tetapi saya hanya ingin tahu apakah ada situasi di mana mengadopsi sudut pandang Fisher atau Neyman-Pearson mungkin alami. Saya tahu ada perbedaan filosofis, tetapi mungkin ada juga sisi praktis yang harus dipertimbangkan?
Stijn
3
OK, well cukup banyak hanya apa yang saya katakan ... Neyman-Pearson benar-benar prihatin dengan situasi di mana Anda melakukan banyak dan banyak tes tanpa dasar teoretis nyata untuk masing-masing. Sudut pandang Fisher tidak benar-benar membahas masalah itu.
John
1

Pemahaman saya adalah: nilai-p adalah untuk memberi tahu kita apa yang harus dipercaya (memverifikasi teori dengan data yang memadai) sementara pendekatan Neyman-Pearson adalah untuk memberi tahu kita apa yang harus dilakukan (membuat keputusan sebaik mungkin walaupun dengan data terbatas). Jadi nampak bagi saya bahwa nilai p (kecil) lebih ketat sedangkan pendekatan Neyman-Pearson lebih pragmatis; Itu mungkin mengapa nilai-p lebih banyak digunakan dalam menjawab pertanyaan ilmiah sementara Neyman dan Pearson lebih banyak digunakan dalam membuat keputusan statistik / praktis.

chaohuang
sumber