Apakah "hibrid" antara Fisher dan Neyman-Pearson pendekatan untuk pengujian statistik benar-benar "mishmash tidak koheren"?

56

Ada aliran pemikiran tertentu yang dengannya pendekatan paling luas untuk pengujian statistik adalah "hibrida" antara dua pendekatan: yaitu pendekatan Fisher dan pendekatan Neyman-Pearson; kedua pendekatan ini, menurut klaim, adalah "tidak kompatibel" dan karenanya "hibrida" yang dihasilkan adalah "mishmash yang tidak koheren". Saya akan memberikan daftar pustaka dan beberapa kutipan di bawah ini, tetapi untuk sekarang cukup mengatakan bahwa ada banyak yang ditulis tentang itu dalam artikel wikipedia tentang pengujian hipotesis statistik . Di sini, di CV, poin ini berulang kali dibuat oleh @Michael Lew (lihat di sini dan di sini ).

Pertanyaan saya adalah: mengapa pendekatan F dan NP diklaim tidak kompatibel dan mengapa hibrida diklaim tidak koheren? Perhatikan bahwa saya membaca setidaknya enam makalah anti-hibrida (lihat di bawah), tetapi masih gagal memahami masalah atau argumennya. Perhatikan juga, bahwa saya tidak menyarankan untuk berdebat jika F atau NP adalah pendekatan yang lebih baik; saya juga tidak menawarkan untuk membahas kerangka kerja frequentis vs Bayesian. Alih-alih, pertanyaannya adalah: menerima bahwa F dan NP keduanya merupakan pendekatan yang valid dan bermakna, apa yang buruk dari hibrida mereka?


Inilah cara saya memahami situasinya. Pendekatan Fisher adalah untuk menghitung nilai dan menganggapnya sebagai bukti terhadap hipotesis nol. Semakin kecil nilai , semakin meyakinkan bukti. Peneliti seharusnya menggabungkan bukti ini dengan latar belakang pengetahuannya, memutuskan apakah itu cukup meyakinkan , dan melanjutkannya. (Perhatikan bahwa pandangan Fisher berubah selama bertahun-tahun, tetapi inilah yang kelihatannya akhirnya ia konvergen.) Sebaliknya, pendekatan Neyman-Pearson adalah memilih sebelumnya dan kemudian memeriksa apakahp α p αppαpα; jika demikian, sebut itu signifikan dan tolak hipotesis nol (di sini saya menghilangkan sebagian besar cerita NP yang tidak memiliki relevansi dengan diskusi saat ini). Lihat juga jawaban yang sangat baik oleh @gung di Kapan menggunakan kerangka kerja Fisher dan Neyman-Pearson?

Pendekatan hybrid adalah untuk menghitung nilai- , melaporkannya (secara implisit mengasumsikan bahwa semakin kecil semakin baik), dan juga menyebut hasil yang signifikan jika (biasanya ) dan tidak signifikan jika tidak. Ini seharusnya tidak koheren. Bagaimana bisa tidak valid untuk melakukan dua hal yang valid secara bersamaan, mengalahkan saya.p α α = 0,05ppαα=0.05

Sebagai sangat tidak koheren, anti-hibridis memandang praktik luas pelaporan nilai sebagai , , atau (atau bahkan ), di mana selalu dipilih ketimpangan yang paling kuat. Argumennya adalah bahwa (a) kekuatan bukti tidak dapat dinilai dengan tepat karena tepat tidak dilaporkan, dan (b) orang cenderung menafsirkan angka kanan dalam ketidaksetaraan sebagai dan melihatnya sebagai kesalahan tipe I menilai, dan itu salah. Saya gagal melihat masalah besar di sini. Pertama, melaporkan tepat tentu saja merupakan praktik yang lebih baik, tetapi tidak ada yang benar-benar peduli jika adalah mis ataup < 0,05 p < 0,01 p < 0,001 p 0,0001 p α p p 0,02 0,03 0,0001 0,05 α = 0,05 p α αpp<0.05p<0.01p<0.001p0.0001pαpp0.020.03 , jadi membulatkannya pada skala log tidak terlalu buruk (dan pergi di bawah tidak masuk akal, lihat Bagaimana seharusnya nilai-p kecil dilaporkan? ). Kedua, jika konsensus menyebut semuanya di bawah signifikan, maka tingkat kesalahan adalah dan , seperti yang dijelaskan @gung dalam Interpretasi nilai-p dalam pengujian hipotesis . Meskipun ini berpotensi masalah yang membingungkan, itu tidak membuat saya lebih membingungkan daripada masalah lain dalam pengujian statistik (di luar hibrida). Juga, setiap pembaca dapat memiliki favoritnya sendiri dalam pikiran ketika membaca kertas hibrida, dan sebagai akibatnya tingkat kesalahannya sendiri.0.00010.05α=0.05pααJadi apa masalahnya?

Salah satu alasan saya ingin mengajukan pertanyaan ini adalah karena benar-benar menyakitkan untuk melihat berapa banyak artikel wikipedia tentang pengujian hipotesis statistik yang ditujukan untuk mencerca hibrida. Mengikuti Halpin & Stam, ia mengklaim bahwa yang pasti disalahkan oleh Lindquist (bahkan ada pemindaian besar pada buku teksnya dengan "kesalahan" yang disorot dengan warna kuning), dan tentu saja artikel wiki tentang Lindquist sendiri dimulai dengan tuduhan yang sama. Tapi kemudian, mungkin saya kehilangan sesuatu.


Referensi

Tanda kutip

Gigerenzer: Apa yang telah dilembagakan sebagai statistik inferensial dalam psikologi bukanlah statistik Fisher. Ini adalah mishmash yang membingungkan dari beberapa ide Fisher di satu sisi, dan beberapa ide Neyman dan ES Pearson di sisi lain. Saya menyebut perpaduan ini sebagai "logika hibrid" dari inferensi statistik.

Goodman: The [Neyman-Pearson] pendekatan uji hipotesis menawarkan para ilmuwan tawaran Faustian - cara yang tampaknya otomatis untuk membatasi jumlah kesimpulan yang salah dalam jangka panjang, tetapi hanya dengan meninggalkan kemampuan untuk mengukur bukti [a Fisher] dan menilai kebenaran dari satu percobaan.

Hubbard & Bayarri: Pengujian statistik klasik adalah hibrida anonim dari pendekatan yang bersaing dan sering bertentangan [...]. Secara khusus, ada kegagalan luas untuk menghargai ketidakcocokan nilai bukti Fisher dengan tingkat kesalahan Tipe I, , dari ortodoksi statistik Neyman-Pearson. [...] Sebagai contoh utama dari kebingungan yang timbul dari [ini] pencampuran [...], mempertimbangkan fakta secara luas dihargai bahwa mantan value adalah kompatibelα ppαpdengan uji hipotesis Neyman-Pearson di mana ia menjadi tertanam. [...] Misalnya, Gibbons dan Pratt [...] secara keliru menyatakan: "Melaporkan nilai-P, apakah tepat atau dalam suatu interval, pada dasarnya memungkinkan setiap individu untuk memilih tingkat signifikansinya sendiri sebagai probabilitas maksimum yang dapat ditoleransi dari kesalahan Tipe I. "

Halpin & Stam: Teks Lindquist 1940 adalah sumber asli hibridisasi dari pendekatan Fisher dan Neyman-Pearson. [...] Daripada mengikuti interpretasi tertentu dari pengujian statistik, psikolog tetap ambivalen tentang, dan memang sebagian besar tidak menyadari, kesulitan konseptual yang terlibat oleh kontroversi Fisher dan Neyman-Pearson.

Lew: Apa yang kita miliki adalah pendekatan hibrid yang tidak mengontrol tingkat kesalahan atau memungkinkan penilaian kekuatan bukti.

amuba kata Reinstate Monica
sumber
+1 untuk pertanyaan yang diteliti dengan baik ini (bahkan jika lama). Mungkin akan membantu saya berpikir untuk terus menentukan apa yang sebenarnya membingungkan. Apakah cukup untuk mengetahui bahwa untuk Fisher tidak ada hipotesis alternatif sama sekali sedangkan untuk NP dunia kemungkinan habis dengan nol dan alternatif? Tampaknya cukup membingungkan bagi saya tetapi sayangnya saya melakukan hal hibrida sepanjang waktu karena Anda tidak dapat menghindari, jadi sudah mendarah daging.
Momo
2
@Momo: untuk pertanyaan Anda tentang "apa yang sebenarnya membingungkan" - yah, membingungkan adalah kegilaan dari retorika anti-hybrid. "Kecelakaan incoherent" adalah kata-kata yang kuat, jadi saya ingin melihat ketidakkonsistenan yang sangat buruk. Apa yang Anda katakan tentang hipotesis alternatif tidak terdengar seperti itu bagi saya (dalam kasus varietas kebun alternatifnya jelas , dan saya tidak melihat banyak ruang untuk inkonsistensi), tetapi jika saya kehilangan poin Anda, maka mungkin Anda ingin memberikannya sebagai jawaban. H 1 : μ 0H0:μ=0H1:μ0
Amuba mengatakan Reinstate Monica
2
Baru saja membaca Lew (dan menyadari bahwa saya pernah membacanya sebelumnya, mungkin sekitar 2006), saya merasa cukup baik, tetapi saya tidak berpikir itu mewakili bagaimana saya menggunakan nilai-p. Tingkat signifikansi saya - pada kesempatan yang jarang saya gunakan pengujian hipotesis sama sekali * - selalu di depan, dan di mana saya memiliki kendali atas ukuran sampel, setelah pertimbangan daya, pertimbangan biaya dua jenis kesalahan dan sebagainya - dasarnya Neyman-Pearson. Saya masih mengutip nilai-p, tetapi tidak dalam kerangka pendekatan Fisher .... (
ctd
2
(ctd) ... * (Saya sering menjauhkan orang dari pengujian hipotesis - begitu sering pertanyaan aktual mereka terkait dengan mengukur efek, dan lebih baik dijawab dengan membangun interval). Masalah spesifik yang diangkat Lew untuk prosedur 'hibrid' berlaku untuk sesuatu yang tidak saya lakukan dan cenderung memperingatkan orang-orang agar tidak melakukannya. Jika ada orang yang benar-benar melakukan campuran pendekatan yang disiratkannya, makalah itu tampaknya baik-baik saja. Diskusi awal tentang makna nilai-p dan sejarah pendekatan tampaknya sangat baik.
Glen_b
1
@ Glen_b, ikhtisar sejarah Lew sangat bagus dan jelas, saya sepenuhnya setuju. Masalah saya secara khusus dengan masalah hibrid (bagian "Pendekatan mana yang paling banyak digunakan?"). Tentu saja ada yang orang yang melakukan apa yang disebutnya ada, yaitu melaporkan terkuat p <0,001, <0,01, atau <0,05; Saya melihatnya sepanjang waktu dalam ilmu saraf. Pertimbangkan salah satu kasus ketika Anda menggunakan pengujian. Anda memilih misalnya alpha = .05, dan ikuti kerangka kerja NP. Ketika Anda mendapatkan p = .00011, apakah kepastian Anda tentang H1 dan pilihan kata-kata Anda akan berbeda dari ketika Anda akan mendapatkan p = .049? Jika demikian, itu adalah hybrid! Jika tidak, bagaimana bisa?
Amuba kata Reinstate Monica

Jawaban:

16

Saya percaya makalah, artikel, posting dll yang Anda rajin kumpulkan, berisi cukup informasi dan analisis tentang di mana dan mengapa kedua pendekatan berbeda. Tetapi menjadi berbeda bukan berarti tidak cocok .

Masalah dengan "hibrida" adalah bahwa itu adalah hibrida dan bukan sintesis , dan inilah mengapa ini diperlakukan oleh banyak orang sebagai hybris , jika Anda memaafkan permainan kata.
Bukan sebagai sintesis, itu tidak berusaha untuk menggabungkan perbedaan dari dua pendekatan, dan baik menciptakan satu pendekatan terpadu dan konsisten secara internal, atau menjaga kedua pendekatan dalam gudang ilmiah sebagai alternatif pelengkap, untuk menghadapi lebih efektif dengan sangat kompleks dunia yang kami coba analisis melalui Statistik (untungnya, hal terakhir inilah yang tampaknya terjadi dengan perang saudara besar lainnya di bidang ini, yang sering terjadi-bayesian).

Ketidakpuasan dengan hal itu saya percaya berasal dari fakta bahwa itu memang menciptakan kesalahpahaman dalam menerapkan alat statistik dan menafsirkan hasil statistik , terutama oleh para ilmuwan yang bukan ahli statistik , kesalahpahaman yang mungkin memiliki efek yang sangat serius dan merusak (berpikir tentang lapangan) obat membantu memberikan masalah nada dramatis yang sesuai). Saya percaya, penerapan yang keliru ini, diterima secara luas sebagai fakta - dan dalam pengertian itu, sudut pandang "anti-hibrida" dapat dianggap tersebar luas (setidaknya karena konsekuensi yang dimilikinya, jika bukan karena masalah metodologisnya).

Saya melihat evolusi masalah sejauh ini sebagai kecelakaan historis (tapi saya tidak memiliki nilai atau daerah penolakan untuk hipotesis saya), karena pertempuran yang tidak menguntungkan antara para pendiri. Fisher dan Neyman / Pearson telah berperang dengan sengit dan secara publik selama beberapa dekade atas pendekatan mereka. Ini menciptakan kesan bahwa ini adalah masalah dikotomis: pendekatan yang satu harus "benar", dan yang lain harus "salah".p

Saya percaya, hibrida muncul dari kesadaran bahwa tidak ada jawaban yang mudah seperti itu, dan bahwa ada fenomena dunia nyata di mana pendekatan yang satu lebih cocok daripada yang lain (lihat posting ini untuk contoh seperti itu, menurut saya di paling tidak, di mana pendekatan Nelayan tampaknya lebih cocok). Tapi alih-alih menjaga keduanya "terpisah dan siap untuk bertindak", mereka agak ditambal bersama.

Saya menawarkan sumber yang merangkum pendekatan "alternatif komplementer" ini: Spanos, A. (1999). Teori probabilitas dan inferensi statistik: pemodelan ekonometrik dengan data observasi. Cambridge University Press. , ch. 14 , khususnya Bagian 14.5, di mana setelah menyajikan secara formal dan jelas dua pendekatan, penulis berada dalam posisi untuk menunjukkan perbedaan mereka dengan jelas, dan juga berpendapat bahwa mereka dapat dilihat sebagai alternatif yang saling melengkapi.

Alecos Papadopoulos
sumber
6
(+1) Saya menghargai komentar Anda dan setuju dengan banyak dari mereka. Tetapi saya tidak yakin apa yang sebenarnya Anda maksud ketika Anda mengatakan bahwa hibrida "menciptakan kesalahpahaman" (dan lebih lanjut, bahwa ini "diterima secara luas sebagai fakta"). Bisakah Anda memberikan beberapa contoh? Untuk menjadi serangan terhadap hibrida, itu harus menjadi contoh kesalahpahaman yang tidak muncul dalam pendekatan F atau NP saja. Apakah Anda mengacu pada potensi kebingungan antara dan yang saya sebutkan dalam pertanyaan saya, atau ke hal lain? Selain itu, saya sudah membaca Bagian 14.5 di Spanos, terima kasih. αpα
Amuba kata Reinstate Monica
6
Masalah yang jelas memang masalah . Lebih halus dan saya percaya lebih penting, adalah fakta bahwa hibrida mencampurkan rasa eksplorasi Fisher (yang lebih jauh meninggalkan masalah keputusan kepada peneliti), dengan pendekatan NP yang lebih formal. Jadi para peneliti mendekati masalah ini dalam semangat Nelayan, tetapi kemudian mengklaim bobot "penolakan / penerimaan" yang kuat dari pendekatan NP, yang pada prinsipnya memberikan kredibilitas yang lebih besar pada kesimpulan. CONTDpα
Alecos Papadopoulos
6
CONTD Bagi saya, ini adalah masalah "menggunakan kue Anda dan memakannya juga" dari pendekatan hybrid. Sebagai contoh, pendekatan NP tanpa perhitungan uji daya harus tidak terpikirkan, tetapi sepanjang waktu kita melihat tes yang diajukan dalam kerangka kerja NP, tetapi tidak disebutkan tentang perhitungan daya.
Alecos Papadopoulos
Di luar topik, tetapi ... Karena Anda mengutip Aris Spanos, saya ingin tahu apakah Anda mungkin dapat menjawab pertanyaan ini tentang metodologinya? (Saya pernah mengajukan pertanyaan kepada Aris Spanos secara langsung, dan dia dengan baik hati berusaha menjawabnya. Sayangnya, jawabannya dalam bahasa yang sama dengan makalahnya, sehingga tidak banyak membantu saya.)
Richard Hardy
13

Saya sendiri mengambil pertanyaan saya adalah bahwa tidak ada yang tidak koheren dalam pendekatan hybrid (yaitu diterima). Tetapi karena saya tidak yakin apakah saya mungkin gagal memahami validitas argumen yang disajikan dalam makalah anti-hibrida, saya senang menemukan diskusi yang diterbitkan bersama dengan makalah ini:

Sayangnya, dua balasan yang diterbitkan sebagai diskusi tidak diformat sebagai artikel terpisah sehingga tidak dapat dikutip dengan benar. Namun, saya ingin mengutip dari keduanya:

Berk: Tema Bagian 2 dan 3 tampaknya adalah bahwa Fisher tidak menyukai apa yang dilakukan Neyman dan Pearson, dan Neyman tidak menyukai apa yang dilakukan Fisher, dan oleh karena itu kita tidak boleh melakukan apa pun yang menggabungkan kedua pendekatan. Tidak ada yang lolos dari premis di sini, tetapi alasannya lolos dari saya.

Carlton:para penulis bersikeras bahwa sebagian besar kebingungan berasal dari pernikahan ide Fisher dan Neyman-Pearsonian, bahwa pernikahan seperti itu adalah kesalahan bencana pada pihak ahli statistik modern [...] Kesalahan tipe I tidak bisa hidup berdampingan di alam semesta yang sama. Tidak jelas apakah penulis telah memberikan alasan substantif mengapa kita tidak dapat mengucapkan "nilai p" dan "Kesalahan Tipe I" dalam kalimat yang sama. [...] "Fakta" dari ketidakcocokan [F dan NP] mereka datang sebagai berita mengejutkan bagi saya, karena saya yakin itu terjadi pada ribuan ahli statistik yang berkualifikasi yang membaca artikel tersebut. Para penulis bahkan tampaknya menyarankan bahwa di antara alasan statistik sekarang harus menceraikan dua ide ini adalah bahwa Fisher dan Neyman tidak saling menyukai (atau saling ' filosofi tentang pengujian). Saya selalu melihat praktik kami saat ini, yang mengintegrasikan filosofi Fisher dan Neyman dan memungkinkan diskusi tentang nilai P dan kesalahan Tipe I - meskipun tentu saja tidak paralel - sebagai salah satu kemenangan disiplin ilmu kami yang lebih besar.

Kedua tanggapan tersebut sangat layak dibaca. Ada juga jawaban oleh penulis asli, yang tidak terdengar meyakinkan kepada saya sama sekali .

amuba kata Reinstate Monica
sumber
1
Ini adalah satu hal untuk hidup berdampingan, itu adalah hal lain untuk yang satu dianggap sebagai yang lain. Namun memang, untaian pendekatan anti-hibrida ini dalam semangat "tidak mungkin ada sintesis apa pun" - yang sangat tidak saya setujui. Tapi saya tidak melihat hibrida saat ini sebagai pernikahan yang sukses .
Alecos Papadopoulos
2
@Bar, terima kasih atas komentar Anda, ini menarik, tapi saya ingin menahan diri dari diskusi lebih lanjut di sini. Saya lebih suka mendorong Anda untuk mengirim jawaban baru, jika Anda mau. Tetapi jika Anda memutuskan untuk melakukannya, cobalah untuk fokus pada masalah utama, yaitu: apa yang sangat buruk tentang "hibrida", dibandingkan dengan Fisher dan NP saja. Anda tampaknya membenci seluruh pendekatan pengujian signifikansi, "nol hipotesis nol", dll., Tetapi bukan ini pertanyaannya!
Amoeba berkata Reinstate Monica
1
@Livid: Hmmm, bisakah Anda benar-benar mengklarifikasi mengapa Anda mengatakan bahwa ini adalah karakteristik pembeda dari hibrida? Apa yang akan null dalam Fisher murni atau NP murni? Katakanlah Anda memiliki dua kelompok dan ingin menguji perbedaan yang signifikan ("nihil nol"). Tidak bisakah seseorang mendekati situasi ini dengan ketiga pendekatan: Fisher murni, NP murni, dan hibrida?
Amuba mengatakan Reinstate Monica
2
@Bagi, saya mengerti argumen Anda terhadap nol nol, saya hanya berpikir bahwa masalah ini ortogonal dengan masalah hibrida. Saya harus menyegarkan kertas anti-hibrida dalam memori, tetapi sejauh yang saya ingat kritik mereka terhadap hibrida sama sekali tidak berpusat pada nol nol. Sebaliknya, ini tentang menggabungkan Fisher dan NP. Sekali lagi, jika Anda tidak setuju dengan ini, silakan pertimbangkan untuk mengirim jawaban; untuk saat ini, mari kita berhenti di situ.
Amoeba berkata Reinstate Monica
2
Catatan untuk diri saya sendiri: Saya harus memasukkan ke dalam jawaban ini beberapa kutipan dari makalah ini: Lehmann 1992, The Fisher, Neyman-Pearson Teori Pengujian Hipotesis: Satu Teori atau Dua?
Amuba mengatakan Reinstate Monica
8

Saya khawatir bahwa respons nyata terhadap pertanyaan luar biasa ini akan membutuhkan kertas lengkap. Namun, berikut adalah beberapa poin yang tidak ada dalam pertanyaan atau jawaban saat ini.

  1. Tingkat kesalahan 'milik' prosedur tetapi bukti 'milik' hasil eksperimen. Dengan demikian dimungkinkan dengan prosedur multi-tahap dengan aturan pemberhentian berurutan untuk memiliki hasil dengan bukti yang sangat kuat terhadap hipotesis nol tetapi hasil tes hipotesis tidak signifikan. Itu bisa dianggap sebagai ketidakcocokan yang kuat.

  2. Jika Anda tertarik pada ketidaksesuaian, Anda harus tertarik pada filosofi yang mendasarinya. Kesulitan filosofis datang dari pilihan antara kepatuhan dengan Prinsip Kemungkinan dan kepatuhan dengan Prinsip Pengambilan Sampel Berulang. LP mengatakan secara kasar bahwa, mengingat model statistik, bukti dalam dataset yang relevan dengan parameter bunga sepenuhnya terkandung dalam fungsi kemungkinan yang relevan. RSP mengatakan bahwa seseorang harus memilih tes yang memberikan tingkat kesalahan dalam jangka panjang yang sama dengan nilai nominalnya.

Michael Lew
sumber
3
Monografi JO Berger dan RL Wolpert "The Likelihood Principle" (edisi ke-2 1988), adalah penjelasan yang tenang, seimbang, dan bagus dari poin 2., menurut pendapat saya.
Alecos Papadopoulos
5
Berger dan Wolpert memang eksposisi yang baik, dan juga otoritatif. Namun, saya lebih suka buku yang lebih praktis diarahkan dan kurang matematis "Kemungkinan" oleh AWF Edwards. Masih dicetak, saya pikir. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Michael Lew
2
@MichaelLew telah menjelaskan bahwa penggunaan nilai p yang valid adalah ringkasan ukuran efek. Dia telah melakukan hal yang luar biasa dengan menulis makalah ini: arxiv.org/abs/1311.0081
Livid
@Livid Makalah ini sangat menarik, tetapi bagi pembaca baru perlu dicatat hal berikut: ide utama, bahwa nilai p 'indeks' (mungkin: ada dalam satu ke satu hubungan dengan) fungsi kemungkinan, umumnya dipahami salah karena ada kasus di mana kemungkinan yang sama sesuai dengan nilai-p yang berbeda tergantung pada skema pengambilan sampel. Masalah ini dibahas sedikit di koran, tetapi pengindeksan adalah posisi yang sangat tidak biasa (yang tentu saja tidak membuatnya salah, tentu saja).
conjugateprior
8

Persatuan yang sering terlihat (dan seharusnya diterima) (atau lebih baik: "hibrid") antara dua pendekatan adalah sebagai berikut:

  1. Setel level yang ditentukan sebelumnya (0,05 say)α
  2. Kemudian uji hipotesis Anda, misalnya vs.H 1 : μ 0Ho:μ=0H1:μ0
  3. Nyatakan nilai p dan rumuskan keputusan Anda berdasarkan level :α

    Jika nilai p yang dihasilkan di bawah , bisa dibilangα

    • "Saya menolak " atauHo
    • "Saya menolak " mendukung "atauH 1HoH1
    • "Saya yakin bahwa memegang"H 1100%(1α)H1

    Jika nilai p tidak cukup kecil, Anda akan mengatakan

    • "Saya tidak bisa menolak " atauHo
    • "Saya tidak bisa menolak demi "H 1HoH1

Di sini, aspek-aspek dari Neyman-Pearson adalah:

  • Anda memutuskan sesuatu
  • Anda memiliki hipotesis alternatif yang ada (walaupun itu adalah kebalikan dari )Ho
  • Anda tahu tingkat kesalahan tipe I

Aspek nelayan adalah:

  • Anda menyatakan nilai p. Pembaca mana pun memiliki kemungkinan untuk menggunakan levelnya sendiri (mis. Mengoreksi secara ketat untuk beberapa pengujian) untuk keputusan
  • Pada dasarnya, hanya hipotesis nol yang diperlukan karena alternatifnya justru sebaliknya
  • Anda tidak tahu tingkat kesalahan tipe II. (Tapi Anda bisa langsung mendapatkannya untuk nilai spesifik )μ0

TAMBAHAN

Meskipun baik untuk mengetahui diskusi tentang masalah filosofis dari pendekatan Fisher, NP atau hibrida ini (seperti yang diajarkan dalam kegilaan oleh sebagian orang), ada banyak masalah yang lebih relevan dalam statistik untuk dilawan:

  • Mengajukan pertanyaan yang tidak informatif (seperti pertanyaan ya / tidak biner alih-alih pertanyaan kuantitatif "berapa banyak", yaitu menggunakan tes alih-alih interval kepercayaan)
  • Metode analisis yang didorong data yang mengarah pada hasil yang bias (regresi bertahap, pengujian asumsi dll)
  • Memilih tes atau metode yang salah
  • Salah mengartikan hasil
  • Menggunakan statistik klasik untuk sampel non-acak
Michael M.
sumber
1
(+1) Ini adalah deskripsi yang baik tentang hibrida (dan mengapa tepatnya hibrida), tetapi Anda tidak secara eksplisit mengatakan apa evaluasi Anda tentang hibrida itu. Apakah Anda setuju bahwa apa yang Anda gambarkan adalah "mishmash yang tidak koheren"? Jika demikian, mengapa? Atau apakah menurut Anda itu prosedur yang masuk akal? Jika demikian, apakah orang-orang yang mengklaimnya tidak jelas ada benarnya, atau mereka salah?
Amuba mengatakan Reinstate Monica
1
Saya sering menguji hipotesis dengan cara yang persis seperti ini ... Tetapi ada mash mash lainnya yang tidak akan saya terima (misalnya tidak menunjukkan nilai p di atas ) dll.α
Michael M
4

menerima bahwa F dan NP keduanya merupakan pendekatan yang valid dan bermakna, apa yang buruk dari hibrida mereka?

Jawaban singkat: penggunaan nol (tidak ada perbedaan, tidak ada korelasi) nol hipotesis terlepas dari konteksnya. Segala sesuatu yang lain adalah "penyalahgunaan" oleh orang-orang yang telah menciptakan mitos untuk diri mereka sendiri tentang apa yang dapat dicapai proses tersebut. Mitos muncul dari orang-orang yang berusaha mendamaikan penggunaan kepercayaan mereka pada otoritas dan heuristik konsensus dengan ketidakmampuan prosedur untuk mengatasi masalah mereka.

Sejauh yang saya tahu Gerd Gigerenzer datang dengan istilah "hybrid":

Saya bertanya kepada penulis [penulis buku teks statistik terkemuka, yang bukunya melewati banyak edisi, dan yang namanya tidak penting] mengapa ia menghapus bab tentang Bayes serta kalimat tidak bersalah dari semua edisi berikutnya. “Apa yang membuatmu menyajikan statistik seolah-olah hanya memiliki satu palu, bukan kotak peralatan? Mengapa Anda mencampur teori Fisher dan Neyman – Pearson menjadi hibrida yang tidak konsisten yang akan ditolak oleh setiap ahli statistik yang baik? ”

Untuk kreditnya, saya harus mengatakan bahwa penulis tidak berusaha menyangkal bahwa ia telah menghasilkan ilusi bahwa hanya ada satu alat. Tetapi dia memberi tahu saya siapa yang harus disalahkan atas ini. Ada tiga penyebab: rekan peneliti, administrasi universitas, dan penerbitnya. Sebagian besar peneliti, menurutnya, tidak benar-benar tertarik pada pemikiran statistik, tetapi hanya pada bagaimana mempublikasikan makalah mereka [...]

Ritual nol:

  1. Tetapkan hipotesis nol statistik "tidak ada perbedaan berarti" atau "korelasi nol." Jangan menentukan prediksi hipotesis penelitian Anda atau hipotesis substantif alternatif apa pun.

  2. Gunakan 5% sebagai konvensi untuk menolak nol. Jika signifikan, terima hipotesis penelitian Anda. Laporkan hasilnya sebagai , , atau (mana yang muncul di sebelah nilai diperoleh ).p < 0,01 p < 0,001 pp<0.05p<0.01p<0.001p

  3. Selalu lakukan prosedur ini.

Gigerenzer, G (November 2004). " Statistik tanpa pikiran ". Jurnal Sosial-Ekonomi 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.

Sunting: Dan kita harus selalu perlu menyebutkan, karena "hibrida" begitu licin dan tidak jelas, bahwa menggunakan nol nol untuk mendapatkan nilai-p baik-baik saja sebagai cara untuk membandingkan efek ukuran dengan ukuran sampel yang berbeda. Ini adalah aspek "tes" yang memperkenalkan masalah.

Sunting 2: @amoeba Nilai-p dapat dianggap baik sebagai statistik ringkasan, dalam hal ini hipotesis nol nol hanyalah tengara yang sewenang-wenang: http://arxiv.org/abs/1311.0081 . Namun, segera setelah Anda mulai mencoba menarik kesimpulan atau membuat keputusan (yaitu "menguji" hipotesis nol) itu berhenti masuk akal. Dalam contoh dua kelompok pembanding, kami ingin tahu perbedaan antara dua kelompok dan berbagai penjelasan yang mungkin ada untuk perbedaan besarnya dan jenisnya.

Nilai p dapat digunakan sebagai statistik ringkasan yang memberi tahu kita besarnya perbedaan. Namun, menggunakannya untuk "menyangkal / menolak" perbedaan nol tidak memiliki tujuan yang dapat saya katakan. Juga, saya pikir banyak dari rancangan penelitian ini yang membandingkan pengukuran rata-rata makhluk hidup pada satu titik waktu adalah salah arah. Kita harus mengamati bagaimana contoh-contoh individual dari sistem berubah dari waktu ke waktu, kemudian menghasilkan suatu proses yang menjelaskan pola yang diamati (termasuk perbedaan kelompok apa pun).

Marah
sumber
2
+1, Terima kasih atas jawaban Anda dan tautannya. Sepertinya saya belum membaca makalah ini, saya akan memeriksanya. Seperti yang saya katakan sebelumnya, saya mendapat kesan bahwa "nihil nol" adalah masalah ortogonal dengan masalah "hibrida", tetapi saya kira saya harus membaca kembali tulisan-tulisan Gigerenzer untuk memeriksanya. Akan mencoba mencari waktu di hari-hari berikutnya. Selain itu: bisakah Anda menjelaskan paragraf terakhir Anda ("edit")? Apakah saya mengerti benar bahwa Anda bermaksud memiliki nol nol ketika membandingkan dua ukuran efek tidak apa-apa, tetapi memiliki nol nol ketika membandingkan ukuran efek ke nol tidak baik?
Amuba kata Reinstate Monica
1

Saya melihat bahwa mereka yang memiliki keahlian lebih dari saya sendiri telah memberikan jawaban, tetapi saya pikir jawaban saya memiliki potensi untuk menambahkan sesuatu, jadi saya akan menawarkan ini sebagai perspektif orang awam lainnya.

Apakah pendekatan hibrida tidak koheren?   Saya akan mengatakan itu tergantung pada apakah atau tidak peneliti akhirnya bertindak tidak konsisten dengan aturan yang mereka mulai: khususnya aturan ya / tidak yang ikut bermain dengan pengaturan nilai alpha.

Kacau

Mulailah dengan Neyman-Pearson. Peneliti menetapkan alpha = 0,05, menjalankan percobaan, menghitung p = 0,052. Peneliti melihat nilai-p itu dan, dengan menggunakan inferensi Fisher (sering secara implisit), menganggap hasilnya cukup tidak sesuai dengan hipotesis pengujian sehingga mereka masih akan mengklaim "sesuatu" sedang terjadi. Hasilnya entah bagaimana "cukup baik" meskipun nilai p lebih besar dari nilai alpha. Seringkali ini dipasangkan dengan bahasa seperti "hampir signifikan" atau "cenderung menuju signifikansi" atau beberapa kata di sepanjang garis itu.

Namun, menetapkan nilai alfa sebelum menjalankan percobaan berarti bahwa seseorang telah memilih pendekatan perilaku induktif Neyman-Pearson. Memilih untuk mengabaikan nilai alfa itu setelah menghitung nilai-p, dan dengan demikian mengklaim sesuatu masih entah bagaimana menarik, melemahkan seluruh pendekatan yang dimulai dengan seseorang. Jika seorang peneliti memulai jalur A (Neyman-Pearson), tetapi kemudian melompat ke jalur lain (Fisher) setelah mereka tidak menyukai jalur yang mereka lalui, saya menganggap itu tidak koheren. Mereka tidak konsisten dengan aturan (tersirat) yang mereka mulai.

Koheren (mungkin)

Mulai dengan NP. Peneliti menetapkan alpha = 0,05, menjalankan percobaan, menghitung p = 0,0014. Peneliti mengamati bahwa p <alpha, dan dengan demikian menolak hipotesis uji (biasanya tidak ada efek nol) dan menerima hipotesis alternatif (efeknya nyata). Pada titik ini peneliti, selain memutuskan untuk memperlakukan hasil sebagai efek nyata (NP), memutuskan untuk menyimpulkan (Fisher) bahwa percobaan memberikan bukti yang sangat kuat bahwa efeknya nyata. Mereka telah menambahkan nuansa pada pendekatan yang mereka mulai, tetapi tidak bertentangan dengan aturan yang ditetapkan dengan memilih nilai alpha di awal.

Ringkasan

Jika seseorang mulai dengan memilih nilai alpha, maka seseorang telah memutuskan untuk mengambil jalur Neyman-Pearson dan mengikuti aturan untuk pendekatan itu. Jika mereka, pada suatu titik, melanggar aturan-aturan itu dengan menggunakan inferensi Fisher sebagai pembenaran, maka mereka telah bertindak secara tidak konsisten / tidak koheren.

Saya kira seseorang dapat melangkah lebih jauh dan menyatakan bahwa karena dimungkinkan untuk menggunakan hibrida secara tidak koheren, oleh karena itu pendekatan ini secara inheren tidak koheren, tetapi yang tampaknya semakin dalam ke dalam aspek filosofis, yang saya anggap saya tidak memenuhi syarat untuk bahkan menawarkan pendapat.

Kiat tip untuk Michael Lew. Artikelnya di tahun 2006 membantu saya memahami masalah ini lebih baik daripada sumber daya lainnya.

MichiganWater
sumber