Ada aliran pemikiran tertentu yang dengannya pendekatan paling luas untuk pengujian statistik adalah "hibrida" antara dua pendekatan: yaitu pendekatan Fisher dan pendekatan Neyman-Pearson; kedua pendekatan ini, menurut klaim, adalah "tidak kompatibel" dan karenanya "hibrida" yang dihasilkan adalah "mishmash yang tidak koheren". Saya akan memberikan daftar pustaka dan beberapa kutipan di bawah ini, tetapi untuk sekarang cukup mengatakan bahwa ada banyak yang ditulis tentang itu dalam artikel wikipedia tentang pengujian hipotesis statistik . Di sini, di CV, poin ini berulang kali dibuat oleh @Michael Lew (lihat di sini dan di sini ).
Pertanyaan saya adalah: mengapa pendekatan F dan NP diklaim tidak kompatibel dan mengapa hibrida diklaim tidak koheren? Perhatikan bahwa saya membaca setidaknya enam makalah anti-hibrida (lihat di bawah), tetapi masih gagal memahami masalah atau argumennya. Perhatikan juga, bahwa saya tidak menyarankan untuk berdebat jika F atau NP adalah pendekatan yang lebih baik; saya juga tidak menawarkan untuk membahas kerangka kerja frequentis vs Bayesian. Alih-alih, pertanyaannya adalah: menerima bahwa F dan NP keduanya merupakan pendekatan yang valid dan bermakna, apa yang buruk dari hibrida mereka?
Inilah cara saya memahami situasinya. Pendekatan Fisher adalah untuk menghitung nilai dan menganggapnya sebagai bukti terhadap hipotesis nol. Semakin kecil nilai , semakin meyakinkan bukti. Peneliti seharusnya menggabungkan bukti ini dengan latar belakang pengetahuannya, memutuskan apakah itu cukup meyakinkan , dan melanjutkannya. (Perhatikan bahwa pandangan Fisher berubah selama bertahun-tahun, tetapi inilah yang kelihatannya akhirnya ia konvergen.) Sebaliknya, pendekatan Neyman-Pearson adalah memilih sebelumnya dan kemudian memeriksa apakahp α p ≤ α; jika demikian, sebut itu signifikan dan tolak hipotesis nol (di sini saya menghilangkan sebagian besar cerita NP yang tidak memiliki relevansi dengan diskusi saat ini). Lihat juga jawaban yang sangat baik oleh @gung di Kapan menggunakan kerangka kerja Fisher dan Neyman-Pearson?
Pendekatan hybrid adalah untuk menghitung nilai- , melaporkannya (secara implisit mengasumsikan bahwa semakin kecil semakin baik), dan juga menyebut hasil yang signifikan jika (biasanya ) dan tidak signifikan jika tidak. Ini seharusnya tidak koheren. Bagaimana bisa tidak valid untuk melakukan dua hal yang valid secara bersamaan, mengalahkan saya.p ≤ α α = 0,05
Sebagai sangat tidak koheren, anti-hibridis memandang praktik luas pelaporan nilai sebagai , , atau (atau bahkan ), di mana selalu dipilih ketimpangan yang paling kuat. Argumennya adalah bahwa (a) kekuatan bukti tidak dapat dinilai dengan tepat karena tepat tidak dilaporkan, dan (b) orang cenderung menafsirkan angka kanan dalam ketidaksetaraan sebagai dan melihatnya sebagai kesalahan tipe I menilai, dan itu salah. Saya gagal melihat masalah besar di sini. Pertama, melaporkan tepat tentu saja merupakan praktik yang lebih baik, tetapi tidak ada yang benar-benar peduli jika adalah mis ataup < 0,05 p < 0,01 p < 0,001 p ≪ 0,0001 p α p p 0,02 0,03 ∼ 0,0001 0,05 α = 0,05 p ≠ α α , jadi membulatkannya pada skala log tidak terlalu buruk (dan pergi di bawah tidak masuk akal, lihat Bagaimana seharusnya nilai-p kecil dilaporkan? ). Kedua, jika konsensus menyebut semuanya di bawah signifikan, maka tingkat kesalahan adalah dan , seperti yang dijelaskan @gung dalam Interpretasi nilai-p dalam pengujian hipotesis . Meskipun ini berpotensi masalah yang membingungkan, itu tidak membuat saya lebih membingungkan daripada masalah lain dalam pengujian statistik (di luar hibrida). Juga, setiap pembaca dapat memiliki favoritnya sendiri dalam pikiran ketika membaca kertas hibrida, dan sebagai akibatnya tingkat kesalahannya sendiri.Jadi apa masalahnya?
Salah satu alasan saya ingin mengajukan pertanyaan ini adalah karena benar-benar menyakitkan untuk melihat berapa banyak artikel wikipedia tentang pengujian hipotesis statistik yang ditujukan untuk mencerca hibrida. Mengikuti Halpin & Stam, ia mengklaim bahwa yang pasti disalahkan oleh Lindquist (bahkan ada pemindaian besar pada buku teksnya dengan "kesalahan" yang disorot dengan warna kuning), dan tentu saja artikel wiki tentang Lindquist sendiri dimulai dengan tuduhan yang sama. Tapi kemudian, mungkin saya kehilangan sesuatu.
Referensi
Gigerenzer, 1993, Superego, ego, dan id dalam penalaran statistik - memperkenalkan istilah "hibrida" dan menyebutnya "mishmash tidak koheren"
- Lihat juga eksposisi yang lebih baru oleh Gigerenzer et al .: misalnya statistik Mindless (2004) dan The Null Ritual. Apa yang Anda Selalu Ingin Ketahui Tentang Pengujian Signifikansi tetapi Takut untuk Meminta (2004).
Cohen, 1994, The Earth Is Round ( ) - sebuah makalah yang sangat populer dengan kutipan hampir 3k, kebanyakan tentang berbagai masalah tetapi dengan mengutip Gigerenzer.
Goodman, 1999, Menuju statistik medis berbasis bukti. 1: Kekeliruan nilai P
Hubbard & Bayarri, 2003, Kebingungan tentang ukuran bukti ( ) versus kesalahan ( 's) dalam pengujian statistik klasikα - salah satu makalah yang lebih fasih berargumen menentang "hibrida"
Halpin & Stam, 2006, Inferensi Induktif atau Perilaku Induktif: Pendekatan Fisher dan Neyman-Pearson terhadap Pengujian Statistik dalam Penelitian Psikologis (1940-1960) [gratis setelah pendaftaran] - menyalahkan buku 1940 Lindquist untuk memperkenalkan pendekatan "hibrid"
@Michael Lew, 2006, Praktik statistik buruk dalam farmakologi (dan disiplin ilmu biomedis dasar lainnya): Anda mungkin tidak tahu P - ulasan dan ikhtisar yang bagus
Tanda kutip
Gigerenzer: Apa yang telah dilembagakan sebagai statistik inferensial dalam psikologi bukanlah statistik Fisher. Ini adalah mishmash yang membingungkan dari beberapa ide Fisher di satu sisi, dan beberapa ide Neyman dan ES Pearson di sisi lain. Saya menyebut perpaduan ini sebagai "logika hibrid" dari inferensi statistik.
Goodman: The [Neyman-Pearson] pendekatan uji hipotesis menawarkan para ilmuwan tawaran Faustian - cara yang tampaknya otomatis untuk membatasi jumlah kesimpulan yang salah dalam jangka panjang, tetapi hanya dengan meninggalkan kemampuan untuk mengukur bukti [a Fisher] dan menilai kebenaran dari satu percobaan.
Hubbard & Bayarri: Pengujian statistik klasik adalah hibrida anonim dari pendekatan yang bersaing dan sering bertentangan [...]. Secara khusus, ada kegagalan luas untuk menghargai ketidakcocokan nilai bukti Fisher dengan tingkat kesalahan Tipe I, , dari ortodoksi statistik Neyman-Pearson. [...] Sebagai contoh utama dari kebingungan yang timbul dari [ini] pencampuran [...], mempertimbangkan fakta secara luas dihargai bahwa mantan value adalah kompatibelα pdengan uji hipotesis Neyman-Pearson di mana ia menjadi tertanam. [...] Misalnya, Gibbons dan Pratt [...] secara keliru menyatakan: "Melaporkan nilai-P, apakah tepat atau dalam suatu interval, pada dasarnya memungkinkan setiap individu untuk memilih tingkat signifikansinya sendiri sebagai probabilitas maksimum yang dapat ditoleransi dari kesalahan Tipe I. "
Halpin & Stam: Teks Lindquist 1940 adalah sumber asli hibridisasi dari pendekatan Fisher dan Neyman-Pearson. [...] Daripada mengikuti interpretasi tertentu dari pengujian statistik, psikolog tetap ambivalen tentang, dan memang sebagian besar tidak menyadari, kesulitan konseptual yang terlibat oleh kontroversi Fisher dan Neyman-Pearson.
Lew: Apa yang kita miliki adalah pendekatan hibrid yang tidak mengontrol tingkat kesalahan atau memungkinkan penilaian kekuatan bukti.
sumber
Jawaban:
Saya percaya makalah, artikel, posting dll yang Anda rajin kumpulkan, berisi cukup informasi dan analisis tentang di mana dan mengapa kedua pendekatan berbeda. Tetapi menjadi berbeda bukan berarti tidak cocok .
Masalah dengan "hibrida" adalah bahwa itu adalah hibrida dan bukan sintesis , dan inilah mengapa ini diperlakukan oleh banyak orang sebagai hybris , jika Anda memaafkan permainan kata.
Bukan sebagai sintesis, itu tidak berusaha untuk menggabungkan perbedaan dari dua pendekatan, dan baik menciptakan satu pendekatan terpadu dan konsisten secara internal, atau menjaga kedua pendekatan dalam gudang ilmiah sebagai alternatif pelengkap, untuk menghadapi lebih efektif dengan sangat kompleks dunia yang kami coba analisis melalui Statistik (untungnya, hal terakhir inilah yang tampaknya terjadi dengan perang saudara besar lainnya di bidang ini, yang sering terjadi-bayesian).
Ketidakpuasan dengan hal itu saya percaya berasal dari fakta bahwa itu memang menciptakan kesalahpahaman dalam menerapkan alat statistik dan menafsirkan hasil statistik , terutama oleh para ilmuwan yang bukan ahli statistik , kesalahpahaman yang mungkin memiliki efek yang sangat serius dan merusak (berpikir tentang lapangan) obat membantu memberikan masalah nada dramatis yang sesuai). Saya percaya, penerapan yang keliru ini, diterima secara luas sebagai fakta - dan dalam pengertian itu, sudut pandang "anti-hibrida" dapat dianggap tersebar luas (setidaknya karena konsekuensi yang dimilikinya, jika bukan karena masalah metodologisnya).
Saya melihat evolusi masalah sejauh ini sebagai kecelakaan historis (tapi saya tidak memiliki nilai atau daerah penolakan untuk hipotesis saya), karena pertempuran yang tidak menguntungkan antara para pendiri. Fisher dan Neyman / Pearson telah berperang dengan sengit dan secara publik selama beberapa dekade atas pendekatan mereka. Ini menciptakan kesan bahwa ini adalah masalah dikotomis: pendekatan yang satu harus "benar", dan yang lain harus "salah".p
Saya percaya, hibrida muncul dari kesadaran bahwa tidak ada jawaban yang mudah seperti itu, dan bahwa ada fenomena dunia nyata di mana pendekatan yang satu lebih cocok daripada yang lain (lihat posting ini untuk contoh seperti itu, menurut saya di paling tidak, di mana pendekatan Nelayan tampaknya lebih cocok). Tapi alih-alih menjaga keduanya "terpisah dan siap untuk bertindak", mereka agak ditambal bersama.
Saya menawarkan sumber yang merangkum pendekatan "alternatif komplementer" ini: Spanos, A. (1999). Teori probabilitas dan inferensi statistik: pemodelan ekonometrik dengan data observasi. Cambridge University Press. , ch. 14 , khususnya Bagian 14.5, di mana setelah menyajikan secara formal dan jelas dua pendekatan, penulis berada dalam posisi untuk menunjukkan perbedaan mereka dengan jelas, dan juga berpendapat bahwa mereka dapat dilihat sebagai alternatif yang saling melengkapi.
sumber
Saya sendiri mengambil pertanyaan saya adalah bahwa tidak ada yang tidak koheren dalam pendekatan hybrid (yaitu diterima). Tetapi karena saya tidak yakin apakah saya mungkin gagal memahami validitas argumen yang disajikan dalam makalah anti-hibrida, saya senang menemukan diskusi yang diterbitkan bersama dengan makalah ini:
Sayangnya, dua balasan yang diterbitkan sebagai diskusi tidak diformat sebagai artikel terpisah sehingga tidak dapat dikutip dengan benar. Namun, saya ingin mengutip dari keduanya:
Kedua tanggapan tersebut sangat layak dibaca. Ada juga jawaban oleh penulis asli, yang tidak terdengar meyakinkan kepada saya sama sekali .
sumber
Saya khawatir bahwa respons nyata terhadap pertanyaan luar biasa ini akan membutuhkan kertas lengkap. Namun, berikut adalah beberapa poin yang tidak ada dalam pertanyaan atau jawaban saat ini.
Tingkat kesalahan 'milik' prosedur tetapi bukti 'milik' hasil eksperimen. Dengan demikian dimungkinkan dengan prosedur multi-tahap dengan aturan pemberhentian berurutan untuk memiliki hasil dengan bukti yang sangat kuat terhadap hipotesis nol tetapi hasil tes hipotesis tidak signifikan. Itu bisa dianggap sebagai ketidakcocokan yang kuat.
Jika Anda tertarik pada ketidaksesuaian, Anda harus tertarik pada filosofi yang mendasarinya. Kesulitan filosofis datang dari pilihan antara kepatuhan dengan Prinsip Kemungkinan dan kepatuhan dengan Prinsip Pengambilan Sampel Berulang. LP mengatakan secara kasar bahwa, mengingat model statistik, bukti dalam dataset yang relevan dengan parameter bunga sepenuhnya terkandung dalam fungsi kemungkinan yang relevan. RSP mengatakan bahwa seseorang harus memilih tes yang memberikan tingkat kesalahan dalam jangka panjang yang sama dengan nilai nominalnya.
sumber
Persatuan yang sering terlihat (dan seharusnya diterima) (atau lebih baik: "hibrid") antara dua pendekatan adalah sebagai berikut:
Nyatakan nilai p dan rumuskan keputusan Anda berdasarkan level :α
Jika nilai p yang dihasilkan di bawah , bisa dibilangα
Jika nilai p tidak cukup kecil, Anda akan mengatakan
Di sini, aspek-aspek dari Neyman-Pearson adalah:
Aspek nelayan adalah:
TAMBAHAN
Meskipun baik untuk mengetahui diskusi tentang masalah filosofis dari pendekatan Fisher, NP atau hibrida ini (seperti yang diajarkan dalam kegilaan oleh sebagian orang), ada banyak masalah yang lebih relevan dalam statistik untuk dilawan:
sumber
Jawaban singkat: penggunaan nol (tidak ada perbedaan, tidak ada korelasi) nol hipotesis terlepas dari konteksnya. Segala sesuatu yang lain adalah "penyalahgunaan" oleh orang-orang yang telah menciptakan mitos untuk diri mereka sendiri tentang apa yang dapat dicapai proses tersebut. Mitos muncul dari orang-orang yang berusaha mendamaikan penggunaan kepercayaan mereka pada otoritas dan heuristik konsensus dengan ketidakmampuan prosedur untuk mengatasi masalah mereka.
Sejauh yang saya tahu Gerd Gigerenzer datang dengan istilah "hybrid":
Gigerenzer, G (November 2004). " Statistik tanpa pikiran ". Jurnal Sosial-Ekonomi 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.
Sunting: Dan kita harus selalu perlu menyebutkan, karena "hibrida" begitu licin dan tidak jelas, bahwa menggunakan nol nol untuk mendapatkan nilai-p baik-baik saja sebagai cara untuk membandingkan efek ukuran dengan ukuran sampel yang berbeda. Ini adalah aspek "tes" yang memperkenalkan masalah.
Sunting 2: @amoeba Nilai-p dapat dianggap baik sebagai statistik ringkasan, dalam hal ini hipotesis nol nol hanyalah tengara yang sewenang-wenang: http://arxiv.org/abs/1311.0081 . Namun, segera setelah Anda mulai mencoba menarik kesimpulan atau membuat keputusan (yaitu "menguji" hipotesis nol) itu berhenti masuk akal. Dalam contoh dua kelompok pembanding, kami ingin tahu perbedaan antara dua kelompok dan berbagai penjelasan yang mungkin ada untuk perbedaan besarnya dan jenisnya.
Nilai p dapat digunakan sebagai statistik ringkasan yang memberi tahu kita besarnya perbedaan. Namun, menggunakannya untuk "menyangkal / menolak" perbedaan nol tidak memiliki tujuan yang dapat saya katakan. Juga, saya pikir banyak dari rancangan penelitian ini yang membandingkan pengukuran rata-rata makhluk hidup pada satu titik waktu adalah salah arah. Kita harus mengamati bagaimana contoh-contoh individual dari sistem berubah dari waktu ke waktu, kemudian menghasilkan suatu proses yang menjelaskan pola yang diamati (termasuk perbedaan kelompok apa pun).
sumber
Saya melihat bahwa mereka yang memiliki keahlian lebih dari saya sendiri telah memberikan jawaban, tetapi saya pikir jawaban saya memiliki potensi untuk menambahkan sesuatu, jadi saya akan menawarkan ini sebagai perspektif orang awam lainnya.
Apakah pendekatan hibrida tidak koheren? Saya akan mengatakan itu tergantung pada apakah atau tidak peneliti akhirnya bertindak tidak konsisten dengan aturan yang mereka mulai: khususnya aturan ya / tidak yang ikut bermain dengan pengaturan nilai alpha.
Kacau
Mulailah dengan Neyman-Pearson. Peneliti menetapkan alpha = 0,05, menjalankan percobaan, menghitung p = 0,052. Peneliti melihat nilai-p itu dan, dengan menggunakan inferensi Fisher (sering secara implisit), menganggap hasilnya cukup tidak sesuai dengan hipotesis pengujian sehingga mereka masih akan mengklaim "sesuatu" sedang terjadi. Hasilnya entah bagaimana "cukup baik" meskipun nilai p lebih besar dari nilai alpha. Seringkali ini dipasangkan dengan bahasa seperti "hampir signifikan" atau "cenderung menuju signifikansi" atau beberapa kata di sepanjang garis itu.
Namun, menetapkan nilai alfa sebelum menjalankan percobaan berarti bahwa seseorang telah memilih pendekatan perilaku induktif Neyman-Pearson. Memilih untuk mengabaikan nilai alfa itu setelah menghitung nilai-p, dan dengan demikian mengklaim sesuatu masih entah bagaimana menarik, melemahkan seluruh pendekatan yang dimulai dengan seseorang. Jika seorang peneliti memulai jalur A (Neyman-Pearson), tetapi kemudian melompat ke jalur lain (Fisher) setelah mereka tidak menyukai jalur yang mereka lalui, saya menganggap itu tidak koheren. Mereka tidak konsisten dengan aturan (tersirat) yang mereka mulai.
Koheren (mungkin)
Mulai dengan NP. Peneliti menetapkan alpha = 0,05, menjalankan percobaan, menghitung p = 0,0014. Peneliti mengamati bahwa p <alpha, dan dengan demikian menolak hipotesis uji (biasanya tidak ada efek nol) dan menerima hipotesis alternatif (efeknya nyata). Pada titik ini peneliti, selain memutuskan untuk memperlakukan hasil sebagai efek nyata (NP), memutuskan untuk menyimpulkan (Fisher) bahwa percobaan memberikan bukti yang sangat kuat bahwa efeknya nyata. Mereka telah menambahkan nuansa pada pendekatan yang mereka mulai, tetapi tidak bertentangan dengan aturan yang ditetapkan dengan memilih nilai alpha di awal.
Ringkasan
Jika seseorang mulai dengan memilih nilai alpha, maka seseorang telah memutuskan untuk mengambil jalur Neyman-Pearson dan mengikuti aturan untuk pendekatan itu. Jika mereka, pada suatu titik, melanggar aturan-aturan itu dengan menggunakan inferensi Fisher sebagai pembenaran, maka mereka telah bertindak secara tidak konsisten / tidak koheren.
Saya kira seseorang dapat melangkah lebih jauh dan menyatakan bahwa karena dimungkinkan untuk menggunakan hibrida secara tidak koheren, oleh karena itu pendekatan ini secara inheren tidak koheren, tetapi yang tampaknya semakin dalam ke dalam aspek filosofis, yang saya anggap saya tidak memenuhi syarat untuk bahkan menawarkan pendapat.
Kiat tip untuk Michael Lew. Artikelnya di tahun 2006 membantu saya memahami masalah ini lebih baik daripada sumber daya lainnya.
sumber