Apakah nilai p pada dasarnya tidak berguna dan berbahaya untuk digunakan?

36

Artikel ini " The Odds, Continuous Updated" dari NY Times kebetulan menarik perhatian saya. Singkatnya, ini menyatakan itu

[Statistik Bayesian] terbukti sangat berguna dalam mendekati masalah kompleks, termasuk pencarian seperti yang digunakan Coast Guard pada 2013 untuk menemukan nelayan yang hilang, John Aldridge (meskipun tidak, sejauh ini, dalam perburuan untuk Malaysia Airlines Penerbangan 370) .. ......, statistik Bayesian beriak melalui segala hal mulai dari fisika hingga penelitian kanker, ekologi hingga psikologi ...

Dalam artikel tersebut, ada juga beberapa kritik tentang nilai-p frequentist, misalnya:

Hasil biasanya dianggap "signifikan secara statistik" jika nilai-p kurang dari 5 persen. Tetapi ada bahaya dalam tradisi ini, kata Andrew Gelman, seorang profesor statistik di Columbia. Bahkan jika para ilmuwan selalu melakukan perhitungan dengan benar - dan mereka tidak melakukannya, dia berpendapat - menerima semuanya dengan nilai p 5 persen berarti bahwa satu dari 20 hasil "signifikan secara statistik" tidak lain hanyalah suara acak.

Selain di atas, mungkin makalah yang paling terkenal yang mengkritik nilai-p adalah ini - "Metode ilmiah: Kesalahan statistik" oleh Regina Nuzzo dari Nature , di mana banyak masalah ilmiah yang diangkat oleh pendekatan nilai-p telah dibahas, seperti masalah kemampuan reproduksi, peretasan nilai-p, dll.

Nilai P, 'standar emas' dari validitas statistik, tidak dapat diandalkan seperti yang diasumsikan oleh banyak ilmuwan. ...... Mungkin kekeliruan terburuk adalah jenis penipuan diri sendiri yang oleh psikolog Uri Simonsohn dari University of Pennsylvania dan rekan-rekannya telah mempopulerkan istilah P-hacking; itu juga dikenal sebagai pengerukan data, pengintaian, penangkapan ikan, pengejaran signifikan dan pencelupan ganda. “Peretasan,” kata Simonsohn, “sedang mencoba banyak hal sampai Anda mendapatkan hasil yang diinginkan” - bahkan tanpa disadari. ...... "Temuan itu tampaknya telah diperoleh melalui p-hacking, penulis menjatuhkan salah satu syarat sehingga nilai-p keseluruhan akan kurang dari 0,05", dan "Dia adalah p-hacker, dia selalu memonitor data saat sedang dikumpulkan. ”

Hal lain adalah plot yang menarik sebagai berikut dari sini , dengan komentar tentang plot:

Tidak peduli seberapa kecil efek Anda, Anda selalu dapat melakukan kerja keras mengumpulkan data untuk melewati ambang p <.05. Selama efek yang Anda pelajari tidak ada, nilai-p hanya mengukur seberapa banyak upaya yang Anda lakukan untuk mengumpulkan data.

masukkan deskripsi gambar di sini

Dengan semua hal di atas, pertanyaan saya adalah:

  1. Apa argumen Andrew Gelman, dalam kutipan blok kedua, tepatnya? Mengapa dia menafsirkan nilai 5-persen sebagai "satu dari 20 hasil yang signifikan secara statistik mencatat tetapi suara acak"? Saya tidak yakin karena bagi saya p-value digunakan untuk membuat kesimpulan pada satu studi tunggal. Maksudnya tampaknya terkait dengan beberapa pengujian.

    Pembaruan: Periksa blog Andrew Gelman tentang ini: Tidak, saya tidak mengatakan itu! (Kredit ke @Scortchi, @whuber).

  2. Mengingat kritik tentang p-nilai, dan juga mengingat ada banyak kriteria informasi, seperti AIC, BIC, Mallow untuk mengevaluasi signifikansi model (maka variabel), seharusnya kita tidak menggunakan p-value untuk seleksi variabel di semua kecuali menggunakan kriteria pemilihan model itu?Chal

  3. Adakah pedoman praktis yang baik untuk menggunakan nilai-p untuk analisis statistik yang dapat menghasilkan hasil penelitian yang lebih andal?
  4. Apakah kerangka pemodelan Bayesian cara yang lebih baik untuk mengejar, karena beberapa ahli statistik menganjurkan? Secara khusus, akankah pendekatan Bayesian lebih mungkin menyelesaikan penemuan yang salah atau memanipulasi masalah data? Saya tidak yakin di sini juga karena prior sangat subjektif dalam pendekatan Bayesian. Adakah penelitian praktis dan terkenal yang menunjukkan pendekatan Bayesian lebih baik daripada nilai-p frequentist, atau setidaknya dalam beberapa kasus tertentu?

    Pembaruan: Saya akan sangat tertarik pada apakah ada kasus bahwa pendekatan Bayesian lebih dapat diandalkan daripada pendekatan p-value frequentist. Dengan "dapat diandalkan", maksud saya pendekatan Bayesian cenderung untuk memanipulasi data untuk hasil yang diinginkan. Ada saran?


Pembaruan 6/9/2015

Hanya memperhatikan berita, dan berpikir akan lebih baik untuk meletakkannya di sini untuk diskusi.

Jurnal psikologi melarang nilai-nilai P.

Sebuah uji statistik kontroversial akhirnya menemui akhirnya, setidaknya dalam satu jurnal. Awal bulan ini, para editor Psikologi Sosial Dasar dan Terapan (BASP) mengumumkan bahwa jurnal tidak akan lagi menerbitkan makalah yang mengandung nilai P karena statistik terlalu sering digunakan untuk mendukung penelitian berkualitas rendah.

Seiring dengan makalah baru-baru ini, "Nilai P berubah-ubah menghasilkan hasil yang tidak dapat direproduksi" dari Nature , tentang nilai P.

Perbarui 5/8/2016

Kembali pada bulan Maret, American Statistics Association (ASA) merilis pernyataan tentang signifikansi statistik dan nilai-p, ".... Pernyataan ASA dimaksudkan untuk mengarahkan penelitian ke era 'pasca p <0,05.'"

Pernyataan ini berisi 6 prinsip yang membahas penyalahgunaan nilai-p:

  1. Nilai-P dapat menunjukkan seberapa tidak kompatibelnya data dengan model statistik yang ditentukan.
  2. Nilai-P tidak mengukur probabilitas bahwa hipotesis yang diteliti itu benar, atau probabilitas bahwa data dihasilkan oleh kebetulan acak saja.
  3. Kesimpulan ilmiah dan keputusan bisnis atau kebijakan tidak boleh hanya didasarkan pada apakah nilai-p melewati ambang tertentu.
  4. Inferensi yang tepat membutuhkan pelaporan dan transparansi penuh.
  5. Nilai p, atau signifikansi statistik, tidak mengukur ukuran efek atau pentingnya hasil.
  6. Dengan sendirinya, nilai-p tidak memberikan ukuran bukti yang baik mengenai model atau hipotesis.

Detail: "Pernyataan ASA tentang nilai-p: konteks, proses, dan tujuan" .

Aaron Zeng
sumber
11
0,050,05
10
@whuber: Anda benar: Tidak, saya tidak mengatakan itu! .
Scortchi
4
Bagus temukan, @Scortchi! Sebagai catatan - jika tautannya memburuk - Gelman dengan tegas menolak karakterisasi NY Times (meskipun dengan sangat bijaksana) dan menulis "menerima segala sesuatu dengan nilai p 5 persen dapat mengarah pada temuan palsu - kasus di mana sebuah pengamatan" "Pola signifikan secara statistik dalam data tidak mencerminkan pola yang sesuai dalam populasi — jauh lebih dari 5 persen dari waktu."
whuber
3
Mengacu pada komentar Anda, "Selama efek yang Anda pelajari tidak ada," itulah titik studi yang melibatkan nilai p — untuk menentukan apakah efek yang Anda pelajari benar-benar ada atau apakah kekhasan dalam data yang Anda kumpulkan hanya karena kebetulan acak. Menurunkan nilai p dengan meningkatkan ukuran sampel benar-benar baik secara matematis dan, pada kenyataannya, satu-satunya pilihan. Anda sama sekali tidak "meretas" nilai-p. Dari sudut pandang intuitif, masuk akal bahwa upaya lebih banyak dalam mengumpulkan data akan diterjemahkan ke dalam kepercayaan yang lebih tinggi pada kesimpulan yang Anda ambil darinya.
David Webb
1
@ DavidWebb Setuju. Jika ukuran efek kecil, tidak apa-apa dan akan lebih mudah untuk mengatakan seberapa besar atau kecil efeknya dengan lebih banyak data. Jika Anda bisa mendapatkan lebih banyak data, Anda harus.
Desty

Jawaban:

25

Berikut ini beberapa pemikiran:

  1. 80%100/118.7584%
  2. hal
  3. hal
  4. Saya tidak dogmatis menentang menggunakan metode Bayesian, tapi saya tidak percaya mereka akan menyelesaikan masalah ini. Misalnya, Anda bisa terus mengumpulkan data sampai interval kredibel tidak lagi menyertakan nilai apa pun yang ingin Anda tolak. Dengan demikian Anda memiliki 'peretasan interval yang kredibel'. Seperti yang saya lihat, masalahnya adalah banyak praktisi yang secara intrinsik tidak tertarik pada analisis statistik yang mereka gunakan, sehingga mereka akan menggunakan metode apa pun yang diperlukan dari mereka dengan cara yang tidak terpikirkan dan mekanis. Untuk lebih lanjut tentang perspektif saya di sini, mungkin membantu untuk membaca jawaban saya untuk: Ukuran efek sebagai hipotesis untuk pengujian signifikansi .
gung - Reinstate Monica
sumber
10
(+1) Cara mudah untuk meretas interval yang kredibel adalah dengan mengadopsi tepat sebelumnya :-). Tentu saja tidak ada praktisi yang kompeten yang akan melakukan ini - Gelman menekankan menggunakan penilaian sensitivitas, hyperprior tidak informatif, dll. - tetapi sekali lagi tidak ada pengguna tes hipotesis yang kompeten yang akan melakukan peretasan nilai-nilai, bukan? Di sisi lain, dalam analisis Bayesian mungkin lebih sulit untuk menyembunyikan apa yang dilakukan seseorang - dengan asumsi yang sebelumnya diungkapkan dengan jelas - dibandingkan dengan semua analisis tidak berdokumen yang mungkin terlibat dalam peretasan nilai-p.
whuber
1
@whuber, itu benar, tapi saya pikir kita bisa mengesampingkan masalah apa pun dengan ketidaktepatan atau subjektivitas sebelumnya. Jika efek sebenarnya tidak tepat 0, w / cukup data, interval yang kredibel pada akhirnya tidak akan menyertakan 0, sama seperti p akan <.05 (lih, kutipan terakhir), jadi Anda bisa terus mengumpulkan data sampai Anda mendapatkan hasil yang Anda inginkan terlepas dari yang sebelumnya.
gung - Reinstate Monica
4
Poin bagus. Saya diingatkan tentang pertanyaan baru-baru ini tentang memprediksi kegagalan dalam 10.000 produk setelah mengamati tidak ada kegagalan dalam 100.000 dari mereka. Jawabannya cukup sensitif terhadap yang sebelumnya karena kegagalan sangat jarang. Ini mungkin semacam situasi luar biasa yang "membuktikan aturan"; ini menunjukkan bahwa dalam kenyataannya tidak praktis untuk mengumpulkan data yang cukup untuk mendapatkan hasil yang diinginkan. Itulah tepatnya ketika beberapa klien mulai memohon ahli statistik untuk "melakukan keajaiban mereka" untuk mencapai hasil yang diinginkan! Mungkin banyak pembaca merasakan tekanan itu sebelumnya ....
whuber
1
@ung, dalam uji klinik praktis, selalu ada kriteria berhenti di berbagai fase untuk merekrut lebih banyak subjek untuk eksperimen. Dalam hal itu, akankah pendekatan Bayesian terdengar kurang mungkin untuk memanipulasi interval yang kredibel sehingga kesimpulan penelitian?
Aaron Zeng
2
@AaronZeng, bagi saya tampaknya kriteria berhenti eksplisit berlaku sama untuk perspektif Frequentist & Bayesian. Saya tidak melihat keuntungan / kerugian bersih di sini.
gung - Reinstate Monica
8

Bagi saya, salah satu hal yang paling menarik tentang kontroversi p-hacking adalah bahwa seluruh sejarah p <= 0,05 sebagai standar "sekali dalam bulan biru" untuk signifikansi statistik, seperti yang dicatat Joseph Kaldane dalam artikel JASA pada statistik forensik. kembali tahun 90-an, sama sekali tidak bersandar pada teori statistik sama sekali. Ini adalah konvensi, heuristik sederhana dan aturan praktis yang dimulai dengan RA Fisher dan sejak itu telah ditata ulang atau disucikan menjadi status "tidak dipertanyakan" saat ini. Baik Bayesian atau tidak, waktunya sudah lama tertunda untuk menantang standar metrik ini atau setidaknya memberinya skeptisisme yang pantas.

Yang mengatakan, interpretasi saya tentang poin Gelman adalah bahwa, seperti yang diketahui, proses peer review menghargai signifikansi statistik positif dan menghukum hasil yang tidak signifikan dengan tidak menerbitkan makalah tersebut. Ini terlepas dari apakah atau tidak menerbitkan temuan yang tidak signifikan akan berpotensi berdampak besar pada pemikiran dan berteori untuk domain tertentu. Gelman, Simonshohn dan yang lainnya telah berulang kali menunjuk pada penyalahgunaan tingkat signifikansi 0,05 dalam penelitian yang ditinjau oleh rekan sejawat dan dipublikasikan dengan mengangkat contoh temuan konyol, namun signifikan secara statistik dalam penelitian paranormal, sosial dan psikologis. Salah satu yang paling mengerikan adalah temuan yang signifikan secara statistik bahwa wanita hamil lebih cenderung mengenakan gaun merah. Gelman menyatakan bahwa, dengan tidak adanya tantangan logis untuk hasil statistik,penjelasan yang berpotensi tidak berarti. Di sini, ia merujuk pada bahaya pekerjaan industri dengan argumen teknis dan muslihat yang terlalu banyak, yang hanya sedikit atau tidak melakukan apa pun untuk memajukan perdebatan di kalangan audiens awam.

Ini adalah poin yang dibuat Gary King dengan penuh semangat ketika dia secara praktis memohon para ilmuwan politik kuantitatif (dan, selanjutnya, semua pertanyaan) untuk menghentikan mekanistik, reportase teknis seperti "hasil ini signifikan pada p <0,05 level" dan bergerak ke arah interpretasi yang lebih substantif . Berikut kutipan dari makalah yang ditulisnya,

(1) menyampaikan estimasi numerik yang tepat dari jumlah kepentingan substantif terbesar, (2) mencakup langkah-langkah ketidakpastian yang masuk akal tentang estimasi tersebut, dan (3) memerlukan sedikit pengetahuan khusus untuk memahami. Pernyataan sederhana berikut memenuhi kriteria kami: 'Hal-hal lain dianggap sama, satu tahun tambahan pendidikan akan meningkatkan pendapatan tahunan Anda rata-rata 1.500 dolar, plus atau minus sekitar 500 dolar.' Siswa sekolah menengah yang cerdas akan memahami kalimat itu, tidak peduli seberapa canggih model statistik dan kuat komputer yang digunakan untuk memproduksinya.

Poin King diambil dengan sangat baik dan memetakan arah perdebatan yang perlu diambil.

Memaksimalkan Analisis Statistik: Meningkatkan Interpretasi dan Presentasi , King, Tomz dan Wittenberg, 2002, Am Jour dari Poli Sci .

Mike Hunter
sumber
2
+1 Terima kasih atas kontribusi yang dapat dibaca, informatif, dan bijaksana ini untuk utas.
whuber
@whuber Terima kasih atas kata-kata baiknya. Waktu akan memberi tahu apakah peserta lain setuju atau tidak.
Mike Hunter
2
Saya mungkin tertipu, tetapi saya suka berpikir bahwa beberapa (jika tidak sebagian besar) dari pemilih aktif kami tidak memberikan suara berdasarkan perjanjian atau ketidaksepakatan, tetapi pada apakah suatu pos menanggapi pertanyaan asli dengan cara yang jelas dan berwibawa. . Bagaimanapun, teks kursor di atas ikon upvote berbunyi "Jawaban ini berguna," bukan "Saya setuju dengan orang ini." (Ini tidak harus bingung dengan pemungutan suara di situs meta kami, yang tidak menandakan tingkat persetujuan.) Beberapa bukti untuk kesan ini diberikan oleh banyak lencana sportif yang diberikan.
whuber
@Whuber Nuansa yang Anda tunjukkan telah dicatat.
Mike Hunter
@whuber utas ini adalah sumber saya menggunakan kata tertipu dalam obrolan kami beberapa hari yang lalu.
Mike Hunter
5

Berikut adalah beberapa pemikiran saya mengenai Pertanyaan 3 setelah membaca semua komentar dan jawaban yang mendalam.

Mungkin satu petunjuk praktis dalam analisis statistik untuk menghindari peretasan nilai-p adalah dengan melihat ukuran efek signifikan / bermakna secara ilmiah (atau, secara biologis, klinis, dll).

θ

H0:θ=0vs.HSebuah:θ0,
H0:θ<δvs.HSebuah:θδ,
δ

Selain itu, untuk menghindari penggunaan ukuran sampel terlalu besar untuk mendeteksi efek, ukuran sampel yang diperlukan juga harus diperhitungkan. Artinya, kita harus memberi batasan pada ukuran sampel maksimum yang digunakan untuk percobaan.

Untuk menyimpulkan,

  1. Kita perlu menentukan ambang batas untuk ukuran efek yang bermakna untuk menyatakan signifikansi;
  2. Kita perlu menentukan ambang batas untuk ukuran sampel yang digunakan dalam percobaan untuk menghitung seberapa dapat terdeteksi ukuran efek bermakna adalah;

Dengan di atas, mungkin karena itu kita dapat menghindari efek "signifikan" kecil yang diklaim oleh ukuran sampel yang sangat besar.


[Pembaruan 6/9/2015]

Mengenai Pertanyaan 3, berikut adalah beberapa saran berdasarkan pada makalah baru - baru ini dari alam: "Nilai P berubah-ubah menghasilkan hasil yang tidak dapat direproduksi" seperti yang saya sebutkan di bagian Pertanyaan.

  1. Laporkan perkiraan ukuran efek dan ketepatannya, yaitu interval kepercayaan 95%, karena informasi yang lebih informatif menjawab pertanyaan persis seperti seberapa besar perbedaannya, atau seberapa kuat hubungan atau hubungannya;
  2. Masukkan perkiraan ukuran efek dan 95% CI ke dalam konteks studi / pertanyaan ilmiah tertentu dan fokus pada relevansinya menjawab pertanyaan-pertanyaan itu dan diskon nilai P yang berubah-ubah;
  3. Ganti analisis daya dengan " perencanaan untuk presisi " untuk menentukan ukuran sampel yang diperlukan untuk memperkirakan ukuran efek untuk mencapai tingkat presisi yang ditentukan.

[Akhiri pembaruan 6/9/2015]

Aaron Zeng
sumber
4
H0:θ=δ
@AndyW, Terima kasih atas komentarnya. Saya telah mengubah jawaban saya sesuai dengan itu. Apakah itu pilihan yang lebih baik?
Aaron Zeng
2
+1 untuk referensi artikel Alam itu. Ini berisi beberapa informasi yang mengejutkan, meskipun, seperti interpretasi Bayesian (tanpa pemberitahuan) dari nilai-p: "Sebagai contoh, jika sebuah penelitian memperoleh P = 0,03, ada kemungkinan 90% bahwa studi ulangan akan mengembalikan nilai P di suatu tempat antara rentang 0-0,6 (interval prediksi 90%), sedangkan peluang P <0,05 hanya 56%. " Saya ingin tahu distribusi apa yang sebelumnya diasumsikan oleh para penulis - dan mengapa itu bahkan relevan?
whuber
@AndyW dan Aaron Zeng, bahkan lebih baik adalah menggabungkan hasil dari kedua tes untuk perbedaan, dan tes untuk kesetaraan. Dengan cara itu, seseorang menempatkan ukuran efek yang relevan dan kekuatan statistik secara eksplisit ke dalam kesimpulan yang ditarik (lihat bagian tentang tes relevansi).
Alexis
3

P(D|H0)αH0H0

  1. Ini menyiratkan bahwa hasil 1/20 dapat menolak nol ketika seharusnya tidak. Jika sains mendasarkan kesimpulannya pada percobaan tunggal maka pernyataan itu akan dapat dipertahankan. Jika tidak, jika percobaan dapat diulangi maka itu menyiratkan bahwa 19/20 tidak akan ditolak. Moral dari cerita ini adalah eksperimen harus dapat diulang.

  2. Ilmu pengetahuan adalah tradisi yang didasarkan pada "objektivitas" sehingga "probabilitas obyektif" secara alami menarik. Ingatlah bahwa eksperimen seharusnya menunjukkan tingkat kontrol yang tinggi sering kali menggunakan desain blok dan pengacakan untuk mengendalikan faktor-faktor di luar penelitian. Dengan demikian, perbandingan dengan acak memang masuk akal karena semua faktor lain seharusnya dikontrol kecuali untuk faktor-faktor yang diteliti. Teknik-teknik ini sangat berhasil di bidang pertanian dan industri sebelum diangkut ke ilmu pengetahuan.

  3. Saya tidak yakin apakah kurangnya informasi benar-benar menjadi masalah. Perlu dicatat bahwa bagi banyak orang dalam ilmu non-matematika bahwa statistik hanyalah sebuah kotak untuk dicentang.

  4. Saya sarankan membaca umum tentang teori keputusan yang menyatukan dua kerangka kerja. Ini hanya karena menggunakan informasi sebanyak yang Anda miliki. Statistik Frequentist mengasumsikan parameter dalam model memiliki nilai yang tidak diketahui dari distribusi tetap. Bayesian menganggap parameter dalam model berasal dari distribusi yang dikondisikan oleh apa yang kita ketahui. Jika ada cukup informasi untuk membentuk informasi sebelum dan cukup untuk memperbaruinya ke posterior yang akurat maka itu hebat. Jika tidak ada maka Anda mungkin berakhir dengan hasil yang lebih buruk.

Emir
sumber
1

Reproduksibilitas hasil uji statistik

Ini adalah latihan singkat dan sederhana untuk menilai reproduksibilitas keputusan berdasarkan pengujian statistik.

Pertimbangkan hipotesis nol H0 dengan seperangkat hipotesis alternatif yang mengandung H1 dan H2. Menyiapkan prosedur uji hipotesis statistik pada tingkat signifikansi 0,05 untuk memiliki kekuatan 0,8, jika H1 benar. Lebih lanjut berasumsi bahwa kekuatan untuk H2 adalah 0,5. Untuk menilai reproduktifitas hasil pengujian, percobaan dianggap melaksanakan prosedur pengujian dua kali. Dimulai dengan situasi, di mana H0 benar, probabilitas untuk hasil percobaan bersama ditampilkan pada Tabel 1. Probabilitas tidak dapat mereproduksi keputusan adalah 0,095.

Tabel 1. Frekuensi, jika H0 benar

Freqkamuency.Haif.decsayassayaHainReject.H0RetSebuahsayan.H0Reject.H00,00250,0475RetSebuahsayan.H00,04750,9025

Frekuensi berubah ketika keadaan sebenarnya berubah. Dengan asumsi H1 adalah benar, H0 dapat ditolak karena dirancang dengan kekuatan 0,8. Frekuensi yang dihasilkan untuk hasil yang berbeda dari percobaan bersama ditampilkan pada Tabel 2. Probabilitas tidak dapat mereproduksi keputusan adalah 0,32.

Tabel 2. Frekuensi, jika H1 benar

Freqkamuency.Haif.decsayassayaHainReject.H0RetSebuahsayan.H0Reject.H00,640,16RetSebuahsayan.H00,160,04

Dengan asumsi H2 benar, H0 akan ditolak dengan probabilitas 0,5. Frekuensi yang dihasilkan untuk hasil yang berbeda dari percobaan bersama ditampilkan pada Tabel 3. Probabilitas tidak dapat mereproduksi keputusan adalah 0,5.

Tabel 3. Frekuensi, jika H2 benar

Freqkamuency.Haif.decsayassayaHainReject.H0RetSebuahsayan.H0Reject.H00,250,25RetSebuahsayan.H00,250,25

Prosedur pengujian dirancang untuk mengontrol kesalahan tipe I (penolakan hipotesis nol meskipun itu benar) dengan probabilitas 0,05 dan batas kesalahan tipe II (tidak ada penolakan terhadap hipotesis nol meskipun itu salah dan H1 benar) ke 0,2. Untuk kedua kasus, dengan H0 atau H1 dianggap benar, ini mengarah ke frekuensi yang tidak dapat diabaikan, masing-masing 0,095 dan 0,32, dari keputusan "tidak dapat direproduksi", "bertentangan", jika percobaan yang sama diulang dua kali. Situasi semakin memburuk dengan frekuensi hingga 0,5 untuk keputusan "tidak dapat direproduksi", "bertentangan", jika keadaan sebenarnya adalah antara nol- dan hipotesis alternatif yang digunakan untuk merancang percobaan.

Situasi juga bisa menjadi lebih baik - jika kesalahan tipe 1 dikendalikan lebih ketat, atau jika keadaan sebenarnya jauh dari nol, yang menghasilkan kekuatan untuk menolak nol yang mendekati 1.

Dengan demikian, jika Anda menginginkan keputusan yang lebih dapat direproduksi, tingkatkan tingkat signifikansi dan kekuatan tes Anda. Tidak terlalu mencengangkan ...

pengguna36160
sumber
(+1) Tetapi Anda tidak dapat menetapkan nilai p ke 5% sebelum percobaan - kira maksud Anda adalah "tingkat signifikansi".
Scortchi
Terima kasih. Hal yang sama dalam kalimat terakhir: "kurangi level signifikansi dan tingkatkan kekuatan"
Scortchi - Reinstate Monica
Saya pikir masalah terbesar dengan nilai p adalah bahwa orang membingungkan mereka dengan signifikansi substantif. Jadi jika p <0,05 itu berarti bahwa ukuran efek yang ditemukan cukup besar. Saya diminta di tempat kerja untuk menghasilkan efek signifikan [secara substantif] dengan menghasilkan nilai p.
user54285