Apakah ini solusi untuk masalah nilai-p?

67

Pada bulan Februari 2016, American Statistics Association merilis pernyataan resmi tentang signifikansi statistik dan nilai-p. Utas kami tentang ini membahas masalah ini secara luas. Namun, tidak ada otoritas yang muncul untuk menawarkan alternatif efektif yang diakui secara universal - sampai sekarang. American Statistical Society (ASS) telah menerbitkan tanggapannya, nilai-p: Apa selanjutnya?

"Nilai-p tidak baik untuk banyak hal."

Kami pikir ASA tidak cukup jauh. Sudah saatnya untuk mengakui bahwa era nilai-p telah berakhir. Para ahli statistik telah berhasil menggunakannya untuk membingungkan sarjana, mengelabui para ilmuwan, dan menipu para editor di mana-mana, tetapi dunia mulai melihat melalui tipu muslihat ini. Kita harus meninggalkan upaya awal abad ke-20 ini oleh ahli statistik untuk mengendalikan pengambilan keputusan. Kita perlu kembali ke apa yang sebenarnya berhasil.

Proposal ASS resmi adalah ini:

Di tempat nilai-p, ASS menganjurkan STOP (prosedur SeaT-Of-Pants). Metode waktu-dihormati dan diuji ini digunakan oleh orang-orang Yunani kuno, orang-orang renaisans, dan semua ilmuwan sampai Ronald Fisher datang dan menghancurkan hal-hal. STOP sederhana, langsung, berbasis data, dan otoritatif. Untuk melaksanakannya, seorang tokoh otoritas (pria yang lebih tua, berdasarkan preferensi) meninjau data dan memutuskan apakah mereka setuju dengan pendapatnya. Ketika dia memutuskan mereka melakukannya, hasilnya “signifikan.” Jika tidak, maka semua orang diharuskan untuk melupakan semuanya.

Prinsip

Respons tersebut membahas masing-masing dari enam prinsip ASA.

  1. STOP dapat menunjukkan seberapa tidak kompatibelnya data dengan model statistik yang ditentukan.

    Kami menyukai ungkapan ini karena ini adalah cara yang suka mengatakan STOP akan menjawab pertanyaan ya atau tidak. Tidak seperti nilai-p atau prosedur statistik lainnya, tidak ada keraguan. Ini adalah tanggapan sempurna bagi mereka yang mengatakan, “kita tidak perlu hipotesis nol! Apa *?! @ Apa itu? Tidak ada yang pernah tahu apa yang seharusnya. "

  2. STOP tidak mengukur probabilitas bahwa hipotesis itu benar: itu benar-benar memutuskan apakah itu benar atau tidak.

    Semua orang bingung oleh probabilitas. Dengan mengambil probabilitas dari gambar, STOP menghilangkan kebutuhan untuk studi sarjana dan pascasarjana selama bertahun-tahun. Sekarang siapa pun (yang sudah cukup tua dan laki-laki) dapat melakukan analisis statistik tanpa rasa sakit dan siksaan mendengarkan bahkan satu ceramah statistik tunggal atau menjalankan perangkat lunak misterius yang memuntahkan hasil yang tidak dapat dipahami.

  3. Kesimpulan ilmiah dan keputusan bisnis atau kebijakan dapat didasarkan pada akal sehat dan figur otoritas nyata.

    Lagipula, keputusan penting selalu dibuat oleh otoritas, jadi mari kita akui saja dan hentikan perantara. Menggunakan STOP akan membebaskan ahli statistik untuk melakukan apa yang paling cocok untuk mereka: menggunakan angka untuk mengaburkan kebenaran dan menguduskan preferensi mereka yang berkuasa.

  4. Inferensi yang tepat membutuhkan pelaporan dan transparansi penuh.

    STOP adalah prosedur statistik paling transparan dan jelas yang pernah ditemukan: Anda melihat data dan memutuskan. Ini menghilangkan semua tes-z yang membingungkan, uji-t, tes chi-squared, dan prosedur sup alfabet (ANOVA! GLM! MLE!) Yang digunakan oleh orang-orang untuk menyembunyikan fakta bahwa mereka tidak tahu apa artinya data.

  5. STOP mengukur pentingnya hasil.

    Ini terbukti dengan sendirinya: jika seseorang yang berwenang menggunakan STOP, maka hasilnya haruslah penting.

  6. Dengan sendirinya, STOP memberikan ukuran bukti yang baik mengenai model atau hipotesis.

    Kami tidak ingin menantang otoritas, bukan? Peneliti dan pembuat keputusan akan mengakui bahwa STOP menyediakan semua informasi yang perlu mereka ketahui. Untuk alasan ini, analisis data dapat diakhiri dengan STOP; tidak perlu pendekatan alternatif, seperti nilai-p, pembelajaran mesin, atau astrologi.

Pendekatan lain

Beberapa ahli statistik lebih suka apa yang disebut metode "Bayesian", di mana teorema yang tidak jelas yang diterbitkan secara anumerta oleh seorang ulama abad ke-18 diterapkan tanpa berpikir untuk menyelesaikan setiap masalah. Para advokat yang paling terkenal dengan bebas mengakui metode ini adalah "subyektif." Jika kita akan menggunakan metode subyektif, maka jelas semakin otoritatif dan berpengetahuan pengambil keputusan, semakin baik hasilnya. STOP dengan demikian muncul sebagai batas logis dari semua metode Bayes. Mengapa pergi ke upaya mengerjakan perhitungan mengerikan itu, dan mengikat begitu banyak waktu komputer, ketika Anda bisa menunjukkan data kepada orang yang bertanggung jawab dan bertanya kepadanya apa pendapatnya? Akhir dari cerita.

Komunitas lain baru-baru ini muncul untuk menantang imamat para ahli statistik. Mereka menyebut diri mereka "pelajar mesin" dan "ilmuwan data," tetapi mereka sebenarnya hanya peretas yang mencari status lebih tinggi. Ini adalah posisi resmi ASS bahwa orang-orang ini harus membentuk organisasi profesional mereka sendiri jika mereka ingin orang menganggapnya serius.


Pertanyaan

Apakah ini jawaban untuk masalah yang diidentifikasi ASA dengan nilai-p dan pengujian hipotesis nol? Bisakah itu benar-benar menyatukan paradigma Bayesian dan Frequentist (seperti yang secara implisit diklaim dalam respons)?

whuber
sumber
11
"Donald Trump untuk hakim STOP ASS tertinggi: buat statistik menjadi hebat lagi!"
Alex R.
14
Jelas STOP adalah prosedur yang tidak optimal. Saya terkejut bahwa ini telah lolos dari organisasi ulama yang begitu dihargai seperti ASS. Intinya, mengapa membuang-buang waktu melihat data sama sekali ? Cukup berikan jawaban ya / tidak. Metodologi ini saat ini sedang digunakan untuk efek yang besar. Studi kasus berlimpah, terutama di Amerika Serikat selama bertahun-tahun dibagi oleh 4.
kardinal
4
Saya pikir bisnis juga dapat memperoleh manfaat luar biasa dari mengadopsi metode ini, karena mereka tidak lagi harus menanggung biaya besar mempekerjakan orang untuk menganalisis data mereka.
dsaxton
4
@henry Seolah-olah tag [april-1] tidak memberi tahu kami tentang itu?
Glen_b
9
@Henry Serius? Dapatkah Anda menunjukkan kepada kita setiap organisasi palsu yang mendapat lebih dari seperempat juta hits saat Anda Google namanya?
whuber

Jawaban:

18

Saya telah advokasi untuk pendekatan baru saya sendiri untuk pengambilan keputusan statistik yang disebut Radd: R oll A D amn D yaitu. Ini juga membahas semua poin utama.

1) RADD dapat menunjukkan seberapa kompatibel data dengan model statistik yang ditentukan.

Jika Anda memutar angka yang lebih tinggi, jelas buktinya lebih mendukung model Anda! Manfaat tambahan adalah bahwa, jika kita menginginkan lebih banyak kepercayaan diri, kita dapat melempar dadu dengan lebih banyak sisi. Anda bahkan dapat menemukan 100 dadu sisi jika Anda cukup mencari!

2) RADD dapat memutuskan apakah hipotesis itu benar atau tidak.

Anda hanya perlu melempar dadu 2 sisi, yaitu melempar koin.

3) RADD dapat digunakan untuk membuat keputusan bisnis atau kebijakan

Dapatkan sekelompok pembuat kebijakan di sebuah ruangan, dan minta mereka semua melempar dadu! Kemenangan tertinggi!

4) RADD transparan.

Hasilnya dapat dicatat, dan dadu itu sendiri dapat disimpan untuk penelitian lebih lanjut *

5) RADD mengukur pentingnya hasil.

Jelas, bergulir lebih tinggi menandakan peristiwa yang sangat penting telah terjadi.

6) RADD memberikan ukuran bukti yang baik.

Bukankah kita mengatakan gulungan yang lebih tinggi lebih baik?

Jadi, tidak, BERHENTI bukanlah jawabannya. Jawabannya adalah RADD.

Matthew Drury
sumber
7
Tidak lupa, itu dapat memastikan kontrol kesalahan tipe I (pada tingkat yang diinginkan diberi dadu sisi yang cukup) misalnya dengan hanya menolak hipotesis nol ketika salah satu dari 5 sisi dengan jumlah dadu 100 sisi terbanyak muncul untuk mencapai tingkat kesalahan tipe 5% I.
Björn
17

p-nilai dan metode frekuensi, atau Bayesian lainnya. Dari perspektif bisnis, STOP memberikan jawaban yang sederhana dan pasti yang membuatnya lebih dapat diandalkan daripada metode "probabilistik" yang tidak pasti. Selain itu, dalam sebagian besar kasus lebih mudah untuk diimplementasikan dan lebih mudah untuk beradaptasi dengan kenyataan yang berubah daripada metode lain. Keputusan Ya / Tidak lebih meyakinkan untuk manajemen menengah dan senior. "Laporan STOP" dalam banyak kasus lebih pendek dan lebih mudah dibaca daripada yang berbasis data. Selain itu, mengadopsi metode ini memungkinkan perusahaan Anda untuk memotong biaya pada ilmuwan data dan lisensi SAS. Saya akan mengatakan bahwa satu-satunya masalah dengan STOP adalah bahwa lebih sulit untuk membuat presentasi PowerPoint menyajikan hasil STOP, tetapi ini adalah bidang yang berkembang secara dinamis, sehingga di masa depan metode visualisasi yang lebih baik dapat diusulkan.

Tim
sumber
6
Setelah PowerPoint slide dengan kesimpulan telah dijelaskan, sudah terlambat untuk mengubahnya, jadi ada dua pilihan, buat analisis sesuai dengan kesimpulan, atau jangan repot-repot melakukan analisis sama sekali.
Mark L. Stone
12
@ MarkL.Stone Tentu! Saya pribadi suka ide membuat plot untuk presentasi sebelum melihat data, ide itu berakar pada pemikiran Bayesian dan saya menyebutnya plot priori :) Saya pikir pendekatan ini pertama kali muncul dalam bentuk cetak di sini: dilbert.com/strip/ 2008-05-08
Tim
15

Ini baik-baik saja tambahan untuk debat nilai-p, menarik tetapi juga agak basi menurut saya, mengingatkan saya pada makalah unik yang diterbitkan beberapa tahun lalu dalam edisi Natal dari British Medical Journal (BMJ), yang setiap Natal menerbitkan penelitian nyata namun lucu artikel. Secara khusus, karya Isaacs dan Fitzgerald ini menyoroti tujuh alternatif utama untuk kedokteran berbasis bukti (yaitu praktik kedokteran berdasarkan bukti klinis dan statistik aktual):

  • Obat berbasis kemuliaan
  • Obat berbasis Vehemence
  • Obat berbasis fasih
  • Obat berbasis Providence
  • Obat berbasis perbedaan
  • Obat berbasis saraf
  • Obat berbasis kepercayaan

Yang paling menarik, Anda harus melihat kolom yang menyorot alat pengukur dan satuan pengukuran untuk item di atas (mis. Audiometer dan desibel untuk obat berbasis semangat!).

Giuseppe Biondi-Zoccai
sumber
4
+1. Terima kasih atas kontribusi yang luar biasa, sempurna dalam semangat pertanyaan. (1) Hanya untuk memperjelas: apakah debat nilai-p yang Anda temukan "basi" atau hanya pertanyaan ini? (2) Apakah Anda tahu di mana menemukan referensi (6), "J Gaji Eksponensial"? Saya yakin itu akan memiliki banyak pembaca setia jika lebih dikenal.
whuber
5
(1) Kontribusi Anda 'segar bersertifikat' (mengutip rottentomatoes.com). Sebaliknya, saya menemukan penekanan basi ini pada keterbatasan nilai p. Dalam era pembelajaran mesin, data besar, dan literasi sains yang buruk di kalangan publik, sikap ASA mungkin tampak agak masokis. (2) Saya pikir Anda akan menemukan artikel itu di jurnal yang sama di mana mereka menerbitkan percobaan acak yang direkomendasikan dalam artikel Natal BMJ ini: bmj.com/content/327/7429/1459 .
Joe_74
Saya selalu lupa, apakah Pengobatan Berbasis Keyakinan yang menggunakan inferensi berbasis Dunning-Kruger?
Alexis