Apa masalah dengan pengujian post-hoc?

15

Profesor statistik saya mengatakan demikian, semua buku yang saya lihat nyatakan: post-hoc-test tidak ilmiah. Anda harus menurunkan hipotesis dari teori terlebih dahulu, lalu mengumpulkan data dan menganalisisnya.

Tapi saya benar-benar tidak mengerti apa masalahnya.

Misalkan, saya melihat angka penjualan untuk warna mobil yang berbeda dan membentuk hipotesis bahwa dari jumlah mobil yang berbeda warna yang dijual, kelompok mobil terbesar di jalanan harus berwarna putih. Jadi saya duduk di suatu jalan suatu hari dan mencatat semua warna dari semua mobil yang melintas saya. Lalu saya melakukan beberapa tes dan menemukan apa pun.

Sekarang, seandainya saya bosan dan duduk di suatu jalan suatu hari dan mencatat semua warna semua mobil yang melewati saya. Karena saya suka grafik, saya memetakan histogram yang cantik dan menemukan bahwa mobil putih membentuk kelompok terbesar. Jadi saya pikir mungkin sebagian besar mobil di jalanan berwarna putih dan melakukan beberapa tes.

Bagaimana dan mengapa hasil atau interpretasi hasil tes post-hoc berbeda dari orang-orang dari tes hipotesis * didorong teori?

* Apa nama kebalikan dari tes post-hoc?


Saya ingin menambahkan bahwa sebagian besar pengetahuan kita tentang alam semesta (Bumi bergerak mengelilingi Matahari) disimpulkan setelah pengamatan.

Tampak bagi saya bahwa dalam fisika, boleh saja berasumsi bahwa bukan kebetulan bahwa matahari telah terbit di Timur selama seribu tahun terakhir.


sumber
2
Masalahnya dicontohkan di sini & di sini .
Scortchi
@Scortchi Hmm, terima kasih, tapi yang bisa saya temukan adalah: "Ini akan menjadi penyalahgunaan pengujian statistik, seperti yang telah dijelaskan dan diperlihatkan di banyak tempat." Sisa dari komentar dan jawaban tampaknya tidak menjelaskan masalah pengujian post-hoc, tetapi pengujian secara umum.
2
Bandingkan jawaban amoeba (setara dengan skenario 1 Anda) dengan whuber (setara dengan 2 Anda).
Scortchi
3
Hanya catatan bahwa kebalikan dari post-hoc adalah apriori. @whuber jawaban di posting yang ditautkan di atas cukup komprehensif, tetapi Anda bisa mencari analisis data eksplorasi vs analisis data konfirmasi.
Peter Flom - Reinstate Monica
Ini terkait secara tangensial tetapi mungkin menarik bagi orang yang membaca pertanyaan ini: andrewgelman.com/2014/12/20/…
shadowtalker

Jawaban:

12

"Kau tahu, hal paling menakjubkan terjadi padaku malam ini. Aku datang ke sini, dalam perjalanan ke kuliah, dan aku masuk melalui tempat parkir. Dan kau tidak akan percaya apa yang terjadi. Aku melihat mobil dengan lisensi pelat ARW 357. Bisakah Anda bayangkan? Dari jutaan pelat nomor di negara bagian itu, apa peluang saya melihat yang khusus malam ini? Luar biasa! " Richard Feynman

Saya merasa bahwa saya tidak dalam posisi untuk menjelaskan aspek teknis yang mendalam dari masalah ini. Namun saya pikir banyak dari mereka dapat direduksi menjadi intuisi.

Pada pengaturan pertama Anda mulai dengan beberapa hipotesis yang Anda verifikasi pada data baru (dari percobaan yang dirancang). Mempelajari angka-angka penjualan dapat mengarahkan Anda ke eksperimen yang dirancang dengan sangat baik, di mana Anda benar-benar dapat memutuskan seberapa kuat jawaban Anda seharusnya (kekuatan statistik, nilai-p, ukuran sampel, dan banyak hal lainnya).

Pada set kedua pertama-tama adalah Anda tidak memutuskan apa pun tentang kekuatan jawaban. Ini satu masalah. Masalah kedua adalah bahwa mengekstraksi hipotesis dari sampel yang sama yang digunakan untuk tes, akan meningkat dengan cara yang sangat tidak terkendali peluang bahwa pola acak ditafsirkan sebagai informasi yang berharga. Yang Anda lakukan adalah memperhatikan sesuatu (bahwa mobil putih dalam jumlah banyak) dan tanyakan pada diri sendiri apakah ini penting. Intinya adalah bahwa Anda memilih hanya fakta penting yang terlihat pada sampel itu, membuang hipotesis lain. Melakukan hal itu Anda menciptakan kondisi yang menguntungkan untuk beberapa hipotesis, dan Anda mematahkan asumsi sebagian besar tes statistik apriori.

Tidak ilmiah untuk berperilaku seperti Anda tidak tahu tentang kebocoran ini , dan berpura-pura bahwa ini adalah percobaan dengan semua asumsinya, ketika itu tidak benar. Dalam kasus ini adalah ilmiah untuk menggunakan analisis post hoc untuk merumuskan hipotesis dan merancang eksperimen baru untuk mengujinya.

rapaio
sumber
Tetapi bukankah eksperimen, yang dibuat khusus untuk hipotesis, bentuk paling ekstrim dari kondisi "menguntungkan"?
1
Satu-satunya hal yang "mendukung" percobaan adalah soliditas jawabannya. Dan di antara hal-hal lain, ia mencoba untuk "tidak mendukung" hipotesis tertentu.
rapaio
4

Jika Anda pertama-tama mengumpulkan data dan kemudian membangun teori berdasarkan data, Anda berada dalam bahaya menyesuaikan cerita dengan pengamatan Anda. Masalahnya adalah kita manusia sangat pandai menulis cerita. Dengan kata lain: data apa pun dapat "dijelaskan" oleh sebuah cerita, jika cerita itu cukup berbelit-belit.

Proses ini memberikan anekdot yang bagus. Namun, tidak ada alasan mengapa harus menjelaskan realitas dan / atau memberikan prediksi yang baik. Anda perlu mengatur dan memvalidasi model untuk itu.

xkcd mencatat bahwa fenomena ini meresapi "komentar" olahraga :

komentar olahraga

Terkait adalah fenomena pareidolia : melihat pola di mana tidak ada. Lihat, misalnya, "Wajah" yang dilihat orang di citra satelit Mars sebelumnya:

Wajah Mars

Plus, saat Anda mengumpulkan lebih banyak data, Anda harus berhati-hati agar tidak mengubah cerita Anda dengan cara yang lebih aneh untuk membuatnya "melanjutkan" untuk "menjelaskan" pengamatan Anda :

preseden pemilihan

Stephan Kolassa
sumber
2

Sains beroperasi dengan membentuk hipotesis (yang tentu saja termotivasi oleh pengalaman), membuat prediksi berdasarkan hipotesis tersebut dan kemudian mengujinya. Apakah masuk akal untuk mengamati sesuatu di masa lalu, menggeneralisasikan pengamatan ini menjadi sebuah teori, tetapi kemudian memperlakukan masa lalu itu sendiri sebagai semacam eksperimen retroaktif yang secara otomatis memvalidasi teori? Tidak, karena seluruh pertanyaannya adalah seberapa baik teori Anda digeneralisasikan, bukan apakah itu berfungsi atau tidak di masa lalu. Inilah sebabnya mengapa pengujian hipotesis yang disarankan oleh data dianggap ilmu yang buruk.

dsaxton
sumber
1

Profesor Anda dan jawaban lain benar bahwa analisis post-hoc memiliki masalah. Namun, Anda juga benar bahwa banyak ilmu pengetahuan yang baik berasal dari analisis post-hoc. Poin kuncinya adalah bahwa eksperimen yang dirancang dengan baik harus lebih disukai dan bahwa analisis post-hoc harus ditangani dengan hati-hati dan dengan alat khusus untuk mencegah artefak palsu yang hilang oleh penemuan yang sebenarnya. Artikel Wikipedia tentang tingkat penemuan yang salah dapat memberikan wawasan tentang masalah tersebut.

Sekedar memberi beberapa contoh:

  • Jika kita mengambil tindakan biometrik pada seluruh populasi sapi dunia, kita dapat menyimpulkan bahwa sapi memiliki dua lubang hidung. Itu sebenarnya adalah analisis post-hoc, tetapi sebagian besar biologi, vulkanologi atau sejarah telah dibangun dengan cara ini. Alasan kami tidak menampik fakta bahwa ternak memiliki dua lubang hidung adalah bukti yang mendukungnya menjadi sangat luar biasa.
  • Kami mengambil data dari anak sapi yang lahir pada tahun sebelumnya di peternakan sapi tertentu. Kami menyadari bahwa setiap hari Selasa di bawah bulan purnama, lebih dari 50% anak sapi yang baru lahir adalah betina - kecuali hari libur umum di negara itu atau pada hari Selasa musim dingin. Jika sebelumnya kita membuat hipotesis bahwa hari-hari seperti itu menghasilkan lebih banyak betis betina, kita bisa melakukan tes hipotesis dan menerima (atau menolak) hipotesis itu. Namun, jika kita memperhitungkan bahwa ini hanya analisis pasca-hoc, bukti tidak akan cukup untuk menolak fenomena palsu.

Ada artikel yang sering dikutip yang ironisnya menolak semua bukti bahwa parasut bermanfaat sebagai anekdotal - yang hanya merupakan kelas bukti yang sangat buruk berdasarkan analisis post-hoc.

Dan untuk menggunakan contoh yang baik yang digunakan oleh jawaban Stephan Kolassa: beberapa bintik hitam yang menyerupai wajah di Mars dapat ditolak sebagai pareidolia, tetapi sesuatu yang mereproduksi Perjamuan Terakhir oleh Leonardo Da Vinci hingga detail paling rumit tidak bisa.

Pere
sumber
0

Jika Anda tidak memiliki teori yang mendukung proposisi Anda, maka bahkan jika proposisi Anda divalidasi, itu bisa melalui kebetulan dan tidak membuktikan apa pun. Sebagai contoh, saya menemukan bahwa saya melakukan potty ketika matahari terbit dan telah melakukan itu selama 10 tahun terakhir - berdasarkan data ini, analisis post-hoc memberi tahu saya bahwa ada hubungan antara potty yang saya lakukan dan matahari terbit, padahal yang ada hanyalah kebetulan. Matahari tidak terbit karena Anda menggunakan pispot atau sebaliknya.

Hidup ini penuh dengan kebetulan. Proposisi yang didukung teori menghilangkan kebetulan atau hubungan semu seperti itu.

Jake
sumber
Jika saya punya teori dan hasilnya sesuai dengan teori itu, bisa jadi kebetulan juga. Itulah sebabnya teori tidak dapat divalidasi, hanya dipalsukan. Dan sebenarnya, ada hubungan antara gerakan usus pagi dan matahari terbit, karena gerakan matahari menentukan ritme diurnal dengan pada gilirannya mempengaruhi gerakan usus.
0

Inilah intuisi yang mungkin berguna bagi Anda. Jika Anda bosan dan menghitung mobil, Anda masih harus ingat bahwa apa yang Anda lihat adalah hasil dari beberapa proses acak. Secara khusus, mobil-mobil itu bisa memiliki warna yang berbeda.

Oleh karena itu jika Anda membentuk hipotesis bahwa warna yang paling sering adalah putih, jika mungkin karena itu sebenarnya adalah tetapi bisa juga bahwa warna yang paling sering adalah merah tetapi, pada percobaan tertentu, yang paling sering adalah putih (yang selalu mungkin ).

Sekarang, jika Anda melakukan post-hoc , Anda akan menguji untuk putih menjadi yang paling sering dan, mengingat bahwa data menyarankan bahwa sangat hipotesis, Anda mungkin menyimpulkan bahwa putih adalah yang paling sering ... Setidaknya, data tidak akan pernah bertentangan hipotesis (post-hoc).

AG
sumber