Melakukan tes statistik setelah memvisualisasikan data - pengerukan data?

Saya akan mengajukan pertanyaan ini melalui contoh.

Misalkan saya memiliki satu set data, seperti set data harga perumahan boston, di mana saya memiliki variabel kontinu dan kategori. Di sini, kami memiliki variabel "kualitas", dari 1 hingga 10, dan harga jual. Saya dapat memisahkan data menjadi rumah-rumah berkualitas "rendah", "sedang" dan "tinggi" dengan cara (secara sewenang-wenang) membuat cutoff untuk kualitas. Kemudian, dengan menggunakan pengelompokan ini, saya dapat memetakan histogram dari harga jual satu sama lain. Seperti itu:

Di sini, "rendah" adalah , dan "tinggi" adalah pada skor "kualitas". Kami sekarang memiliki distribusi harga jual untuk masing-masing dari tiga kelompok. Jelas bahwa ada perbedaan di pusat lokasi untuk rumah-rumah berkualitas menengah dan tinggi. Sekarang, setelah melakukan semua ini, saya pikir "Hm. Tampaknya ada perbedaan di pusat lokasi! Mengapa saya tidak melakukan uji-t pada sarana?". Kemudian, saya mendapatkan nilai-p yang tampaknya menolak hipotesis nol dengan benar bahwa tidak ada perbedaan dalam rata-rata. $\leq 3$ $>7$

Sekarang, anggaplah saya tidak punya pikiran untuk menguji hipotesis ini sampai saya merencanakan data.

Apakah data ini pengerukan?

Apakah masih pengerukan data jika saya berpikir: "Hm, saya yakin rumah-rumah berkualitas lebih tinggi harganya lebih mahal, karena saya adalah manusia yang pernah tinggal di rumah sebelumnya. Saya akan memplot data. Ah ha! Tampak berbeda! Waktu untuk uji-t! "

Tentu saja, bukan pengerukan data jika kumpulan data dikumpulkan dengan maksud menguji hipotesis ini sejak awal. Tetapi seringkali kita harus bekerja dengan set data yang diberikan kepada kita, dan disuruh "mencari pola". Bagaimana seseorang menghindari pengerukan data dengan tugas yang tidak jelas ini dalam pikiran? Buat set penahan untuk menguji data? Apakah visualisasi "dihitung" sebagai pengintaian untuk menguji hipotesis yang disarankan oleh data?

hypothesis-testing data-visualization p-value dataset inference Marcel
sumber

Jawaban:

Secara singkat tidak setuju dengan / memberikan tandingan terhadap jawaban @ ingolifs: ya, memvisualisasikan data Anda sangat penting. Tetapi memvisualisasikan sebelum memutuskan analisis akan membawa Anda ke taman jalur bercabang Gelman dan Loken . Ini tidak sama dengan pengerukan data atau peretasan-p, sebagian melalui niat (GoFP biasanya bermaksud baik) dan sebagian karena Anda tidak dapat menjalankan lebih dari satu analisis. Tetapi ini adalah bentuk pengintaian: karena analisis Anda bergantung pada data, ini dapat mengarahkan Anda ke kesimpulan yang salah atau terlalu percaya diri.

Anda harus dengan cara tertentu menentukan apa analisis yang Anda maksudkan (mis. "Rumah berkualitas tinggi harus lebih tinggi harganya") dan menuliskannya (atau bahkan secara resmi mendaftar lebih dulu) sebelum melihat data Anda (tidak apa-apa untuk melihat variabel prediktor Anda di maju, hanya saja bukan variabel respons, tetapi jika Anda benar-benar tidak memiliki ide apriori maka Anda bahkan tidak tahu variabel mana yang mungkin merupakan prediktor dan yang mungkin merupakan respons); jika data Anda menyarankan beberapa analisis yang berbeda atau tambahan, maka tulisan Anda dapat menyatakan apa yang Anda maksudkan pada awalnya dan apa (dan mengapa) yang akhirnya Anda lakukan.

Jika Anda benar-benar melakukan eksplorasi murni (yaitu, Anda tidak memiliki hipotesis apriori , Anda hanya ingin melihat apa yang ada di data):

pemikiran Anda tentang memberikan sampel untuk konfirmasi adalah baik.
- Di dunia saya (saya tidak bekerja dengan kumpulan data besar) hilangnya resolusi karena ukuran sampel yang lebih rendah akan menyengsarakan
- Anda harus sedikit berhati-hati dalam memilih sampel penahan Anda jika data Anda terstruktur dengan cara apa pun (secara geografis, seri waktu, dll.). Berlangganan seolah-olah data itu sedikit mengarah ke kepercayaan diri yang berlebihan (lihat Wenger dan Olden Metode dalam Ekologi dan Evolusi 2012), jadi Anda mungkin ingin memilih unit geografis untuk bertahan (lihat DJ Harris Methods in Ecology and Evolution 2015 untuk contoh)
Anda bisa mengakui bahwa Anda sedang murni eksplorasi. Idealnya Anda akan menghindari nilai-p sepenuhnya dalam kasus ini, tetapi setidaknya memberitahu audiens Anda bahwa Anda berkeliaran di GoFP membuat mereka tahu bahwa mereka dapat mengambil nilai-p dengan butiran garam yang sangat besar.

Referensi favorit saya untuk "praktik statistik aman" adalah Strategi Pemodelan Regresi Harrell (Springer); ia menjabarkan praktik-praktik terbaik untuk inferensi vs prediksi vs eksplorasi, dengan cara yang keras namun praktis.

Ben Bolker
sumber

Sangat bagus! Saya berharap untuk merujuk orang ke jawaban ini di masa depan.

Hebat38

Jenis respon yang saya cari, terima kasih. Saya menganggap jawaban ini sebagai jawaban. Apakah Anda tahu sumber daya yang mengajarkan praktik statistik yang aman? Mungkin sedikit lebih luas cakupannya dari artikel (luar biasa) yang telah Anda posting

Marcel

Jawaban bagus (+1), tapi saya tidak setuju bahwa ini berbeda dengan pengerukan data; niat tidak relevan - efeknya sama.

Pasang kembali Monica

Saya benar-benar berpikir ada baiknya mempertahankan perbedaan antara berbagai bentuk pengintaian. Pengerukan bisa dibilang lebih parah karena melibatkan (1) tes eksplisit berganda daripada tes implisit multipel dan (2) pengujian bersyarat / lanjutan hingga p <0,05 (atau apa pun) tercapai. Efek kualitatifnya tentu sama.

Ben Bolker

Memvisualisasikan data adalah bagian yang tak terpisahkan dari analisis dan salah satu hal pertama yang harus Anda lakukan dengan kumpulan data yang tidak dikenal. Bola mata cepat data dapat menginformasikan langkah-langkah yang harus diambil selanjutnya. Memang, itu harus cukup jelas dengan melihat grafik bahwa artinya berbeda, dan saya tidak yakin mengapa T-test diperlukan untuk mengkonfirmasi ini - artinya cukup dipisahkan bahwa grafik itu sendiri adalah semua bukti yang saya akan lakukan memerlukan.

Pengerukan data, sejauh yang saya tahu dari wikipedia-ing cepat, adalah proses yang disengaja untuk mucking sekitar dengan data untuk memaksa tingkat kecocokan tertentu. Contohnya adalah: Membandingkan kumpulan data ke beberapa angka acak, tetapi membuat ulang angka acak hingga Anda mendapatkan seperangkat yang menguntungkan atau mencoba sejumlah besar bentuk regresi yang berbeda dan memilih yang dengan terlepas dari apakah Asumsinya sesuai. Pengerukan data tampaknya bukan sesuatu yang bisa Anda lakukan dengan mudah tanpa sengaja. $R^2$

Saya pikir ada pertanyaan yang lebih dalam di sini. Bagaimana Anda mempertahankan netralitas seperti zen dan menghindari bias ketika berhadapan dengan data secara ilmiah? Jawabannya adalah, Anda tidak. Atau lebih tepatnya, kamu tidak harus. Membentuk firasat dan hipotesis dan membangun narasi mental tentang apa artinya data, semuanya alami dan dapat diterima, asalkan Anda sadar bahwa Anda sedang melakukannya, dan siap secara mental untuk mempertimbangkan kembali semua hipotesis ini ketika dihadapkan dengan data yang saling bertentangan.

Ingolif
sumber

Visualisasi data sebelum menjalankan tes mungkin tidak berbahaya dalam kasus khusus ini. Namun, orang selanjutnya akan memvisualisasikan dimensi lain ... dan yang lain ... dan melihat scatterplots ... dan segera, seseorang akan menemukan sesuatu yang terlihat "cukup jelas" sehingga tes formal dan narasi datang secara alami. Oh ya, pengerukan data jelas merupakan sesuatu yang dapat Anda lakukan dengan mudah tanpa sengaja. Lihat "Taman jalur forking" Gelman .

S. Kolassa - Reinstate Monica