Saya akan mengajukan pertanyaan ini melalui contoh.
Misalkan saya memiliki satu set data, seperti set data harga perumahan boston, di mana saya memiliki variabel kontinu dan kategori. Di sini, kami memiliki variabel "kualitas", dari 1 hingga 10, dan harga jual. Saya dapat memisahkan data menjadi rumah-rumah berkualitas "rendah", "sedang" dan "tinggi" dengan cara (secara sewenang-wenang) membuat cutoff untuk kualitas. Kemudian, dengan menggunakan pengelompokan ini, saya dapat memetakan histogram dari harga jual satu sama lain. Seperti itu:
Di sini, "rendah" adalah , dan "tinggi" adalah pada skor "kualitas". Kami sekarang memiliki distribusi harga jual untuk masing-masing dari tiga kelompok. Jelas bahwa ada perbedaan di pusat lokasi untuk rumah-rumah berkualitas menengah dan tinggi. Sekarang, setelah melakukan semua ini, saya pikir "Hm. Tampaknya ada perbedaan di pusat lokasi! Mengapa saya tidak melakukan uji-t pada sarana?". Kemudian, saya mendapatkan nilai-p yang tampaknya menolak hipotesis nol dengan benar bahwa tidak ada perbedaan dalam rata-rata.
Sekarang, anggaplah saya tidak punya pikiran untuk menguji hipotesis ini sampai saya merencanakan data.
Apakah data ini pengerukan?
Apakah masih pengerukan data jika saya berpikir: "Hm, saya yakin rumah-rumah berkualitas lebih tinggi harganya lebih mahal, karena saya adalah manusia yang pernah tinggal di rumah sebelumnya. Saya akan memplot data. Ah ha! Tampak berbeda! Waktu untuk uji-t! "
Tentu saja, bukan pengerukan data jika kumpulan data dikumpulkan dengan maksud menguji hipotesis ini sejak awal. Tetapi seringkali kita harus bekerja dengan set data yang diberikan kepada kita, dan disuruh "mencari pola". Bagaimana seseorang menghindari pengerukan data dengan tugas yang tidak jelas ini dalam pikiran? Buat set penahan untuk menguji data? Apakah visualisasi "dihitung" sebagai pengintaian untuk menguji hipotesis yang disarankan oleh data?
Memvisualisasikan data adalah bagian yang tak terpisahkan dari analisis dan salah satu hal pertama yang harus Anda lakukan dengan kumpulan data yang tidak dikenal. Bola mata cepat data dapat menginformasikan langkah-langkah yang harus diambil selanjutnya. Memang, itu harus cukup jelas dengan melihat grafik bahwa artinya berbeda, dan saya tidak yakin mengapa T-test diperlukan untuk mengkonfirmasi ini - artinya cukup dipisahkan bahwa grafik itu sendiri adalah semua bukti yang saya akan lakukan memerlukan.
Pengerukan data, sejauh yang saya tahu dari wikipedia-ing cepat, adalah proses yang disengaja untuk mucking sekitar dengan data untuk memaksa tingkat kecocokan tertentu. Contohnya adalah: Membandingkan kumpulan data ke beberapa angka acak, tetapi membuat ulang angka acak hingga Anda mendapatkan seperangkat yang menguntungkan atau mencoba sejumlah besar bentuk regresi yang berbeda dan memilih yang dengan terlepas dari apakah Asumsinya sesuai. Pengerukan data tampaknya bukan sesuatu yang bisa Anda lakukan dengan mudah tanpa sengaja.R2
Saya pikir ada pertanyaan yang lebih dalam di sini. Bagaimana Anda mempertahankan netralitas seperti zen dan menghindari bias ketika berhadapan dengan data secara ilmiah? Jawabannya adalah, Anda tidak. Atau lebih tepatnya, kamu tidak harus. Membentuk firasat dan hipotesis dan membangun narasi mental tentang apa artinya data, semuanya alami dan dapat diterima, asalkan Anda sadar bahwa Anda sedang melakukannya, dan siap secara mental untuk mempertimbangkan kembali semua hipotesis ini ketika dihadapkan dengan data yang saling bertentangan.
sumber