Kami telah menjalankan uji coba fitur produk baru dan ingin mengukur apakah peningkatan pada pendapatan signifikan. Pengamatan kami jelas tidak terdistribusi normal (sebagian besar pengguna kami tidak membelanjakan, dan di antara mereka yang melakukannya, sangat condong ke banyak pembelanja kecil dan beberapa pembelanja sangat besar).
Kami telah memutuskan untuk menggunakan bootstrap untuk membandingkan cara, untuk menyelesaikan masalah data yang tidak terdistribusi secara normal (pertanyaan tambahan: apakah ini penggunaan bootstrap yang sah?)
Pertanyaan saya adalah, apakah saya perlu memangkas outliers dari kumpulan data (mis. Beberapa pembelanja sangat besar) sebelum saya menjalankan bootstrap, atau apakah itu tidak masalah?
Jawaban:
Sebelum membahas ini, penting untuk mengakui bahwa malpraktek statistik "menghapus pencilan" telah secara salah diumumkan dalam banyak pedagogi statistik yang diterapkan. Secara tradisional, outlier didefinisikan sebagai leverage tinggi, pengamatan pengaruh tinggi. Seseorang dapat dan harus mengidentifikasi pengamatan tersebut dalam analisis data, tetapi kondisi-kondisi itu saja tidak menjamin menghilangkan pengamatan tersebut. "Pencilan sejati" adalah pengamatan pengaruh tinggi / pengaruh tinggi yang tidak konsisten dengan replikasi desain eksperimental. Untuk menganggap pengamatan seperti itu membutuhkan pengetahuan khusus tentang populasi itu dan ilmu di balik "mekanisme menghasilkan data". Aspek yang paling penting adalah Anda harus dapat mengidentifikasi apriori outlier potensial .
Sedangkan untuk aspek bootstrap, bootstrap dimaksudkan untuk mensimulasikan penarikan yang independen dan berulang dari populasi sampel. Jika Anda menentukan kriteria pengecualian dalam rencana analisis Anda , Anda masih harus meninggalkan nilai-nilai yang dikecualikan dalam distribusi sampling bootstrap referensi . Ini karena Anda akan memperhitungkan hilangnya daya karena menerapkan pengecualian setelah mengambil sampel data Anda. Namun, jika tidak ada kriteria eksklusi yang ditentukan sebelumnya dan outlier dihapus menggunakan ajudikasi post hoc , karena saya jelas menentang, menghapus nilai-nilai ini akan menyebarkan kesalahan yang sama dalam inferensi yang disebabkan oleh menghapus outlier.
Pertimbangkan studi tentang kekayaan dan kebahagiaan dalam sampel acak sederhana yang tidak terstratifikasi yang terdiri dari 100 orang. Jika kita mengambil pernyataan, "1% dari populasi memiliki 90% dari kekayaan dunia" secara harfiah, maka kita akan mengamati, secara rata-rata, satu nilai yang sangat berpengaruh. Anggap lebih jauh bahwa, di luar memberikan kualitas hidup yang mendasar, tidak ada kebahagiaan berlebih yang disebabkan oleh pendapatan yang lebih besar (tren linear yang tidak konstan). Jadi individu ini juga leverage yang tinggi.
Koefisien regresi kuadrat terkecil yang cocok pada data yang tidak dicacah memperkirakan tren rata-rata populasi urutan pertama dalam data ini. Ini sangat dilemahkan oleh 1 individu kami dalam sampel yang kebahagiaannya konsisten dengan orang-orang yang berada di dekat tingkat pendapatan rata-rata. Jika kita menghapus individu ini, kemiringan regresi kuadrat terkecil jauh lebih besar, tetapi varians dari regressor berkurang, maka kesimpulan tentang asosiasi kira-kira sama. Kesulitan melakukan ini adalah bahwa saya tidak menentukan kondisi di mana individu akan dikeluarkan. Jika peneliti lain meniru desain penelitian ini, mereka akan mengambil sampel rata-rata satu orang berpenghasilan tinggi, cukup senang, dan mendapatkan hasil yang tidak sesuai dengan hasil "pangkas" saya.
Jika kita apriori tertarik pada asosiasi kebahagiaan penghasilan moderat, maka kita seharusnya sudah menentukan sebelumnya bahwa kita akan, misalnya "membandingkan individu yang berpenghasilan kurang dari $ 100.000 per tahun pendapatan rumah tangga". Jadi menghapus outlier menyebabkan kita memperkirakan asosiasi yang tidak bisa kita gambarkan, maka nilai-p tidak ada artinya.
Di sisi lain, peralatan medis yang salah perhitungan dan kebohongan survei yang dilaporkan sendiri dapat dihilangkan. Semakin akurat kriteria eksklusi tersebut dapat dijelaskan sebelum analisis yang sebenarnya terjadi, semakin valid dan konsisten hasil yang dihasilkan oleh analisis tersebut.
sumber
Memandang hal ini sebagai masalah pencilan tampaknya salah bagi saya. Jika "<10% dari pengguna menghabiskan sama sekali", Anda perlu memodelkan aspek itu. Regresi Tobit atau Heckman akan menjadi dua kemungkinan.
sumber