Sebagian besar waktu ketika orang berbicara tentang transformasi variabel (untuk variabel prediktor dan respon), mereka membahas cara untuk memperlakukan kemiringan data (seperti transformasi log, transformasi kotak dan transformasi cox, dll.). Apa yang saya tidak bisa mengerti adalah mengapa menghilangkan kemiringan dianggap sebagai praktik terbaik yang umum? Bagaimana skewness mempengaruhi kinerja berbagai jenis model seperti model berbasis pohon, model linier dan model non-linier? Model seperti apa yang lebih terpengaruh oleh kemiringan dan mengapa?
16
Jawaban:
Saat menghilangkan kemiringan, transformasi berusaha membuat dataset mengikuti distribusi Gaussian. Alasannya sederhana adalah bahwa jika dataset dapat ditransformasikan menjadi cukup dekat secara statistik dengan dataset Gaussian, maka set alat terbesar yang mungkin tersedia untuk mereka gunakan. Tes seperti ANOVA, -test, F -test, dan banyak lainnya tergantung pada data yang memiliki varian konstan ( σ 2 ) atau mengikuti distribusi Gaussian. 1t F σ2
Ada model yang lebih kuat 1 (seperti menggunakan uji Levine bukannya uji Bartlett), tetapi kebanyakan tes dan model yang bekerja dengan baik dengan distro lain mengharuskan Anda tahu apa distribusi Anda sedang bekerja dengan dan biasanya hanya yang sesuai untuk distribusi tunggal demikian juga.
Mengutip Buku Pegangan Statistik Teknik NIST :
dan di lokasi lain
sumber
Ini sebagian besar berlaku untuk model parametrik. Seperti yang dikatakan Tavrock, memiliki variabel respon yang tidak condong membuat perkiraan Gaussian dari estimasi parameter bekerja lebih baik, ini karena distribusi simetris konvergen jauh lebih cepat daripada yang condong ke Gaussian. Ini berarti bahwa, jika Anda memiliki data yang miring, mengubahnya akan membuat dataset lebih kecil paling sedikit untuk menggunakan interval kepercayaan yang tepat dan menguji parameter (interval prediksi masih tidak valid, karena bahkan jika data Anda sekarang simetris, Anda tidak bisa mengatakan itu normal, hanya estimasi parameter yang akan konvergen ke Gaussian).
Seluruh pidato ini adalah tentang distribusi terkondisi dari variabel respon, Anda bisa mengatakan: tentang kesalahan. Meskipun demikian, jika Anda memiliki variabel yang cenderung condong ketika Anda melihat distribusinya yang tidak berkondisi, itu mungkin bisa berarti bahwa ia memiliki distribusi yang condong condong. memasang model pada data Anda akan menjernihkan pikiran Anda tentang hal itu.
Dalam pohon keputusan saya akan pertama menunjukkan satu hal: tidak ada gunanya mengubah variabel penjelas miring, fungsi monotonik tidak akan mengubah apa pun; ini dapat berguna pada model linier, tetapi tidak pada pohon keputusan. Ini mengatakan, model CART menggunakan analisis varians untuk melakukan spit, dan varians sangat masuk akal untuk pencilan dan data yang miring, ini adalah alasan mengapa mengubah variabel respons Anda dapat sangat meningkatkan akurasi model Anda.
sumber
Saya percaya ini sangat artefak dari tradisi untuk kembali ke Gaussians karena sifat mereka yang bagus.
Tetapi ada alternatif distribusi yang bagus, misalnya gamma umum yang mencakup sejumlah bentuk dan bentuk distribusi miring yang berbeda.
sumber
Seperti pembaca lain katakan, beberapa latar belakang tentang apa yang Anda rencanakan untuk dicapai dengan data Anda akan sangat membantu.
Yang sedang berkata, ada dua doktrin penting dalam bidang statistik yang dikenal sebagai teorema batas pusat dan hukum sejumlah besar . Dengan kata lain, semakin banyak pengamatan yang dilakukan, semakin banyak dataset diharapkan mendekati distribusi normal , satu dengan mean, median, dan mode yang sama. Di bawah hukum jumlah besar, diharapkan bahwa penyimpangan antara nilai yang diharapkan dan nilai aktual pada akhirnya akan turun ke nol mengingat pengamatan yang memadai.
Oleh karena itu, distribusi normal memungkinkan peneliti untuk membuat prediksi yang lebih akurat tentang suatu populasi jika distribusi yang mendasarinya diketahui.
Skewness adalah ketika distribusi menyimpang dari ini, yaitu penyimpangan dapat condong secara positif atau negatif. Namun, teorema limit pusat berpendapat bahwa dengan diberikan sejumlah pengamatan yang cukup besar, hasilnya akan menjadi distribusi yang mendekati normal. Jadi, jika distribusinya tidak normal, selalu disarankan untuk mengumpulkan lebih banyak data terlebih dahulu sebelum mencoba mengubah struktur distribusi yang mendasarinya melalui prosedur transformasi yang Anda sebutkan.
sumber
Kapan kemiringan adalah hal yang buruk untuk dimiliki? Distribusi simetris (umumnya tetapi tidak selalu: misalnya, tidak untuk distribusi Cauchy) memiliki median, mode dan rata-rata yang sangat dekat satu sama lain. Jadi pertimbangkan, jika kita ingin mengukur lokasi suatu populasi, akan berguna untuk memiliki median, mode dan rata-rata yang dekat satu sama lain.
Sebagai contoh, jika kita mengambil logaritma distribusi pendapatan , kita mengurangi kecenderungan yang cukup sehingga kita bisa mendapatkan model lokasi pendapatan yang berguna. Namun, kita masih akan memiliki ekor kanan yang lebih berat dari yang kita inginkan. Untuk mengurangi itu lebih lanjut, kita mungkin menggunakan distribusi Pareto . Distribusi Pareto mirip dengan transformasi log-log dari data. Sekarang distribusi Pareto dan log-normal mengalami kesulitan pada skala pendapatan rendah. Misalnya, keduanya menderitadalam0 = - ∞ . Perawatan masalah ini tercakup dalam transformasi daya .
Contoh dari 25 pendapatan dalam kilo dolar yang diambil dari www.
Kemiringan kolom pertama adalah 0,99, dan yang kedua adalah -0,05. Kolom pertama kemungkinan tidak normal (Shapiro-Wilk p = 0,04) dan yang kedua tidak signifikan tidak normal (p = 0,57).
Jadi, pertanyaannya adalah, jika Anda adalah orang acak yang memiliki salah satu penghasilan yang terdaftar, apa yang akan Anda hasilkan? Apakah masuk akal untuk menyimpulkan bahwa Anda akan mendapatkan 90rb atau lebih dari rata-rata 84rb? Atau lebih mungkin untuk menyimpulkan bahwa bahkan median bias sebagai ukuran lokasi dan bahwaexp[ berarti ln( k $ ) ] 76,7 k, yang kurang dari median, juga lebih masuk akal sebagai perkiraan?
Jelas, log-normal di sini adalah model yang lebih baik dan rata-rata logaritma memberi kita ukuran lokasi yang lebih baik. Bahwa ini diketahui, jika tidak sepenuhnya dipahami, diilustrasikan oleh frasa "Saya mengantisipasi mendapat gaji 5 angka."
sumber
Sebagian besar hasil didasarkan pada asumsi Gaussian. Jika Anda memiliki distribusi miring, Anda tidak memiliki distribusi Gaussian, jadi mungkin Anda harus berusaha mati-matian untuk mengubahnya menjadi itu.
TAPI tentu saja, Anda dapat mencoba dengan GLM.
sumber
Saya pikir itu bukan hanya pemodelan tetapi otak kita tidak terbiasa bekerja dengan data yang sangat miring. Misalnya, sudah dikenal dalam keuangan perilaku bahwa kita tidak pandai memperkirakan probabilitas yang sangat rendah atau tinggi.
sumber