Mengapa data miring tidak disukai untuk pemodelan?

16

Sebagian besar waktu ketika orang berbicara tentang transformasi variabel (untuk variabel prediktor dan respon), mereka membahas cara untuk memperlakukan kemiringan data (seperti transformasi log, transformasi kotak dan transformasi cox, dll.). Apa yang saya tidak bisa mengerti adalah mengapa menghilangkan kemiringan dianggap sebagai praktik terbaik yang umum? Bagaimana skewness mempengaruhi kinerja berbagai jenis model seperti model berbasis pohon, model linier dan model non-linier? Model seperti apa yang lebih terpengaruh oleh kemiringan dan mengapa?

saurav shekhar
sumber
2
Untuk memberikan jawaban yang masuk akal, harap jelaskan apa yang Anda maksud dengan: a) data, b) pemodelan dan c) model. Pertanyaan kuncinya - seperti biasa - adalah apa yang ingin Anda lakukan dengannya . Tapi apa itu ?
kerub
Saya memperbarui jawaban saya untuk menambahkan beberapa kutipan yang relevan dan memperluas klaim.
Tavrock

Jawaban:

11

Saat menghilangkan kemiringan, transformasi berusaha membuat dataset mengikuti distribusi Gaussian. Alasannya sederhana adalah bahwa jika dataset dapat ditransformasikan menjadi cukup dekat secara statistik dengan dataset Gaussian, maka set alat terbesar yang mungkin tersedia untuk mereka gunakan. Tes seperti ANOVA, -test, F -test, dan banyak lainnya tergantung pada data yang memiliki varian konstan ( σ 2 ) atau mengikuti distribusi Gaussian. 1tFσ2

Ada model yang lebih kuat 1 (seperti menggunakan uji Levine bukannya uji Bartlett), tetapi kebanyakan tes dan model yang bekerja dengan baik dengan distro lain mengharuskan Anda tahu apa distribusi Anda sedang bekerja dengan dan biasanya hanya yang sesuai untuk distribusi tunggal demikian juga.

Mengutip Buku Pegangan Statistik Teknik NIST :

Dalam pemodelan regresi, kami sering menerapkan transformasi untuk mencapai dua tujuan berikut:

  1. untuk memenuhi homogenitas asumsi varian untuk kesalahan.
  2. untuk linierisasi fit sebanyak mungkin.

Dibutuhkan kehati-hatian dan penilaian agar kedua tujuan ini dapat bertentangan. Kami biasanya mencoba untuk mencapai varian homogen terlebih dahulu dan kemudian membahas masalah mencoba untuk linierisasi kecocokan.

dan di lokasi lain

Model yang melibatkan variabel respons dan variabel independen tunggal memiliki bentuk:

Ysaya=f(Xsaya)+Esaya

di mana adalah variabel respon, X adalah variabel independen, f adalah fungsi fit linier atau non-linear, dan E adalah komponen acak. Untuk model yang baik, komponen kesalahan harus berperilaku seperti:YXfE

  1. gambar acak (yaitu, independen);
  2. dari distribusi tetap;
  3. dengan lokasi tetap; dan
  4. dengan variasi tetap.

Selain itu, untuk model pemasangan biasanya diasumsikan lebih lanjut bahwa distribusi tetap adalah normal dan lokasi tetap adalah nol. Untuk model yang baik variasi tetap harus sekecil mungkin. Komponen yang diperlukan dari model pemasangan adalah untuk memverifikasi asumsi ini untuk komponen kesalahan dan untuk menilai apakah variasi untuk komponen kesalahan cukup kecil. Histogram, plot lag, dan plot probabilitas normal digunakan untuk memverifikasi asumsi distribusi tetap, lokasi, dan variasi pada komponen kesalahan. Plot variabel respon dan nilai prediksi versus variabel independen digunakan untuk menilai apakah variasinya cukup kecil. Plot residual versus variabel independen dan nilai prediksi digunakan untuk menilai asumsi independensi.

Menilai validitas dan kualitas kecocokan dalam hal asumsi di atas adalah bagian yang sangat vital dari proses pemasangan model. Tidak ada kecocokan yang harus dianggap lengkap tanpa langkah validasi model yang memadai.


  1. (disingkat) kutipan untuk klaim:
    • Breyfogle III, Forrest W. Menerapkan Six Sigma
    • Pyzdek, Thomas. Buku Pegangan Six Sigma
    • Montgomery, Douglas C. Pengantar Kontrol Kualitas Statistik
    • Ed. Cubberly, Willaim H dan Bakerjan, Ramon. Buku Pegangan dan Alat Teknisi Manufaktur: Edisi Desktop
Tavrock
sumber
Terima kasih atas tanggapan Anda, Tavrock. Tapi sejauh yang saya tahu, ANOVA atau uji-F dari uji tidak digunakan dalam pohon keputusan (setidaknya untuk melakukan split). Juga, dalam regresi linier sebagian besar asumsi mengenai bentuk distribusi terkait dengan kesalahan. Jika kesalahan miring maka tes ini gagal. Jadi, ini berarti bahwa kemiringan variabel prediktor seharusnya tidak mempengaruhi kualitas prediksi untuk model ini. Tolong koreksi saya jika saya salah. Terima kasih lagi!!
saurav shekhar
1
Bisakah Anda mengklarifikasi pertanyaan Anda - apakah Anda ingin tahu tentang mengubah variabel respons, atau tentang mengubah variabel prediktor, atau keduanya?
Groovy_Worm
1
@Groovy_Worm terima kasih telah menunjukkan itu. Dalam pertanyaan ini saya prihatin tentang kedua variabel prediktor dan respons.
saurav shekhar
Anda mungkin mencari pemodelan linier umum (GLM) . Dalam regresi linier, Anda biasanya mengasumsikan bahwa variabel dependen Anda mengikuti distribusi gaussian yang bergantung pada variabel acak X dan e . Dengan GLM, Anda dapat memperluas semesta Anda untuk memungkinkan (hampir) semua jenis distribusi untuk variabel dependen Anda, variabel independen Anda (melalui fungsi tautan yang Anda tentukan).
Chris K
7

Ini sebagian besar berlaku untuk model parametrik. Seperti yang dikatakan Tavrock, memiliki variabel respon yang tidak condong membuat perkiraan Gaussian dari estimasi parameter bekerja lebih baik, ini karena distribusi simetris konvergen jauh lebih cepat daripada yang condong ke Gaussian. Ini berarti bahwa, jika Anda memiliki data yang miring, mengubahnya akan membuat dataset lebih kecil paling sedikit untuk menggunakan interval kepercayaan yang tepat dan menguji parameter (interval prediksi masih tidak valid, karena bahkan jika data Anda sekarang simetris, Anda tidak bisa mengatakan itu normal, hanya estimasi parameter yang akan konvergen ke Gaussian).

Seluruh pidato ini adalah tentang distribusi terkondisi dari variabel respon, Anda bisa mengatakan: tentang kesalahan. Meskipun demikian, jika Anda memiliki variabel yang cenderung condong ketika Anda melihat distribusinya yang tidak berkondisi, itu mungkin bisa berarti bahwa ia memiliki distribusi yang condong condong. memasang model pada data Anda akan menjernihkan pikiran Anda tentang hal itu.

Dalam pohon keputusan saya akan pertama menunjukkan satu hal: tidak ada gunanya mengubah variabel penjelas miring, fungsi monotonik tidak akan mengubah apa pun; ini dapat berguna pada model linier, tetapi tidak pada pohon keputusan. Ini mengatakan, model CART menggunakan analisis varians untuk melakukan spit, dan varians sangat masuk akal untuk pencilan dan data yang miring, ini adalah alasan mengapa mengubah variabel respons Anda dapat sangat meningkatkan akurasi model Anda.

carlo
sumber
1

Saya percaya ini sangat artefak dari tradisi untuk kembali ke Gaussians karena sifat mereka yang bagus.

Tetapi ada alternatif distribusi yang bagus, misalnya gamma umum yang mencakup sejumlah bentuk dan bentuk distribusi miring yang berbeda.

menonjol
sumber
1

Seperti pembaca lain katakan, beberapa latar belakang tentang apa yang Anda rencanakan untuk dicapai dengan data Anda akan sangat membantu.

Yang sedang berkata, ada dua doktrin penting dalam bidang statistik yang dikenal sebagai teorema batas pusat dan hukum sejumlah besar . Dengan kata lain, semakin banyak pengamatan yang dilakukan, semakin banyak dataset diharapkan mendekati distribusi normal , satu dengan mean, median, dan mode yang sama. Di bawah hukum jumlah besar, diharapkan bahwa penyimpangan antara nilai yang diharapkan dan nilai aktual pada akhirnya akan turun ke nol mengingat pengamatan yang memadai.

Oleh karena itu, distribusi normal memungkinkan peneliti untuk membuat prediksi yang lebih akurat tentang suatu populasi jika distribusi yang mendasarinya diketahui.

Skewness adalah ketika distribusi menyimpang dari ini, yaitu penyimpangan dapat condong secara positif atau negatif. Namun, teorema limit pusat berpendapat bahwa dengan diberikan sejumlah pengamatan yang cukup besar, hasilnya akan menjadi distribusi yang mendekati normal. Jadi, jika distribusinya tidak normal, selalu disarankan untuk mengumpulkan lebih banyak data terlebih dahulu sebelum mencoba mengubah struktur distribusi yang mendasarinya melalui prosedur transformasi yang Anda sebutkan.

Michael Grogan
sumber
1

Kapan kemiringan adalah hal yang buruk untuk dimiliki? Distribusi simetris (umumnya tetapi tidak selalu: misalnya, tidak untuk distribusi Cauchy) memiliki median, mode dan rata-rata yang sangat dekat satu sama lain. Jadi pertimbangkan, jika kita ingin mengukur lokasi suatu populasi, akan berguna untuk memiliki median, mode dan rata-rata yang dekat satu sama lain.

Sebagai contoh, jika kita mengambil logaritma distribusi pendapatan , kita mengurangi kecenderungan yang cukup sehingga kita bisa mendapatkan model lokasi pendapatan yang berguna. Namun, kita masih akan memiliki ekor kanan yang lebih berat dari yang kita inginkan. Untuk mengurangi itu lebih lanjut, kita mungkin menggunakan distribusi Pareto . Distribusi Pareto mirip dengan transformasi log-log dari data. Sekarang distribusi Pareto dan log-normal mengalami kesulitan pada skala pendapatan rendah. Misalnya, keduanya menderitadalam0=-. Perawatan masalah ini tercakup dalam transformasi daya .

Contoh dari 25 pendapatan dalam kilo dolar yang diambil dari www.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

Kemiringan kolom pertama adalah 0,99, dan yang kedua adalah -0,05. Kolom pertama kemungkinan tidak normal (Shapiro-Wilk p = 0,04) dan yang kedua tidak signifikan tidak normal (p = 0,57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

Jadi, pertanyaannya adalah, jika Anda adalah orang acak yang memiliki salah satu penghasilan yang terdaftar, apa yang akan Anda hasilkan? Apakah masuk akal untuk menyimpulkan bahwa Anda akan mendapatkan 90rb atau lebih dari rata-rata 84rb? Atau lebih mungkin untuk menyimpulkan bahwa bahkan median bias sebagai ukuran lokasi dan bahwaexp[berartidalam(k$)]  76,7 k, yang kurang dari median, juga lebih masuk akal sebagai perkiraan?

Jelas, log-normal di sini adalah model yang lebih baik dan rata-rata logaritma memberi kita ukuran lokasi yang lebih baik. Bahwa ini diketahui, jika tidak sepenuhnya dipahami, diilustrasikan oleh frasa "Saya mengantisipasi mendapat gaji 5 angka."

Carl
sumber
0

Sebagian besar hasil didasarkan pada asumsi Gaussian. Jika Anda memiliki distribusi miring, Anda tidak memiliki distribusi Gaussian, jadi mungkin Anda harus berusaha mati-matian untuk mengubahnya menjadi itu.

TAPI tentu saja, Anda dapat mencoba dengan GLM.

Kebisingan Merah
sumber
0

Saya pikir itu bukan hanya pemodelan tetapi otak kita tidak terbiasa bekerja dengan data yang sangat miring. Misalnya, sudah dikenal dalam keuangan perilaku bahwa kita tidak pandai memperkirakan probabilitas yang sangat rendah atau tinggi.

Aksakal
sumber