Misalkan saya memiliki variabel leptokurtik yang ingin saya ubah menjadi normal. Transformasi apa yang dapat menyelesaikan tugas ini? Saya sadar betul bahwa mentransformasikan data mungkin tidak selalu diinginkan, tetapi sebagai upaya akademis, anggaplah saya ingin "memalu" data menjadi normal. Selain itu, seperti yang Anda tahu dari plot, semua nilai benar-benar positif.
Saya telah mencoba berbagai transformasi (hampir semua yang pernah saya lihat digunakan sebelumnya, termasuk , dll.), Tetapi tidak ada yang bekerja dengan baik. Apakah ada transformasi terkenal untuk membuat distribusi leptokurtik lebih normal?
Lihat contoh plot QQ Normal di bawah ini:
normal-distribution
data-transformation
kurtosis
qq-plot
Underminer
sumber
sumber
Jawaban:
Saya menggunakan distribusi berat ekor Lambert W x F untuk menggambarkan dan mengubah data leptokurtik. Lihat (saya) posting berikut untuk detail dan referensi lebih lanjut:
Berikut adalah contoh yang dapat direproduksi menggunakan paket LambertW R.
The qqplot× X∼ N( 2000 , 400 ) δ= 0,2 ≤ 5
yy
sangat dekat dengan qqplot Anda di pos asli dan data memang sedikit leptokurtic dengan kurtosis 5. Oleh karena itu data Anda dapat digambarkan dengan baik oleh distribusi Lambert W Gaussian dengan input dan parameter ekor (yang menyiratkan bahwa hanya beberapa saat hingga pesanan ada).X ∼ N ( 2000 , 400 ) δ = 0,2 ≤ 5Sekarang kembali ke pertanyaan Anda: bagaimana membuat data leptokurtik ini menjadi normal kembali? Kita dapat memperkirakan parameter distribusi menggunakan MLE (atau untuk metode saat menggunakan
IGMM()
),dan kemudian menggunakan transformasi inversif bijective (berdasarkanX
W_delta()
) untuk mengubah data menjadi input , yang - menurut desain - harus sangat dekat dengan normal.Voila!
sumber
Meskipun transformasi root cube tidak berhasil dengan baik, ternyata root kuadrat dan root three-quarter lebih jelas bekerja dengan baik.
Berikut adalah plot kepadatan kernel asli yang sesuai dengan plot QQ dari variabel leptokurtik dalam pertanyaan awal:
Setelah menerapkan transformasi akar kuadrat untuk penyimpangan, plot QQ terlihat seperti ini:
Lebih baik, tetapi bisa lebih dekat.
Memalu lagi, menerapkan transformasi tiga perempat root untuk penyimpangan memberikan:
Dan kepadatan kernel akhir dari variabel yang diubah ini terlihat seperti ini:
Terlihat dekat dengan saya.
sumber
Dalam banyak kasus, mungkin tidak ada transformasi monotonik sederhana yang akan menghasilkan hasil mendekati normal.
Sebagai contoh, bayangkan kita memiliki distribusi yang merupakan campuran terbatas dari distribusi lognormal dari berbagai parameter. Transformasi log akan mengubah komponen campuran menjadi normal, tetapi campuran normal dalam data yang diubah membuat Anda memiliki sesuatu yang tidak normal.
Atau mungkin ada transformasi yang relatif bagus, tetapi bukan dari salah satu bentuk yang Anda pikir akan coba - jika Anda tidak tahu distribusi data, Anda mungkin tidak menemukannya. Misalnya, jika data tersebut didistribusikan secara gamma, Anda bahkan tidak akan menemukan transformasi yang tepat untuk normalitas (yang tentunya ada) kecuali saya memberi tahu Anda dengan tepat apa distribusinya (meskipun Anda mungkin menemukan transformasi kubus-root yang dalam hal ini case akan membuatnya cukup dekat dengan normal asalkan parameter bentuk tidak terlalu kecil).
Ada banyak cara di mana data dapat terlihat cukup dapat diterima untuk ditransformasikan tetapi tidak terlihat bagus pada daftar transformasi yang jelas.
Jika Anda dapat memberi kami akses ke data, mungkin kami dapat melihat transformasi yang baik-baik saja - atau kami dapat menunjukkan kepada Anda mengapa Anda tidak akan menemukannya.
Hanya dari kesan visual di sana, itu terlihat seperti campuran dua normals dengan skala yang berbeda. Hanya ada sedikit sedikit asimetri, yang bisa Anda amati secara kebetulan. Berikut adalah contoh sampel dari campuran dua normals dengan rata-rata umum - seperti yang Anda lihat agak mirip plot Anda (tetapi sampel lain mungkin terlihat lebih berat atau lebih ringan berekor - pada ukuran sampel ini ada banyak variasi dalam urutan statistik di luar 1 sd kedua sisi rata-rata).
Sebenarnya di sini adalah milik Anda dan milik saya ditumpangkan:
sumber