Mengubah distribusi yang sangat miring

13

Asumsikan bahwa saya memiliki variabel yang distribusinya condong positif ke tingkat yang sangat tinggi, sehingga mengambil log tidak akan cukup untuk membawanya dalam kisaran skewness untuk distribusi normal. Apa opsi saya saat ini? Apa yang bisa saya lakukan untuk mengubah variabel menjadi distribusi normal?

histelheim
sumber
2
Hanya untuk memastikan, "condong negatif" berarti ekor panjang menunjuk ke kiri atau kanan? Jika benar-benar condong negatif (ekor panjang kiri), transformasi log tidak akan bekerja dengan baik.
Penguin_Knight
6
Transformasi timbal balik lebih kuat daripada logaritmik dan seringkali mempertahankan makna, karena unit pengukuran baru saja terbalik. Misalnya, kebalikan dari waktu untuk melakukan sesuatu adalah semacam kecepatan, dan sebaliknya. Kebalikan dari mil per galon atau km per liter masuk akal. Timbal balik membalikkan urutan dan dapat dinegasikan jika itu lebih disukai. Mereka secara alami adalah bagian dari skema Box-Cox dengan detail ekstra itu. Semua nilai harus positif agar ini berfungsi dengan baik. (Pada prinsipnya, ini akan bekerja dengan semua nilai negatif, tetapi saya belum melihat contoh dalam praktiknya.)
Nick Cox
2
@Aksakal Saya tidak bisa melihat sebagai ide yang baik. Hasilnya bermakna secara statistik hanya untuk nilai > 1 . Jika nilai dihitung, itu buatan bahwa transformasi tidak terdefinisi untuk 0s atau 1s, terlepas dari apakah nilai-nilai itu terjadi dalam data. Jika nilai pengukuran, pembatasan berarti bahwa validitas transformasi tergantung pada pilihan satuan pengukuran, yang tidak masuk akal, seolah-olah ln ( ln ( 0,7 ) ) tidak dapat dilakukan karena saya menggunakan cm, tetapi ln ( ln ( 7 ) )ln(ln())>1ln(ln(0.7))ln(ln(7))bisa dilakukan karena saya menggunakan mm. (Bahwa logaritma menghasilkan hasil yang kompleks untuk argumen negatif yang menurut saya tidak membantu secara statistik.)
Nick Cox
2
@Aksakal Terlalu kuat untuk mengatakan "transformasi log bukan alat untuk menyembuhkan kemiringan": jika kemiringan adalah satu-satunya masalah, log sering kali bekerja dengan sangat baik. Jika poin Anda adalah bahwa kemiringan distribusi marjinal tidak perlu menjadi masalah besar, saya cenderung setuju.
Nick Cox
3
Secara alami saya setuju, tetapi jika saya menggunakan kotak atau logaritma, saya tidak akan merasa berkewajiban untuk menawarkan referensi, dan juga di sini. Tetapi kegunaan dari timbal balik, khususnya waktu dan kecepatan, ditekankan oleh (misalnya) Tukey, JW 1977. Analisis data eksplorasi. Reading, MA: Addison-Wesley dan di beberapa makalahnya. Mil per galon dan galon per mil (atau sebaliknya liter per km dan km per liter) adalah tempat umum dalam diskusi tentang data kinerja mobil. Kepadatan dan kebalikannya adalah contoh yang cukup standar dalam geografi dan demografi.
Nick Cox

Jawaban:

13

Coba langsung transformasi Box-Cox sesuai Box, GEP dan Cox, DR (1964), "An Analysis of Transformations," Jurnal Masyarakat Statistik Kerajaan, Seri B , 26, 211--234. SAS memiliki deskripsi fungsi kemungkinan loglikasinya dalam Transformasi Normalisasi , yang dapat Anda gunakan untuk menemukan parameter optimal , yang dijelaskan dalam Atkinson, AC (1985), Plot, Transformasi, dan Regresi , New York: Oxford University Press.λ

Sangat mudah untuk mengimplementasikannya dengan fungsi LL, atau jika Anda memiliki paket stat seperti SAS atau MATLAB gunakan perintah mereka: itu perintah boxcox di MATLAB dan PROC TRANSREG di SAS.

Juga, dalam R ini dalam paket MASS, function boxcox ().

Aksakal
sumber
5

Untuk kemiringan positif (ekor berada di ujung positif sumbu x), terdapat transformasi akar kuadrat, transformasi log, dan transformasi invers / timbal balik (dalam urutan meningkatnya keparahan). Dengan demikian, jika transformasi log tidak cukup, Anda dapat menggunakan tingkat transformasi berikutnya. Box Cox menjalankan semua transformasi secara otomatis sehingga Anda dapat memilih yang terbaik.

Sarah Thomas
sumber
-5

Sebagian besar suite perangkat lunak akan menggunakan nomor Euler sebagai basis log default, AKA: natural log. Anda dapat menggunakan nomor pangkalan yang lebih tinggi untuk mengekang data yang terlalu miring kanan. Bagaimana Anda melakukannya sintaks tergantung pada perangkat lunak yang Anda gunakan.

Jika Anda perlu keluar dari Anda nilai-nilai yang ditransformasi setelah estimasi dilakukan, mungkin akan sedikit lebih mudah untuk menggunakan metode ini karena yang harus Anda lakukan adalah melakukan operator eksponensial pada variabel Anda dengan apa pun basis log Anda.

Matthew Brooks
sumber
6
e