Saya mendapatkan data, dan memplot distribusi data, dan menggunakan fungsi qqnorm, tetapi sepertinya tidak mengikuti distribusi normal, jadi distribusi mana yang harus saya gunakan untuk menggambarkan data?
Fungsi distribusi kumulatif empiris
distributions
PepsiCo
sumber
sumber
Jawaban:
Saya sarankan Anda mencoba distribusi Lambert W x F yang berat atau miring yang mencoba Lambert W x F (penafian: saya penulisnya). Dalam R mereka diimplementasikan dalam paket LambertW .
Mereka muncul dari transformasi parametrik, non-linear dari variabel acak (RV)X∼ F , ke versi berekor berat (condong) Y∼ Lambert W × F . UntukF menjadi Gaussian, ekor berat Lambert W x F berkurang menjadi milik Tukey h distribusi. (Di sini saya akan menguraikan versi heavy-tail, yang miring adalah analog.)
Mereka memiliki satu parameterδ≥ 0 (γ∈ R untuk Lambert miring x F) yang mengatur derajat bobot ekor (skewness). Secara opsional, Anda juga dapat memilih ekor berat kiri dan kanan yang berbeda untuk mencapai ekor berat dan asimetri. Ini mengubah Normal standarU∼N(0,1) ke Lambert W × Gaussian Z oleh
Jikaδ>0 Z memiliki ekor lebih berat daripada U ; untukδ=0 , Z≡U .
Jika Anda tidak ingin menggunakan Gaussian sebagai garis dasar, Anda dapat membuat versi Lambert W lain dari distribusi favorit Anda, misalnya, t, seragam, gamma, eksponensial, beta, ... Namun, untuk dataset Anda, double heavy- ekor Lambert W x Gaussian (atau kemiringan Lambert W xt) tampaknya menjadi titik awal yang baik.
Dalam praktiknya, tentu saja, Anda harus memperkirakanθ=(β,δ) dimana β adalah parameter distribusi input Anda (misalnya, β=(μ,σ) untuk seorang Gaussian, atau β=(c,s,ν) untuk sebuah t distribusi; lihat kertas untuk detailnya):
Karena generasi berekor berat ini didasarkan pada transformasi bijective dari RVs / data, Anda dapat menghapus ekor berekor dari data dan memeriksa apakah mereka bagus sekarang, yaitu, jika mereka Gaussian (dan mengujinya menggunakan tes Normality).
Ini bekerja cukup baik untuk dataset simulasi. Saya sarankan Anda mencobanya dan melihat apakah Anda juga bisa
Gaussianize()
data Anda .Namun, seperti yang ditunjukkan @whuber, bimodality dapat menjadi masalah di sini. Jadi mungkin Anda ingin memeriksa data yang diubah (tanpa ekor) apa yang terjadi dengan bimodality ini dan dengan demikian memberi Anda wawasan tentang cara memodelkan data (asli) Anda.
sumber
Ini terlihat seperti distribusi asimetris yang memiliki ekor lebih panjang, di kedua arah, dari distribusi normal.
Anda dapat melihat ekor panjang karena titik yang diamati lebih ekstrim daripada yang diharapkan di bawah distribusi normal, di sisi kiri dan kanan (yaitu masing-masing di bawah dan di atas garis).
Anda dapat melihat asimetri karena, di ekor kanan, sejauh mana titik-titik lebih ekstrim daripada apa yang diharapkan di bawah distribusi normal lebih besar daripada di ekor kiri.
Saya tidak dapat memikirkan distribusi "kalengan" yang memiliki bentuk ini tetapi tidak terlalu sulit untuk "memasak" distribusi yang memiliki properti yang disebutkan di atas.
Berikut ini adalah contoh yang disimulasikan
R
:Variabel di sini adalah campuran 50/50 antaraexponential(1) dan sebuah exponential(2) tercermin di sekitar 0. Pilihan ini dibuat karena akan secara asimetris, karena ada parameter laju yang berbeda, dan keduanya akan berekor panjang relatif terhadap distribusi normal, dengan ekor kanan lebih panjang, karena laju di tangan kanan sisi lebih besar.
Contoh ini menghasilkan qqplot dan CDF empiris yang sangat mirip (secara kualitatif) dengan apa yang Anda lihat:
sumber
Untuk mengetahui distribusi mana yang paling cocok, saya pertama-tama akan mengidentifikasi beberapa target distribusi potensial: Saya akan berpikir tentang proses dunia nyata yang menghasilkan data, kemudian saya akan memasukkan beberapa kepadatan potensial ke data dan membandingkan skor kemungkinan log mereka untuk melihat distribusi potensial mana yang paling cocok. Ini mudah di R dengan fungsi fitdistr di perpustakaan MASS.
Jika data Anda seperti Macro's z maka:
Jadi ini memberikan distribusi t yang paling cocok (dari yang kami coba) untuk data Makro. konfirmasikan ini dengan beberapa qqplot menggunakan parameter dari fitdistr.
Kemudian bandingkan plot ini dengan distribusi yang cocok lainnya.
sumber