Bisakah saya menguji hipotesis untuk data normal condong?

11

Saya memiliki kumpulan data, yang awalnya saya pikir didistribusikan secara normal. Kemudian saya benar-benar melihatnya, dan menyadari itu tidak, sebagian besar karena data miring, dan saya juga melakukan tes shapiro-wilks.

Saya masih ingin menganalisisnya menggunakan metode statistik, jadi saya ingin menguji hipotesis untuk kemiringan normal.

Jadi saya ingin tahu apakah ada cara untuk menguji normalitas condong, dan jika mungkin, perpustakaan untuk melakukan tes untuk saya.

Squidly
sumber

Jawaban:

8

ξωα

2ωϕ(xξω)Φ(α(xξω))

ϕ()Φ()

n

nlog(ω)+i=1nlogϕ(xξω)+logΦ(α(xξω))

Itu fakta bahwa tidak ada solusi bentuk tertutup untuk MLE ini. Tapi, itu bisa diselesaikan secara numerik. Misalnya, dalam R, Anda dapat mengkodekan fungsi kemungkinan sebagai (perhatikan, saya membuatnya kurang kompak / efisien daripada mungkin untuk membuatnya sepenuhnya transparan bagaimana ini menghitung fungsi kemungkinan di atas):

set.seed(2345)

# generate standard normal data, which is a special case
n = 100 
X = rnorm(n) 

# Calculate (negative) log likelihood for minimization
# P[1] is omega, P[2] is xi and P[3] is alpha
L = function(P)
{

    # positivity constraint on omega
    if( P[1] <= 0 ) return(Inf)

    S = 0
    for(i in 1:n) 
    {
        S = S - log( dnorm( (X[i] - P[2])/P[1] ) ) 
        S = S - log( pnorm( P[3]*(X[i] - P[2])/P[1] ) ) 
    }


    return(S + n*log(P[1]))
}

Sekarang kita hanya meminimalkan fungsi ini secara numerik (yaitu memaksimalkan kemungkinan). Anda dapat melakukan ini tanpa harus menghitung turunan dengan menggunakan Algoritma Simplex , yang merupakan implementasi default dalam optim()paket di R.

α=0

# log likelihood constraining alpha=0. 
L2 = function(Q) L(c(Q[1],Q[2],0))

# log likelihood from the constrained model
-optim(c(1,1),L2)$value
[1] -202.8816

# log likelihood from the full model
-optim(c(1,1,1),L)$value
[1] -202.0064

# likelihood ratio test statistic
LRT = 2*(202.8816-202.0064)

# p-value under the null distribution (chi square 1)
1-pchisq(LRT,1)
[1] 0.1858265

α=0

Di sini perbandingannya sederhana, karena distribusi normal adalah submodel. Dalam kasus lain yang lebih umum, Anda dapat membandingkan distribusi normal condong ke distribusi referensi lainnya dengan membandingkan, misalnya, AIC (seperti yang dilakukan di sini ) jika Anda menggunakan penduga kemungkinan maksimum dalam semua kecocokan yang bersaing. Misalnya, Anda dapat menyesuaikan data dengan kemungkinan maksimum di bawah distribusi gamma dan di bawah condong normal dan melihat apakah kemungkinan yang ditambahkan membenarkan kompleksitas tambahan dari condong-normal (3 parameter bukannya 2). Anda juga dapat mempertimbangkan untuk menggunakan satu sampel uji Kolmogorov Smirnov untuk membandingkan data Anda dengan perkiraan pemasangan terbaik dari keluarga condong-normal.

Makro
sumber
1
+1, saya pikir ini adalah jawaban yang jelas, menyeluruh & konstruktif. Saya punya 1 masalah penting dalam paragraf terakhir tentang penggunaan AIC. Masalah yang saya miliki dengan berbagai kriteria informasi adalah bahwa mereka menganggap semua parameter berkontribusi sama pada kemampuan model untuk menyesuaikan data. Ketika mengevaluasi berbagai model regresi berganda, saya pikir ini baik-baik saja; Namun jika memeriksa berbagai jenis distribusi, tidak jelas bagi saya a-priori bahwa semua parameter memiliki fleksibilitas yang sama. Jadi, saya tidak nyaman dengan itu. Apa posisi Anda dalam masalah ini?
gung - Reinstate Monica
αα=0α(μ,σ,α)
@ung, ini poin bagus. Saya menggunakan AIC sebagai contoh lebih dari apa pun - sesuatu yang lain dapat digunakan - tetapi saya telah melihat orang menggunakan AIC untuk membandingkan model dengan distribusi kesalahan yang berbeda, yang secara efektif membuat asumsi yang sama bahwa semua parameter "dibuat sama". Pernahkah Anda melihat literatur tentang hal ini? Saya tertarik.
Makro
α=0±.9α±αα
1
α
5

Saya seorang ahli statistik yang telah bekerja dalam profesi ini selama lebih dari 30 tahun dan sebelum membaca posting ini saya belum pernah mendengar tentang distribusi normal miring. Jika Anda memiliki data yang sangat miring mengapa secara khusus ingin melihat condong normal sebagai lawan lognormal atau gamma? Setiap kali Anda memiliki keluarga distribusi parametrik seperti gamma, lognormal, atau condong normal, Anda dapat menerapkan uji goodness of fit seperti chi-square atau Kolmogorov-Smirnov.

Michael R. Chernick
sumber
5
The condong normal Azzalini adalah distribusi populer yang diusulkan pada tahun 1985. Ini memiliki dukungan pada garis nyata.
1
@Prastrastator Saya tahu itu sekarang dan mungkin seharusnya sudah pernah mendengarnya sebelumnya. Tapi saya kira maksud saya adalah karena saya belum pernah mendengarnya mungkin itu sedikit lebih tidak jelas daripada distribusi miring lainnya. Saya mendapatkan poin tentang dukungan di seluruh baris nyata sebagai lawan dari contoh saya yang hanya mendukung [0.∞) atau {a, ∞) jika parameter shift ditambahkan. Distribusi ini semuanya hanya perkiraan untuk menggambarkan bagaimana data didistribusikan. Apakah kita benar-benar tahu bahwa semua nilai negatif itu mungkin? Dalam kasus praktis data mungkin memiliki batas bawah dan atas.
Michael R. Chernick
1
@Prastrastator Itu tidak ada hubungannya dengan komentar saya. Saya mengatakan bahwa data nyata sering benar-benar dibatasi bahkan ketika mereka dapat didekati dengan baik dengan distribusi tidak terbatas.
Michael R. Chernick
1
@Prastrastator Tidak cukup. Jika Anda diberi serangkaian angka yang terbatas, Anda tidak dapat memberi tahu dari data apakah mereka berasal dari distribusi yang terpisah atau berkelanjutan. Hal yang sama berlaku untuk batasan. Saya mengatakan bahwa terlepas dari data Anda akan tahu secara ketat berdasarkan apa yang Anda ukur apakah itu terikat dan terus menerus atau terpisah. Jika misalnya Anda mengukur berat seseorang, Anda tahu bahwa beratnya lebih besar dari 0 dan dibatasi di atas oleh batasan fisik, katakan 5000 pound.
Michael R. Chernick
1
Juga meskipun pengukuran berat hanya dapat ditentukan ke sejumlah tempat desimal, masuk akal untuk memperlakukan berat sebagai kontinu. Sekarang jika Anda akan membalik koin 10 kali Anda tahu bahwa jumlah kepala yang akan Anda dapatkan harus bilangan bulat antara 0 dan 10 (jadi diskrit dan dibatasi). Maksud saya adalah batas-batas pada distribusi biasanya sangat jelas. Tidak jelas saat memutuskan antara distribusi kontinu dan diskrit.
Michael R. Chernick
1

Jadi solusi saya pada akhirnya adalah mengunduh paket fGarch , dan snormFitdisediakan oleh fGarch untuk mendapatkan MLE untuk parameter ke Skewed-Normal.

Lalu saya menyambungkan parameter-parameter itu, dengan dsnormfungsi yang disediakan oleh fGarch, ke tes Kolmogorov-Smirnov.

Squidly
sumber
Bagaimana Anda bisa menggabungkan tes MLE dan Kolmogorov-Smirnov, yang merupakan tes nonparametrik?
Saya ingin menunjukkan bahwa saya tidak tahu apa yang saya lakukan, dan hanya berkeliaran dengan membabi buta. Saya berasumsi bahwa KS bekerja seperti chi-squared, dan melihat perbedaan antara data sampel apa yang saya miliki, dan seperti apa distribusi itu sendiri. R's ks.test menerima data sampel terlebih dahulu, dan kemudian distribusi, bersama dengan parameter untuk distribusi itu. Saya menggunakan MLE sebagai parameter. Juga, asumsi saya / remberance tentang bagaimana Chi-squared bekerja juga bisa salah ...
Squidly
H0:λ=0
H0=λ=0H0
1
@Prastrastator Ada banyak uji kelaikan berdasarkan cdf empiris. Kolmogorov Smirnov adalah satu. Tes ini dapat digunakan untuk membandingkan cdf empiris dengan distribusi tertentu (dan dengan penyesuaian ketika parameter yang tidak diketahui diperkirakan sebelum pengujian. Anda benar bahwa menolak distribusi untuk normal misalnya tidak memberi tahu perbedaan distribusinya. ingin melakukan ini secara formal ia dapat menguji kemiringan yang signifikan dan kemudian melakukan tes KS atau chi square untuk kemiringan normal. Penyesuaian dapat dilakukan untuk beberapa pengujian. Mengapa puas dengan OP?
Michael R. Chernick
0

Lihat http://www.egyankosh.ac.in/bitstream/123456789/25807/1/Unit6.pdf dan http://en.wikipedia.org/wiki/Skewness

Anda bisa menggunakan tes Karl Pearson untuk skewness. Rasio momen ketiga dengan kubus deviasi standar disebut koefisien skewness. Distribusi simetris akan memiliki kemiringan = 0

NaN
sumber
2
Saya tidak ingin mengetahui kemiringan data saya. Saya tahu itu miring. Saya ingin tahu apakah data saya mengikuti distribusi condong-normal.
Squidly
2
Perangkat lunak mana yang Anda gunakan, R memiliki paket 'sn' (condong normal) yang berisi fungsi yang menghitung perkiraan ML. Saya tidak yakin dengan fungsi persisnya - lihat situs ini azzalini.stat.unipd.it/SN untuk rincian tentang paket R
NaN
0

dalam SPSS Anda bisa mendapatkan perkiraan kemiringan (dengan menganalisis dan kemudian mendeskripsikan dan kemudian menandai kemiringan) kemudian Anda mendapatkan skor skewness dan SE (standard error) skewness. Bagi skewness dengan SE-nya dan jika skor Anda antara + -1,96 biasanya skewd. Jika tidak miring maka ada banyak tes non-parametrik di luar sana! Semoga sukses dan yang terbaik!

uri
sumber