Apa tes statistik standar untuk melihat apakah data mengikuti distribusi eksponensial atau normal?

12

Apa tes statistik standar untuk melihat apakah data mengikuti distribusi eksponensial atau normal?

smo
sumber
2
Tes terbaik mungkin tergantung pada mengapa Anda menguji normalitas / eksponensial (jadi beberapa latar belakang akan sangat membantu) tetapi Anda selalu dapat menggunakan tes Kolmogorov Smirnov untuk menguji apakah kumpulan data yang diberikan sesuai dengan distribusi yang ditentukan sebelumnya ( en.wikipedia .org / wiki / Kolmogorov% E2% 80% 93Smirnov_test ). Ada banyak metode yang digunakan untuk distribusi normal secara khusus: en.wikipedia.org/wiki/Normality_test
Makro
Variabel yang saya hadapi cenderung mengikuti distribusi normal atau eksponensial. Juga, saya memiliki faktor yang tidak saya pedulikan. Namun, itu memberlakukan beberapa variabilitas pada data saya. Oleh karena itu, saya ingin menormalkan variabel untuk menekan efek dari faktor gangguan ini. Jadi, saya pikir lebih baik untuk menormalkan setiap variabel berdasarkan distribusi yang mendasarinya. Itu sebabnya saya perlu tes untuk memutuskan antara dua distribusi ini.
smo
1
Apa arti normalisasi dalam kalimat ini: Saya pikir lebih baik untuk menormalkan setiap variabel berdasarkan distribusi yang mendasarinya ?
Makro
2
Meskipun bukan tes, plot QQ luar biasa untuk membuat inspeksi intuitif cepat apakah data Anda cocok dengan distribusi.
naught101

Jawaban:

13

Tampaknya Anda mencoba memutuskan apakah akan memodelkan data Anda menggunakan distribusi normal atau eksponensial. Ini agak aneh bagi saya, karena distribusi ini sangat berbeda satu sama lain.

Distribusi normal simetris sedangkan distribusi eksponensial sangat condong ke kanan, tanpa nilai negatif. Biasanya sampel dari distribusi eksponensial akan berisi banyak pengamatan yang relatif dekat dengan dan beberapa obervasi yang menyimpang jauh ke kanan dari . Perbedaan ini seringkali mudah dilihat secara grafis.00

Berikut adalah contoh di mana saya telah mensimulasikan pengamatan dari distribusi normal dengan rata-rata dan varian dan distribusi eksponensial dengan rata-rata dan varian :n=1002424

Normal vs eksponensial: data disimulasikan

Simetri distribusi normal dan kemiringan eksponensial dapat dilihat dengan menggunakan histogram, boxplots, dan scatterplots, seperti yang diilustrasikan dalam gambar di atas.

Alat lain yang sangat berguna adalah plot-QQ . Dalam contoh di bawah ini, titik-titik harus kira-kira mengikuti garis jika sampel berasal dari distribusi normal. Seperti yang Anda lihat, ini adalah kasus untuk data normal, tetapi tidak untuk data eksponensial.

QQ-plot untuk data yang disimulasikan

Jika pemeriksaan grafis untuk beberapa alasan tidak cukup untuk Anda, Anda masih dapat menggunakan tes untuk menentukan apakah distribusi Anda normal atau eksponensial. Karena distribusi normal adalah skala dan lokasi keluarga, Anda akan ingin menggunakan tes yang tidak berubah di bawah perubahan skala dan lokasi (yaitu hasil tes tidak boleh berubah jika Anda mengubah pengukuran Anda dari inci ke sentimeter atau menambahkan untuk semua pengamatan Anda).+1

Ketika hipotesis nol adalah bahwa distribusi normal dan hipotesis alternatif adalah bahwa itu eksponensial, uji invarian lokasi dan skala yang paling kuat diberikan oleh statistik mana adalah rata-rata sampel, adalah pengamatan terkecil dalam sampel dan adalah standar deviasi sampel. Normalitas ditolak demi eksponensial jika terlalu besar.

TE,N=x¯x(1)s
x¯x(1)sTE,N

Tes ini sebenarnya adalah versi satu sisi dari tes Grubbs untuk pencilan . Anda akan menemukan ini diimplementasikan di sebagian besar perangkat lunak statistik (tetapi pastikan bahwa Anda menggunakan versi yang tepat - ada beberapa statistik uji alternatif yang digunakan untuk tes pencilan!).

Referensi untuk menjadi tes yang paling kuat:TE,N Bagian 4.2.4 Pengujian untuk Normalitas oleh HC Thode.

MånsT
sumber
OP bertanya apakah Anda menguji normalitas tes apa yang akan Anda pilih dan dalam situasi terpisah jika Anda menguji eksponensial tes apa yang akan Anda gunakan. Saya tidak membaca inot pernyataan bahwa ia menyarankan mencoba kedua tes pada set data yang sama.
Michael R. Chernick
Saya menafsirkannya dengan cara itu, karena dalam komentar tindak lanjut terhadap pertanyaan tersebut, OP menulis "Variabel yang saya hadapi cenderung mengikuti distribusi normal atau eksponensial. [...] Itu sebabnya saya perlu tes untuk memutuskan antara dua distribusi ini. "
MånsT
Saya tidak memperhatikan itu. Dalam hal ini jawaban Anda sangat tepat. Saya menjawab seolah-olah dia sedang menguji satu per satu.
Michael R. Chernick
@Michael: Saya menafsirkannya seperti itu ketika saya membaca pertanyaan asli juga, tetapi memutuskan untuk menulis jawaban saya setelah membaca komentar. Kalau tidak, saya tidak berpikir bahwa akan ada banyak yang ditambahkan ke (+1) jawaban Anda (selain komentar kecil yang saya buat dalam komentar di sana).
MånsT
5

Untuk distribusi eksponensial, Anda dapat menggunakan tes yang disebut tes Moran atau Bartlett. Statistik uji melibatkan rata-rata sampel serta sampel rata-rata dari Di bawah hipotesis nol kita memiliki sekitar dan tes dua sisi bekerja. Tes ini dirancang untuk melawan alternatif gamma.BnY¯logY¯Yi B nχ 2 ( n - 1 )

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

Lihat KC Kapur dan LR Lamberson Reliability dalam desain teknik . Wiley 1977.

Yves
sumber
2
Saya menemukan beberapa sumber daya yang lebih baru dan luas pada pengujian untuk eksponensial. 1) Sebuah artikel: A Henze, N. dan Meintanis, SG (2005): 'Tes terbaru dan klasik untuk eksponensial: tinjauan parsial dengan perbandingan'. Metrika, vol. 61, hlm. 29–45. 2) Paket CRAN R bernama 'exptest' yang mengimplementasikan pengujian artikel tersebut.
Yves
Distribusi B_n tidak terlalu jelas. Apakah Chi square dengan n-1 df, atau Chi square dengan n-1 df dikalikan dengan n-1?
Dovini Jayasinghe
Bekerja seperti yang tertulis. Anda dapat memeriksanya menggunakan beberapa baris kode R.
Yves
Terima kasih. Jadi itu harus menjadi perkalian seperti yang saya lihat. Dalam arti, derajat kebebasan harus n-1?
Dovini Jayasinghe
Maaf, saya melewatkan poin dalam pertanyaan Anda tentang notasi. Jadi statistik mengikuti kira-kira distribusi chi-square dengan derajat kebebasan. n - 1Bnn1
Yves
4

Untuk normalitas Anderson-Darling dan Shapiro-Wilk dianggap yang terbaik. Untuk tes Lillerfon eksponensial dirancang khusus untuk itu.

Michael R. Chernick
sumber
5
jawaban ini dapat ditingkatkan dengan sedikit detail mengapa setiap tes dianggap baik / lebih baik daripada yang lain.
naught101
Tes-tes ini lebih baik dalam arti yang paling kuat untuk menyimpang dari normal (Anderson-Darling) dan eksponensial (Lillefors). Saya tidak berpikir itu mudah berdasarkan pada bentuk tes untuk memberikan penjelasan yang positif.
Michael R. Chernick
3
@Michael: Tes Anderson-Darling untuk normalitas (seperti dito Shapiro-Wilk) memiliki kekuatan terhormat terhadap berbagai alternatif, tetapi tentu saja itu bukan yang paling kuat (baik secara umum atau rata-rata). Pilihan tes harus tergantung pada alternatif yang ada. Saya belum pernah mendengar tentang tes Lillerfors - maksud Anda tes Lilliefors (yang sebenarnya merupakan tes untuk normalitas dan bukan tes untuk eksponensial)?
MånsT
Tentu saja saya merujuk pada tes Lillefors untuk eksponensial seperti yang saya sarankan untuk asumsi distribusi eksponensial. Saya mendaftarkan Shapiro-Wilk dan Anderson-Darling karena sejauh pengetahuan saya, mereka termasuk yang paling kuat di antara tes normalitas. Apa saja tes yang lebih kuat yang Anda maksud?
Michael R. Chernick
1
Itu tergantung pada jenis alternatif apa yang Anda miliki. Terhadap alternatif condong, misalnya, kecenderungan sampel seringkali lebih kuat daripada SW dan AD. Yang terakhir adalah tes omnibus yang rata-rata cukup bagus, tetapi jika Anda tahu apa yang tidak normal yang Anda khawatirkan, lebih baik menggunakan tes terarah (seperti tes skewness sampel, yang diarahkan pada alternatif condong) .
MånsT
4

Sudahkah Anda mempertimbangkan metode grafis untuk melihat bagaimana data berperilaku?

Teknik grafik probabilitas biasanya melibatkan pemeringkatan data, menerapkan CDF terbalik dan kemudian memplot hasilnya pada bidang Cartesian. Ini memungkinkan Anda untuk melihat apakah beberapa nilai menyimpang dari distribusi yang dihipotesiskan dan mungkin menjelaskan alasan penyimpangan.

Schenectady
sumber