Saat ini saya melihat beberapa data yang dihasilkan oleh simulasi MC yang saya tulis - saya berharap nilai-nilai akan terdistribusi secara normal. Secara alami saya merencanakan histogram dan itu terlihat masuk akal (saya kira?):
[Kiri atas: histogram dengan dist.pdf()
, kanan atas: histogram kumulatif dengan dist.cdf()
, bawah: plot QQ, data
vs dist
]
Kemudian saya memutuskan untuk melihat lebih dalam tentang ini dengan beberapa tes statistik. (Catat itu dist = stats.norm(loc=np.mean(data), scale=np.std(data))
.) Apa yang saya lakukan dan output yang saya dapatkan adalah sebagai berikut:
Tes Kolmogorov-Smirnov:
scipy.stats.kstest(data, 'norm', args=(data_avg, data_sig)) KstestResult(statistic=0.050096921447209564, pvalue=0.20206939857573536)
Tes Shapiro-Wilk:
scipy.stats.shapiro(dat) (0.9810476899147034, 1.3054057490080595e-05) # where the first value is the test statistic and the second one is the p-value.
QQ-plot:
stats.probplot(dat, dist=dist)
Kesimpulan saya dari ini adalah:
dengan melihat histogram dan histogram kumulatif, saya pasti akan menganggap distribusi normal
hal yang sama berlaku setelah melihat plot QQ (apakah pernah jauh lebih baik?)
tes KS mengatakan: 'ya ini distribusi normal'
Kebingungan saya adalah: tes SW mengatakan tidak terdistribusi secara normal (nilai-p jauh lebih kecil dari signifikansi alpha=0.05
, dan hipotesis awal adalah distribusi normal). Saya tidak mengerti ini, apakah ada yang punya interpretasi yang lebih baik? Apakah saya mengacau di beberapa titik?
sumber
args
argumen untuk mengungkapkan apakah parameter berasal dari data atau tidak. Dokumentasinya tidak jelas , tetapi kurangnya penyebutan perbedaan ini sangat menunjukkan bahwa ia tidak melakukan tes Lilliefors. Pengujian itu dijelaskan, dengan contoh kode, di stackoverflow.com/a/22135929/844723 .Jawaban:
Ada banyak cara distribusi dapat berbeda dari distribusi normal. Tidak ada tes yang bisa menangkap semuanya. Akibatnya, setiap tes berbeda dalam hal memeriksa untuk melihat apakah distribusi Anda cocok dengan normal. Sebagai contoh, tes KS melihat pada kuantil di mana fungsi distribusi kumulatif empiris Anda berbeda secara maksimal dari fungsi distribusi kumulatif teoritis normal. Ini sering terjadi di suatu tempat di tengah-tengah distribusi, yang bukan tempat kita biasanya peduli tentang ketidakcocokan. Tes SW berfokus pada ekor, yang merupakan tempat kami biasanya peduli jika distribusinya sama. Akibatnya, SW biasanya lebih disukai. Selain itu, tes KW tidak valid jika Anda menggunakan parameter distribusi yang diperkirakan dari sampel Anda (lihat:Apa perbedaan antara uji normalitas Shapiro-Wilk dan uji normalitas Kolmogorov-Smirnov? ). Anda harus menggunakan SW di sini.
Tetapi plot umumnya direkomendasikan dan tes tidak (lihat: Apakah pengujian normal 'pada dasarnya tidak berguna'? ). Anda dapat melihat dari semua plot Anda bahwa Anda memiliki ekor kanan yang berat dan ekor kiri yang ringan relatif terhadap normal normal. Artinya, Anda memiliki sedikit condong ke kanan.
sumber
Anda tidak dapat memilih tes normal berdasarkan hasil. Dalam hal ini, Anda bisa menolak dengan segala tes yang dilakukan, atau tidak menggunakannya sama sekali. Tes KS tidak terlalu kuat, itu bukan tes normalitas "khusus". Jika sesuatu SW mungkin lebih dapat dipercaya dalam kasus ini.
Bagi saya plot QQ Anda memiliki tanda-tanda ekor kanan yang gemuk atau condong ke kiri, atau keduanya. Saya akan menyarankan menggunakan alat Tukey untuk mempelajari kegemukan ekor. Ini akan memberi Anda indikasi seberapa besar distribusi seperti normal atau Cauchy.
sumber