Berikut adalah plot QQ untuk sampel saya (perhatikan sumbu Y logaritmik); :
Seperti yang ditunjukkan oleh whuber, ini menunjukkan bahwa distribusi yang mendasarinya miring ke kiri (ekor kanan lebih pendek).
Dengan menggunakan shapiro.test
(pada data yang ditransformasi-log) dalam R, saya mendapatkan statistik uji dan nilai-p , yang berarti bahwa kami secara resmi menolak hipotesis nol pada tingkat kepercayaan 95%.5,172 ⋅ 10 - 13
Pertanyaan saya adalah: Apakah ini cukup baik dalam praktik untuk analisis lebih lanjut dengan asumsi (log-) normalitas? Secara khusus, saya ingin menghitung interval kepercayaan untuk sarana sampel serupa menggunakan metode perkiraan oleh Cox dan Land (dijelaskan dalam makalah: Zou, GY, cindy Yan Huo dan Taleban, J. (2009). Interval kepercayaan sederhana untuk lognormal berarti dan perbedaannya dengan aplikasi lingkungan. Environmetrics 20, 172-180):
ci <- function (x) {
y <- log(x)
n <- length(y)
s2 <- var(y)
m <- mean(y) + s2 / 2
z <- qnorm(1 - 0.05 / 2) # 95%
#z <- qnorm(1 - 0.10 / 2) # 90%
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
return(c(exp(m - d), exp(m + d)))
}
Saya perhatikan bahwa interval kepercayaan cenderung berpusat di sekitar titik yang sedikit di atas rata-rata sampel aktual. Sebagai contoh:
> mean(x)
[1] 82.3076
> y <- log(x)
> exp(mean(y) + var(y) / 2)
[1] 91.22831
Saya pikir kedua nilai ini harus sama dengan .
sumber
Jawaban:
Data ini memiliki ekor pendek dibandingkan dengan distribusi lognormal, tidak seperti distribusi Gamma:
Namun demikian, karena data yang sangat kanan miring, kita bisa mengharapkan nilai-nilai terbesar untuk memainkan peran penting dalam mengestimasi mean dan selang kepercayaan nya. Oleh karena itu kita harus mengantisipasi bahwa estimator lognormal (LN) akan cenderung melebih - lebihkan rata-rata dan dua batas kepercayaan .
Mari kita periksa dan, untuk perbandingan, gunakan penduga yang biasa: yaitu mean sampel dan interval kepercayaan teori normal. Perhatikan bahwa penaksir biasa hanya mengandalkan perkiraan normalitas rata-rata sampel , bukan data, dan - dengan set data yang besar - dapat diharapkan berfungsi dengan baik. Untuk melakukan ini, kita perlu sedikit modifikasi
ci
fungsi:Berikut adalah fungsi paralel untuk perkiraan teori normal:
Diterapkan pada dataset simulasi ini, hasilnya adalah
Perkiraan teori normal dihasilkan dengan1.9
ci.u
melihat sedikit lebih dekat dengan rata-rata sebenarnya dari , tetapi sulit untuk mengatakan dari satu dataset prosedur mana yang cenderung bekerja lebih baik. Untuk mengetahuinya, mari kita simulasikan banyak kumpulan data:Kami tertarik untuk membandingkan output dengan rata-rata sebenarnya dari . Panel histogram mengungkapkan dalam hal itu:1.9
Sekarang jelas bahwa prosedur lognormal cenderung melebih-lebihkan rata-rata dan batas kepercayaan, sedangkan prosedur biasa melakukan pekerjaan dengan baik. Kami dapat memperkirakan cakupan dari prosedur interval kepercayaan:
Perhitungan ini mengatakan:
Batas bawah LN akan gagal untuk menutupi rata-rata sebenarnya sekitar 22,3% dari waktu (bukan 2,5% yang dimaksudkan).
Batas bawah biasa akan gagal untuk menutupi rata-rata sebenarnya sekitar 2,3% dari waktu, mendekati 2,5% yang dimaksud.
Batas atas LN akan selalu melebihi rata-rata sebenarnya (bukannya jatuh di bawah 2,5% dari waktu sebagaimana dimaksud). Ini membuatnya menjadi dua sisi 100% - (22,3% + 0%) = 77,7% interval kepercayaan daripada interval kepercayaan 95%.
Batas atas biasa akan gagal untuk menutupi rata-rata sebenarnya sekitar 100 - 96,5 = 3,5% dari waktu. Ini sedikit lebih besar dari nilai yang dimaksudkan 2,5%. Batas yang biasa karena itu terdiri dari dua sisi 100% - (2,3% + 3,5%) = 94,2% interval kepercayaan daripada interval kepercayaan 95%.
Pengurangan cakupan nominal dari 95% menjadi 77,7% untuk interval lognormal mengerikan. Pengurangan menjadi 94,2% untuk interval biasa tidak buruk sama sekali dan dapat dikaitkan dengan efek kemiringan (dari data mentah, bukan dari logaritma mereka).
Kita harus menyimpulkan bahwa analisis lebih lanjut dari rata-rata tidak boleh mengasumsikan lognormalitas.
Hati-hati! Beberapa prosedur (seperti batas prediksi) akan lebih sensitif terhadap kemiringan daripada batas kepercayaan ini untuk mean, sehingga distribusi miringnya mungkin perlu diperhitungkan. Namun, tampaknya tidak mungkin bahwa prosedur lognormal akan berkinerja baik dengan data ini untuk praktis setiap analisis yang dimaksud.
sumber
abline()
bukannyaqqline()
(yang menghasilkan baris yang berbeda) pada contoh pertama?trial()
fungsi tidak menggunakan argumen.trial
:trial <- function(y) { x <- sample(y, length(y), TRUE); cbind(ci(x), ci.u(x)) }
. Kemudian hanya mengeluarkan satu perintahsim <- sapply(1:5000, function(i) trial(x))
,. Anda mungkin ingin menjelajahi histogram dari enam barissim
sesudahnya.