Ukuran residu heteroskedastisitas

16

Ini wikipedia link di daftar sejumlah teknik untuk mendeteksi OLS residual heteroskedastisitas. Saya ingin belajar teknik langsung mana yang lebih efisien dalam mendeteksi daerah yang dipengaruhi oleh heteroskedastisitas.

Sebagai contoh, di sini wilayah pusat dalam plot 'Residual vs Fitted' OLS terlihat memiliki varians yang lebih tinggi daripada sisi plot (saya tidak sepenuhnya yakin pada fakta, tetapi mari kita asumsikan itu adalah kasus demi pertanyaan). Untuk mengonfirmasi, dengan melihat label kesalahan dalam plot QQ kita dapat melihat bahwa label tersebut cocok dengan label kesalahan di tengah plot Residuals.

Tetapi bagaimana kita dapat mengukur wilayah residual yang memiliki varians yang jauh lebih tinggi?

heteroskedastisitas

Robert Kubrick
sumber
2
Saya tidak yakin Anda benar bahwa ada varian yang lebih tinggi di tengah. Fakta bahwa outlier berada di wilayah tengah bagi saya cenderung merupakan hasil dari kenyataan bahwa di situlah sebagian besar data berada. Tentu saja, ini tidak membatalkan pertanyaan Anda.
Peter Ellis
1
Qqplot dimaksudkan untuk mengidentifikasi ketidaknormalan distribusi dan bukan varian tidak homogen secara langsung.
Michael R. Chernick
@PeterEllis Ya, saya tentukan dalam pertanyaan bahwa saya tidak yakin variansnya berbeda, tetapi saya memiliki gambar diagnostik ini dan mungkin sebenarnya ada beberapa heteroskedastisitas dalam contoh.
Robert Kubrick
@MichaelChernick Saya hanya menyebutkan qqplot untuk mengilustrasikan bagaimana kesalahan tertinggi tampaknya terkonsentrasi di tengah plot residual, karenanya berpotensi menunjukkan varian yang lebih tinggi di area itu.
Robert Kubrick

Jawaban:

15

Masalah ini memiliki nuansa eksplorasi untuk itu. John Tukey menjelaskan banyak prosedur untuk mengeksplorasi heteroskedastisitas dalam klasiknya, Exploratory Data Analysis (Addison-Wesley 1977). Mungkin yang paling berguna secara langsung adalah varian dari " plot skematik pengembaraannya ". Ini mengiris satu variabel (seperti nilai yang diprediksi) ke dalam nampan dan menggunakan ringkasan m-letter (generalisasi plot kotak) untuk menunjukkan lokasi, penyebaran, dan bentuk variabel lainnya untuk setiap nampan. Statistik huruf-m selanjutnya diperhalus untuk menekankan pola keseluruhan daripada penyimpangan kesempatan.

Versi cepat dapat dibuat dengan mengeksploitasi boxplotprosedur dalam R. Kami mengilustrasikan dengan data heteroskedastik yang sangat disimulasikan:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Data

Mari kita dapatkan nilai dan residu yang diprediksi dari regresi OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Di sini, kemudian, adalah plot skematik pengembara menggunakan nampan hitung sama untuk nilai prediksi. Saya gunakan lowessuntuk smooth yang cepat dan kotor.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Skema pengembara yang berkeliaran

Kurva biru menghaluskan median. Kecenderungan horizontal menunjukkan bahwa regresi secara umum cocok. Kurva lainnya menghaluskan ujung kotak (kuartil) dan pagar (yang biasanya merupakan nilai ekstrim). Konvergensi mereka yang kuat dan pemisahan selanjutnya menjadi saksi atas heteroskedastisitas - dan membantu kami mengkarakterisasi dan mengukurnya.

(Perhatikan skala nonlinear pada sumbu horizontal, yang mencerminkan distribusi nilai yang diprediksi. Dengan sedikit kerja lebih banyak, sumbu ini dapat dilinearisasi, yang terkadang berguna.)

whuber
sumber
6
Contoh yang bagus, saya akan berpikir beberapa implementasi menjalankan kuantil tersedia di R (untuk menghindari masalah dengan sampah sama sekali). Semacam mengingatkan saya pada plot tas . Juga lihat ekstensi Rob Hyndman dalam paket Rainbow-nya.
Andy W
9

Biasanya, heteroskedastisitas dimodelkan menggunakan pendekatan Breusch-Pagan. Sisa dari regresi linier Anda kemudian dikuadratkan dan dikembalikan ke variabel dalam model linier asli Anda. Regresi terakhir disebut regresi bantu .

nRSebuah2nRSebuah2R2

Untuk keperluan Anda, Anda bisa fokus pada koefisien individu dari model ini untuk melihat variabel mana yang paling memprediksi hasil varians tinggi atau rendah.

Charlie
sumber
1
+1 Tetapi harap perhatikan bahwa tes semacam itu terbatas dalam bentuk heteroskedastisitas yang dapat mereka deteksi. Contoh-contoh seperti yang ditunjukkan dalam jawaban saya dapat menembus, meskipun heteroskedastisitas sangat kuat.
Whuber