Ini wikipedia link di daftar sejumlah teknik untuk mendeteksi OLS residual heteroskedastisitas. Saya ingin belajar teknik langsung mana yang lebih efisien dalam mendeteksi daerah yang dipengaruhi oleh heteroskedastisitas.
Sebagai contoh, di sini wilayah pusat dalam plot 'Residual vs Fitted' OLS terlihat memiliki varians yang lebih tinggi daripada sisi plot (saya tidak sepenuhnya yakin pada fakta, tetapi mari kita asumsikan itu adalah kasus demi pertanyaan). Untuk mengonfirmasi, dengan melihat label kesalahan dalam plot QQ kita dapat melihat bahwa label tersebut cocok dengan label kesalahan di tengah plot Residuals.
Tetapi bagaimana kita dapat mengukur wilayah residual yang memiliki varians yang jauh lebih tinggi?
regression
least-squares
heteroscedasticity
Robert Kubrick
sumber
sumber
Jawaban:
Masalah ini memiliki nuansa eksplorasi untuk itu. John Tukey menjelaskan banyak prosedur untuk mengeksplorasi heteroskedastisitas dalam klasiknya, Exploratory Data Analysis (Addison-Wesley 1977). Mungkin yang paling berguna secara langsung adalah varian dari " plot skematik pengembaraannya ". Ini mengiris satu variabel (seperti nilai yang diprediksi) ke dalam nampan dan menggunakan ringkasan m-letter (generalisasi plot kotak) untuk menunjukkan lokasi, penyebaran, dan bentuk variabel lainnya untuk setiap nampan. Statistik huruf-m selanjutnya diperhalus untuk menekankan pola keseluruhan daripada penyimpangan kesempatan.
Versi cepat dapat dibuat dengan mengeksploitasi
boxplot
prosedur dalamR
. Kami mengilustrasikan dengan data heteroskedastik yang sangat disimulasikan:Mari kita dapatkan nilai dan residu yang diprediksi dari regresi OLS:
Di sini, kemudian, adalah plot skematik pengembara menggunakan nampan hitung sama untuk nilai prediksi. Saya gunakan
lowess
untuk smooth yang cepat dan kotor.Kurva biru menghaluskan median. Kecenderungan horizontal menunjukkan bahwa regresi secara umum cocok. Kurva lainnya menghaluskan ujung kotak (kuartil) dan pagar (yang biasanya merupakan nilai ekstrim). Konvergensi mereka yang kuat dan pemisahan selanjutnya menjadi saksi atas heteroskedastisitas - dan membantu kami mengkarakterisasi dan mengukurnya.
(Perhatikan skala nonlinear pada sumbu horizontal, yang mencerminkan distribusi nilai yang diprediksi. Dengan sedikit kerja lebih banyak, sumbu ini dapat dilinearisasi, yang terkadang berguna.)
sumber
Biasanya, heteroskedastisitas dimodelkan menggunakan pendekatan Breusch-Pagan. Sisa dari regresi linier Anda kemudian dikuadratkan dan dikembalikan ke variabel dalam model linier asli Anda. Regresi terakhir disebut regresi bantu .
Untuk keperluan Anda, Anda bisa fokus pada koefisien individu dari model ini untuk melihat variabel mana yang paling memprediksi hasil varians tinggi atau rendah.
sumber