Saya memiliki sebidang nilai residual dari model linier dalam fungsi nilai-nilai pas di mana heteroskedastisitas sangat jelas. Namun saya tidak yakin bagaimana saya harus melanjutkan sekarang karena sejauh yang saya mengerti heteroskedastisitas ini membuat model linier saya tidak valid. (Apakah itu benar?)
Gunakan fitting linier yang kuat menggunakan
rlm()
fungsiMASS
paket karena tampaknya kuat untuk heteroskedastisitas.Karena kesalahan standar dari koefisien saya salah karena heteroskedastisitas, saya dapat menyesuaikan kesalahan standar agar kuat dengan heteroskedastisitas? Menggunakan metode yang diposting di Stack Overflow di sini: Regresi dengan Heteroskedasticity Standar Kesalahan Terkoreksi
Mana yang akan menjadi metode terbaik untuk digunakan untuk menangani masalah saya? Jika saya menggunakan solusi 2 apakah kemampuan prediksi model saya sama sekali tidak berguna?
Tes Breusch-Pagan menegaskan bahwa varians tidak konstan.
Residu saya dalam fungsi nilai yang dipasang terlihat seperti ini:
(versi lebih besar)
sumber
gls
dan salah satu struktur varians dari paket nlme.Jawaban:
Itu pertanyaan yang bagus, tapi saya pikir itu pertanyaan yang salah. Angka Anda menjelaskan bahwa Anda memiliki masalah yang lebih mendasar daripada heteroskedastisitas, yaitu model Anda memiliki nonlinier yang belum Anda pertanggungjawabkan. Banyak masalah potensial yang dapat dimiliki suatu model (nonlinier, interaksi, pencilan, heteroskedastisitas, non-Normalitas) dapat saling menyamar. Saya tidak berpikir ada aturan yang keras dan cepat, tetapi secara umum saya akan menyarankan menangani masalah dalam urutan
(misalnya, jangan khawatir tentang nonlinier sebelum memeriksa apakah ada pengamatan aneh yang membelokkan kecocokan; jangan khawatir tentang normalitas sebelum Anda khawatir tentang heteroskedastisitas).
Dalam kasus khusus ini, saya akan cocok dengan model kuadratik
y ~ poly(x,2)
(ataupoly(x,2,raw=TRUE)
atauy ~ x + I(x^2)
dan melihat apakah itu membuat masalah hilang.sumber
Saya mencantumkan sejumlah metode untuk menangani heteroskedastisitas (dengan
R
contoh) di sini: Alternatif untuk ANOVA satu arah untuk data heteroskedastik . Banyak dari rekomendasi itu akan kurang ideal karena Anda memiliki variabel kontinu tunggal, daripada variabel kategori multi-level, tetapi mungkin lebih baik untuk dibaca sebagai gambaran umum.Untuk situasi Anda, kuadrat terkecil tertimbang (mungkin dikombinasikan dengan regresi kuat jika Anda menduga mungkin ada beberapa outlier) akan menjadi pilihan yang masuk akal. Menggunakan kesalahan sandwich Huber-White juga bagus.
Inilah beberapa jawaban untuk pertanyaan spesifik Anda:
sumber
Muat
sandwich package
dan hitung matriks var-cov dari regresi Anda denganvar_cov<-vcovHC(regression_result, type = "HC4")
(baca manualsandwich
). Sekarang denganlmtest package
menggunakancoeftest
fungsinya:sumber
Seperti apa distribusi data Anda? Apakah itu terlihat seperti kurva lonceng sama sekali? Dari materi pelajaran, bisakah itu didistribusikan secara normal? Durasi panggilan telepon mungkin tidak negatif, misalnya. Jadi dalam kasus panggilan tertentu, distribusi gamma menggambarkannya dengan baik. Dan dengan gamma Anda dapat menggunakan model linier umum (glm dalam R)
sumber