Saya mencoba membuat model prediksi menggunakan regresi. Ini adalah plot diagnostik untuk model yang saya dapatkan dari menggunakan lm () di R:
Apa yang saya baca dari plot QQ adalah bahwa residual memiliki distribusi berekor berat, dan plot Residual vs Fitted tampaknya menunjukkan bahwa varians residu tidak konstan. Saya bisa menjinakkan ekor yang berat dari residu dengan menggunakan model yang kuat:
fitRobust = rlm(formula, method = "MM", data = myData)
Tapi di situlah segalanya berhenti. Model yang kuat berbobot beberapa poin 0. Setelah saya menghapus titik-titik itu, ini adalah bagaimana sisa dan nilai-nilai yang pas dari model yang kuat terlihat seperti:
Heteroskedastisitas tampaknya masih ada. Menggunakan
logtrans(model, alpha)
dari paket MASS, saya mencoba mencari sedemikian rupa
rlm(formula, method = "MM")
dengan rumus menjadi memiliki residu dengan varian konstan. Setelah saya menemukan , model kuat yang dihasilkan yang diperoleh untuk rumus di atas memiliki plot Residual vs Fitted berikut:
Menurut saya seolah-olah residu masih tidak memiliki varian konstan. Saya sudah mencoba transformasi respon lainnya (termasuk Box-Cox), tetapi mereka juga tidak terlihat seperti perbaikan. Saya bahkan tidak yakin bahwa tahap kedua dari apa yang saya lakukan (yaitu menemukan transformasi respons dalam model yang kuat) didukung oleh teori apa pun. Saya sangat menghargai komentar, pemikiran, atau saran.
sumber
Jawaban:
Heteroscedasticity dan leptokurtosis mudah digabungkan dalam analisis data. Ambil model data yang menghasilkan istilah kesalahan sebagai Cauchy. Ini memenuhi kriteria untuk homoseksualitas. Distribusi Cauchy memiliki varian yang tak terbatas. Kesalahan Cauchy adalah cara simulator memasukkan proses pengambilan sampel outlier.
Dengan kesalahan berekor berat ini, bahkan ketika Anda cocok dengan model rata-rata yang benar, outlier mengarah ke residu yang besar. Tes heteroskedastisitas telah sangat meningkatkan kesalahan tipe I dalam model ini. Distribusi Cauchy juga memiliki parameter skala. Menghasilkan istilah kesalahan dengan peningkatan linier dalam skala menghasilkan data heteroskedastik, tetapi kekuatan untuk mendeteksi efek tersebut praktis nol sehingga kesalahan tipe II meningkat juga.
Izinkan saya menyarankan, pendekatan analitik data yang tepat tidak menjadi terperosok dalam tes. Tes statistik terutama menyesatkan. Tidak ada tempat yang lebih jelas dari tes yang dimaksudkan untuk memverifikasi asumsi pemodelan sekunder. Mereka bukan pengganti untuk akal sehat. Untuk data Anda, Anda dapat dengan jelas melihat dua residu besar. Efeknya pada tren minimal sesedikitnya jika ada residu diimbangi dalam keberangkatan linier dari garis 0 dalam plot residu vs pas. Hanya itu yang perlu Anda ketahui.
Yang diinginkan kemudian adalah cara memperkirakan model varians fleksibel yang akan memungkinkan Anda untuk membuat interval prediksi pada berbagai respons yang dipasang. Menariknya, pendekatan ini mampu menangani sebagian besar bentuk waras heteroscedasticity dan kurtotis. Mengapa tidak menggunakan pendekatan spline smoothing untuk memperkirakan rata-rata kesalahan kuadrat.
Ambil contoh berikut:
Memberikan interval prediksi berikut yang "melebar" untuk mengakomodasi outlier. Ini masih merupakan penaksir varians yang konsisten dan berguna memberi tahu orang-orang, "Hai ada pengamatan besar dan tidak pasti di sekitar X = 4 dan kami tidak dapat memprediksi nilai yang sangat berguna di sana."
sumber