Dalam analisis regresi linier, kami menganalisis pencilan, menyelidiki multikolinieritas, uji heteroskedastisitas.
Pertanyaannya adalah: Apakah ada perintah untuk menerapkan ini? Maksud saya, apakah kita harus menganalisis outlier terlebih dahulu, dan kemudian memeriksa multikolinieritas? Atau mundur?
Apakah ada aturan praktis tentang ini?
Jawaban:
Prosesnya berulang, tetapi ada tatanan alami:
Anda harus khawatir dulu tentang kondisi yang menyebabkan kesalahan numerik langsung . Multicollinearity adalah salah satunya, karena dapat menghasilkan sistem persamaan yang tidak stabil yang berpotensi menghasilkan jawaban yang salah secara langsung (ke 16 tempat desimal ...) Masalah apa pun di sini biasanya berarti Anda tidak dapat melanjutkan sampai diperbaiki. Multikolinearitas biasanya didiagnosis menggunakan Variance Inflation Factor dan pemeriksaan serupa dari "hat hat." Pemeriksaan tambahan pada tahap ini dapat mencakup penilaian pengaruh nilai-nilai yang hilang dalam dataset dan memverifikasi identitas parameter penting. (Kombinasi variabel independen yang hilang terkadang dapat menyebabkan masalah di sini.)
Selanjutnya Anda perlu khawatir apakah output mencerminkan sebagian besar data atau sensitif terhadap subset kecil. Dalam kasus terakhir, semua yang Anda lakukan selanjutnya mungkin menyesatkan, sehingga harus dihindari. Prosedur termasuk pemeriksaan outliers dan leverage . (Datum dengan leverage tinggi mungkin bukan pencilan tetapi meskipun demikian itu mungkin terlalu mempengaruhi semua hasil.) Jika ada alternatif yang kuat untuk prosedur regresi, ini adalah waktu yang tepat untuk menerapkannya: periksa apakah itu menghasilkan hasil yang serupa dan menggunakannya untuk mendeteksi nilai-nilai terluar.
Akhirnya, setelah mencapai situasi yang stabil secara numerik (sehingga Anda dapat mempercayai perhitungannya) dan yang mencerminkan dataset lengkap, Anda beralih ke pemeriksaan asumsi statistik yang diperlukan untuk interpretasi yang benar dari output . Terutama kekhawatiran ini fokus - dalam urutan pentingnya - pada distribusi residu (termasuk heteroskedastisitas, tetapi juga meluas ke simetri, bentuk distribusi, korelasi yang mungkin dengan nilai prediksi atau variabel lain, dan autokorelasi), good of of fit (termasuk kemungkinan kebutuhan akan istilah interaksi), apakah akan mengekspresikan kembali variabel dependen, dan apakah akan mengekspresikan kembali variabel independen.
Pada tahap apa pun, jika sesuatu perlu dikoreksi, maka bijaksana untuk kembali ke awal. Ulangi sebanyak yang diperlukan.
sumber
Saya pikir itu tergantung situasi. Jika Anda tidak mengharapkan masalah tertentu, Anda mungkin dapat memeriksanya dengan urutan apa pun. Jika Anda mengharapkan pencilan dan mungkin memiliki alasan untuk menghapusnya setelah mendeteksinya maka periksa pencilan terlebih dahulu. Masalah lain dengan model bisa berubah setelah pengamatan dihilangkan. Setelah itu urutan antara multikolinaeritas dan heteroskedastisitas tidak masalah. Saya setuju dengan Chris bahwa outlier tidak boleh dihapus secara sewenang-wenang. Anda perlu memiliki alasan untuk berpikir bahwa pengamatan itu salah.
Tentu saja jika Anda mengamati multikolinieritas atau heteroskedastisitas, Anda mungkin perlu mengubah pendekatan Anda. Masalah multikolinieritas diamati dalam matriks kovarians tetapi ada tes diagnostik khusus untuk mendeteksi multikolinieritas dan masalah lain seperti titik-titik pengungkit melihat buku Diagnostik Regresi oleh Belsley, Kuh dan Welsch atau salah satu buku regresi Dennis Cook .
sumber