Dalam urutan apa Anda harus melakukan diagnosa regresi linier?

24

Dalam analisis regresi linier, kami menganalisis pencilan, menyelidiki multikolinieritas, uji heteroskedastisitas.

Pertanyaannya adalah: Apakah ada perintah untuk menerapkan ini? Maksud saya, apakah kita harus menganalisis outlier terlebih dahulu, dan kemudian memeriksa multikolinieritas? Atau mundur?

Apakah ada aturan praktis tentang ini?

halil
sumber
2
Beberapa aturan praktis yang sangat kasar: Anda harus menyelidiki kolinearitas sebelum melakukan penyesuaian apa pun. Jika Anda menemukannya, Anda harus (a) menggunakan metode yang menangani collinearity, (b) menghapus fitur collinear, atau (c) mengubah fitur Anda (misalnya menggunakan PCA). Setelah Anda memasang model, Anda dapat mencari heteroskedastisitas dalam residu. Secara umum, jika Anda membuat model prediksi Anda tidak harus menghapus outlier. Sebagai gantinya, gunakan metode yang kuat untuk kehadiran pencilan.
Chris Taylor
1
Bagaimana cara terbaik menyelidiki kolinearitas? Melihat elemen off-diagonal dari matriks korelasi prediktor?
miura
1
Cara terbaik untuk menyelidiki kolinearitas adalah indeks kondisi dan proporsi perbedaan yang dijelaskan oleh mereka. Korelasi yang tinggi bukanlah kondisi yang diperlukan atau tidak cukup untuk kolinearitas.
Peter Flom - Pasang kembali Monica

Jawaban:

28

Prosesnya berulang, tetapi ada tatanan alami:

  1. Anda harus khawatir dulu tentang kondisi yang menyebabkan kesalahan numerik langsung . Multicollinearity adalah salah satunya, karena dapat menghasilkan sistem persamaan yang tidak stabil yang berpotensi menghasilkan jawaban yang salah secara langsung (ke 16 tempat desimal ...) Masalah apa pun di sini biasanya berarti Anda tidak dapat melanjutkan sampai diperbaiki. Multikolinearitas biasanya didiagnosis menggunakan Variance Inflation Factor dan pemeriksaan serupa dari "hat hat." Pemeriksaan tambahan pada tahap ini dapat mencakup penilaian pengaruh nilai-nilai yang hilang dalam dataset dan memverifikasi identitas parameter penting. (Kombinasi variabel independen yang hilang terkadang dapat menyebabkan masalah di sini.)

  2. Selanjutnya Anda perlu khawatir apakah output mencerminkan sebagian besar data atau sensitif terhadap subset kecil. Dalam kasus terakhir, semua yang Anda lakukan selanjutnya mungkin menyesatkan, sehingga harus dihindari. Prosedur termasuk pemeriksaan outliers dan leverage . (Datum dengan leverage tinggi mungkin bukan pencilan tetapi meskipun demikian itu mungkin terlalu mempengaruhi semua hasil.) Jika ada alternatif yang kuat untuk prosedur regresi, ini adalah waktu yang tepat untuk menerapkannya: periksa apakah itu menghasilkan hasil yang serupa dan menggunakannya untuk mendeteksi nilai-nilai terluar.

  3. Akhirnya, setelah mencapai situasi yang stabil secara numerik (sehingga Anda dapat mempercayai perhitungannya) dan yang mencerminkan dataset lengkap, Anda beralih ke pemeriksaan asumsi statistik yang diperlukan untuk interpretasi yang benar dari output . Terutama kekhawatiran ini fokus - dalam urutan pentingnya - pada distribusi residu (termasuk heteroskedastisitas, tetapi juga meluas ke simetri, bentuk distribusi, korelasi yang mungkin dengan nilai prediksi atau variabel lain, dan autokorelasi), good of of fit (termasuk kemungkinan kebutuhan akan istilah interaksi), apakah akan mengekspresikan kembali variabel dependen, dan apakah akan mengekspresikan kembali variabel independen.

Pada tahap apa pun, jika sesuatu perlu dikoreksi, maka bijaksana untuk kembali ke awal. Ulangi sebanyak yang diperlukan.

whuber
sumber
2
Saya sebenarnya lebih suka menggunakan indeks kondisi daripada VIF. Saya melakukan disertasi tentang ini, beberapa waktu lalu.
Peter Flom - Pasang kembali Monica
1
@Peter Poin bagus. Saya lebih suka indeks kondisi juga, tetapi bagi saya sepertinya VIF sangat populer sekarang.
whuber
Whuber, saya mengikuti di sini dari komentar Anda sebelumnya hari ini. Saya pernah berkonsultasi dengan ahli statistik selama postdoc saya tentang beberapa kekhawatiran tentang multikolinearitas. Dia menyatakan pandangan bahwa, tergantung pada sifat IVs dalam regresi, kolinearitas dapat dianggap secara struktural bagian dari fenomena yang dimodelkan. Saya mungkin mengacaukan bahasanya yang tepat, dan saya harus menggali bahkan untuk menemukan namanya lagi, tetapi apakah Anda tahu ada teks yang akan memotivasi alasan bernuansa tentang multikolinearitas sepanjang garis-garis ini? Hanya kebetulan bertanya. :)
Alexis
@Alexis Sepertinya ahli statistik memiliki konsep multikolinieritas yang bernuansa dan canggih. Saya tidak dapat memikirkan buku teks apa pun yang dengan jelas mengungkapkannya.
whuber
Saya hanya perlu melacaknya dan bertanya kepadanya tentang hal itu. :)
Alexis
3

Saya pikir itu tergantung situasi. Jika Anda tidak mengharapkan masalah tertentu, Anda mungkin dapat memeriksanya dengan urutan apa pun. Jika Anda mengharapkan pencilan dan mungkin memiliki alasan untuk menghapusnya setelah mendeteksinya maka periksa pencilan terlebih dahulu. Masalah lain dengan model bisa berubah setelah pengamatan dihilangkan. Setelah itu urutan antara multikolinaeritas dan heteroskedastisitas tidak masalah. Saya setuju dengan Chris bahwa outlier tidak boleh dihapus secara sewenang-wenang. Anda perlu memiliki alasan untuk berpikir bahwa pengamatan itu salah.

Tentu saja jika Anda mengamati multikolinieritas atau heteroskedastisitas, Anda mungkin perlu mengubah pendekatan Anda. Masalah multikolinieritas diamati dalam matriks kovarians tetapi ada tes diagnostik khusus untuk mendeteksi multikolinieritas dan masalah lain seperti titik-titik pengungkit melihat buku Diagnostik Regresi oleh Belsley, Kuh dan Welsch atau salah satu buku regresi Dennis Cook .

Michael R. Chernick
sumber
9
Michael, Di masa depan, dapatkah Anda menggunakan opsi pemformatan? (kunci yang benar untuk memasukkan tautan adalah ctrl-l, bukan ctrl-c).
user603