Dapatkah regresi digunakan untuk deteksi lier. Saya mengerti bahwa ada cara untuk meningkatkan model regresi dengan menghapus outlier. Tetapi tujuan utama di sini bukan untuk mencocokkan model regresi tetapi mencari tahu liers menggunakan regresi
regression
outliers
pengguna48567
sumber
sumber
Jawaban:
Pilihan terbaik Anda untuk menggunakan regresi untuk menemukan outlier adalah menggunakan regresi yang kuat.
Regresi biasa dapat dipengaruhi oleh pencilan dalam dua cara:
Pertama, outlier ekstrim dalam arah-y pada nilai-x dekat dapat memengaruhi kecocokan di area itu dengan cara yang sama dengan outlier dapat memengaruhi mean.x¯
Kedua, pengamatan 'terluar' dalam ruang-x adalah pengamatan yang berpengaruh - ia dapat menarik kecocokan garis ke arahnya. Jika cukup jauh, garis akan melewati titik berpengaruh:
Di plot kiri, ada titik yang cukup berpengaruh, dan menarik garis cukup jauh dari sebagian besar data. Di plot yang benar, sudah dipindahkan lebih jauh lagi - dan sekarang garis melewati titik. Ketika nilai-x ekstrem itu, ketika Anda memindahkan titik itu ke atas dan ke bawah, garis bergerak dengan itu, pergi melalui rata-rata dari titik-titik lain dan melalui satu titik berpengaruh.
Poin yang berpengaruh yang sangat konsisten dengan data lainnya mungkin bukan masalah besar, tetapi yang jauh dari garis melalui sisa data akan membuat garis cocok, bukan data.
Jika Anda melihat plot sebelah kanan, garis merah - garis regresi kuadrat terkecil - sama sekali tidak menunjukkan titik ekstrim sebagai outlier - residunya adalah 0. Sebaliknya, residu besar dari garis kuadrat terkecil berada di bagian utama dari data!
Ini berarti Anda benar-benar dapat melewatkan pencilan .
Lebih buruk lagi, dengan regresi berganda, pencilan dalam ruang x mungkin tidak terlihat sangat tidak biasa untuk variabel x tunggal. Jika ada kemungkinan titik seperti itu, berpotensi hal yang sangat berisiko untuk menggunakan regresi kuadrat terkecil.
Regresi yang kuat
Jika Anda cocok dengan garis yang kuat - khususnya yang kuat untuk outlier yang berpengaruh - seperti garis hijau di plot kedua - maka outlier memiliki residu yang sangat besar.
Dalam hal ini, Anda memiliki harapan untuk mengidentifikasi outlier - mereka akan menjadi poin yang tidak - dalam arti tertentu - dekat dengan garis.
Menghapus outlier
Anda tentu saja dapat menggunakan regresi yang kuat untuk mengidentifikasi dan dengan demikian menghapus pencilan.
Tapi begitu Anda memiliki kecocokan regresi yang kuat, yang sudah tidak terpengaruh oleh pencilan, Anda tidak perlu menghapus pencilan - Anda sudah memiliki model yang cocok.
sumber
Iya. Jawaban ini dan jawaban Glen_b membahas hal ini.
Berdasarkan komentar Roman Lustrik, berikut adalah heuristik untuk menemukan pencilan yang menggunakan regresi (linier berganda).
Mengesampingkan poin kandidat sebelumnya, kita dapat mengulangi seluruh latihan lagi dengan sampel yang dikurangi. Dalam algoritme, kami memilih contoh dalam data yang memengaruhi kecocokan regresi dengan cara yang buruk (yang merupakan salah satu cara untuk memberi label contoh sebagai pencilan).
sumber