Saya menulis sebuah program untuk mengevaluasi real estat dan saya tidak begitu mengerti perbedaan antara beberapa model regresi yang kuat, itu sebabnya saya tidak tahu mana yang harus dipilih.
Saya mencoba lmrob
, ltsReg
dan rlm
. untuk kumpulan data yang sama, ketiga metode memberi saya nilai yang berbeda untuk koefisien.
Saya pikir itu yang terbaik untuk digunakan ltsReg
karena, summary(ltsReg())
memberikan informasi tentang R-squared
dan p-values
dan ini akan membantu saya untuk memutuskan apakah menerima atau menolak model.
Apakah Anda pikir itu ltsReg
pilihan yang baik?
EDIT: Saya baru saja membaca tentang Statistik Goodness-of-Fit bahwa R-squared yang disesuaikan umumnya merupakan indikator kualitas fit terbaik.
r
regression
p-value
r-squared
Paul
sumber
sumber
Jawaban:
Dalam notasi saya akan menggunakan,p akan menjadi jumlah variabel desain (termasuk istilah konstan), n jumlah observasi dengan n≥2p+1 (Jika kondisi terakhir ini tidak terpenuhi, paket tidak akan mengembalikan kecocokan tetapi kesalahan, jadi saya menganggapnya terpenuhi). Saya akan menyatakan dengan vektor koefisien yang diestimasi oleh FLTS ( ) dan koefisien yang diestimasi oleh MM ( ). Saya juga akan menulis:β^FLTS β^MM
ltsReg
lmrob
(ini adalah residu kuadrat, bukan yang standar!)
The1/n n 1/(p+1) p p+1
rlm
Fungsi cocok sebuah 'M' estimasi regresi dan, seperti usulan @Frank Harrell dibuat di komentar untuk pertanyaan Anda, tidak kuat untuk outlier pada ruang desain. Regresi ordinal memiliki titik rincian (proporsi data Anda yang perlu diganti oleh pencilan untuk menarik koefisien yang dipasang ke nilai arbitrer) pada dasarnya berarti bahwa satu pencilan tunggal (terlepas dari !) Cukup untuk membuat kecocokan tanpa makna . Untuk perkiraan regresi M (misal regresi Huber M) titik gangguan pada dasarnya adalah . Ini agak lebih tinggi tetapi dalam praktiknya masih mendekati 0 (karena sering akan besar). Satu-satunya kesimpulan yang bisa ditarik darirlm
menemukan kecocokan yang berbeda dari dua metode lainnya adalah bahwa itu telah diombang-ambingkan oleh outlier desain dan bahwa harus ada lebih dari dari ini dalam set data Anda.Sebaliknya, dua algoritma lainnya jauh lebih kuat: titik pemecahannya tepat di bawah dan yang lebih penting, tidak menyusut karena semakin besar. Saat memasang model linier menggunakan metode yang kuat, Anda mengasumsikan bahwa setidaknya pengamatan dalam data Anda tidak terkontaminasi. Tugas kedua algoritma ini adalah untuk menemukan orang-orang pengamatan dan cocok mereka juga mungkin. Lebih tepatnya, jika kita menyatakan:1/2 p h=⌊(n+p+1)/2⌋+1
(di mana adalah quantile dari vektor )qh/n(r2i(β^MM)) h/n r2i(β^MM)
lalu ( ) mencoba menyesuaikan pengamatan dengan indeks dalam ( ).β^MM β^FLTS HMM HFLTS
Fakta bahwa ada perbedaan besar antara dan menunjukkan bahwa kedua algoritma tidak mengidentifikasi set pengamatan yang sama dengan outlier. Ini berarti bahwa setidaknya satu dari mereka terpengaruh oleh outlier. Dalam hal ini, menggunakan (disesuaikan) atau salah satu statistik dari salah satu dari dua cocok untuk memutuskan mana yang akan digunakan, meskipun intuitif, adalah ide yang mengerikan : cocok terkontaminasi biasanya memiliki residu yang lebih kecil daripada yang bersih (tetapi karena pengetahuan tentang inilah alasan mengapa seseorang menggunakan statistik yang kuat sejak awal, saya berasumsi bahwa OP sangat menyadari fakta ini dan bahwa saya tidak perlu memperluas ini).β^FLTS β^MM R2
Dua pasangan yang kuat memberikan hasil yang bertentangan dan pertanyaannya adalah mana yang benar? Salah satu cara untuk mengatasi ini adalah dengan mempertimbangkan set:
karena , . Lebih lanjut, jika salah satu dari atau bebas dari outlier, demikian juga . Solusi yang saya usulkan memanfaatkan fakta ini. Menghitung:h≥[n/2] #{H+}≥p HMM HFLTS H+
Misalnya, jika , maka, cocok dengan pengamatan yang baik lebih baik daripada dan jadi saya akan mempercayai lebih. Dan sebaliknya.D(H+,β^FLTS,β^MM)<0 β^FLTS β^MM β^FLTS
sumber