Pilihan antara regresi kuat yang berbeda di R

8

Saya menulis sebuah program untuk mengevaluasi real estat dan saya tidak begitu mengerti perbedaan antara beberapa model regresi yang kuat, itu sebabnya saya tidak tahu mana yang harus dipilih.

Saya mencoba lmrob, ltsRegdan rlm. untuk kumpulan data yang sama, ketiga metode memberi saya nilai yang berbeda untuk koefisien.

Saya pikir itu yang terbaik untuk digunakan ltsRegkarena, summary(ltsReg())memberikan informasi tentang R-squareddan p-valuesdan ini akan membantu saya untuk memutuskan apakah menerima atau menolak model.

Apakah Anda pikir itu ltsRegpilihan yang baik?

EDIT: Saya baru saja membaca tentang Statistik Goodness-of-Fit bahwa R-squared yang disesuaikan umumnya merupakan indikator kualitas fit terbaik.

Paul
sumber
4
Baik nilai-p dan R2bisa menyesatkan sehingga memilih paket berdasarkan fakta bahwa itu menghasilkan mereka sebenarnya bukan kriteria yang baik untuk pilihan seperti itu ...
Tim
lalu bagaimana saya bisa memutuskan apakah model itu valid tanpa memplotnya?
Paul
2
Juga pertimbangkan regresi ordinal karena mungkin lebih kuat dan dapat ditafsirkan, dan lebih kuat.
Frank Harrell
@ user603: Saya konfirmasikan. untuk evaluasi real estat, saya membuat beberapa model, yang berisi sejumlah karakteristik yang berbeda (misalnya: 1. harga ~ livingArea + lantaiNomor + usia + ...).
Paul
2
Seseorang ingin menutup pertanyaan ini! Saya tidak berpikir itu benar, bahkan jika di permukaan itu tentang memilih fungsi R, itu benar-benar tentang bagaimana dan mengapa memilih metode regresi yang kuat, yaitu, ontopic.
kjetil b halvorsen

Jawaban:

10

Dalam notasi saya akan menggunakan, p akan menjadi jumlah variabel desain (termasuk istilah konstan), n jumlah observasi dengan n2p+1(Jika kondisi terakhir ini tidak terpenuhi, paket tidak akan mengembalikan kecocokan tetapi kesalahan, jadi saya menganggapnya terpenuhi). Saya akan menyatakan dengan vektor koefisien yang diestimasi oleh FLTS ( ) dan koefisien yang diestimasi oleh MM ( ). Saya juga akan menulis:β^FLTSltsRegβ^MMlmrob

ri2(β^)=(yixiβ^)2

(ini adalah residu kuadrat, bukan yang standar!)

The rlmFungsi cocok sebuah 'M' estimasi regresi dan, seperti usulan @Frank Harrell dibuat di komentar untuk pertanyaan Anda, tidak kuat untuk outlier pada ruang desain. Regresi ordinal memiliki titik rincian (proporsi data Anda yang perlu diganti oleh pencilan untuk menarik koefisien yang dipasang ke nilai arbitrer) pada dasarnya berarti bahwa satu pencilan tunggal (terlepas dari !) Cukup untuk membuat kecocokan tanpa makna . Untuk perkiraan regresi M (misal regresi Huber M) titik gangguan pada dasarnya adalah . Ini agak lebih tinggi tetapi dalam praktiknya masih mendekati 0 (karena sering akan besar). Satu-satunya kesimpulan yang bisa ditarik dari1/nn1/(p+1)prlmmenemukan kecocokan yang berbeda dari dua metode lainnya adalah bahwa itu telah diombang-ambingkan oleh outlier desain dan bahwa harus ada lebih dari dari ini dalam set data Anda.p+1

Sebaliknya, dua algoritma lainnya jauh lebih kuat: titik pemecahannya tepat di bawah dan yang lebih penting, tidak menyusut karena semakin besar. Saat memasang model linier menggunakan metode yang kuat, Anda mengasumsikan bahwa setidaknya pengamatan dalam data Anda tidak terkontaminasi. Tugas kedua algoritma ini adalah untuk menemukan orang-orang pengamatan dan cocok mereka juga mungkin. Lebih tepatnya, jika kita menyatakan:1/2ph=(n+p+1)/2+1

HFLTS={i:ri2(β^FLTS)qh/n(ri2(β^FLTS))}HMM={i:ri2(β^MM)qh/n(ri2(β^MM))}

(di mana adalah quantile dari vektor )qh/n(ri2(β^MM))h/nri2(β^MM)

lalu ( ) mencoba menyesuaikan pengamatan dengan indeks dalam ( ).β^MMβ^FLTSHMMHFLTS

Fakta bahwa ada perbedaan besar antara dan menunjukkan bahwa kedua algoritma tidak mengidentifikasi set pengamatan yang sama dengan outlier. Ini berarti bahwa setidaknya satu dari mereka terpengaruh oleh outlier. Dalam hal ini, menggunakan (disesuaikan) atau salah satu statistik dari salah satu dari dua cocok untuk memutuskan mana yang akan digunakan, meskipun intuitif, adalah ide yang mengerikan : cocok terkontaminasi biasanya memiliki residu yang lebih kecil daripada yang bersih (tetapi karena pengetahuan tentang inilah alasan mengapa seseorang menggunakan statistik yang kuat sejak awal, saya berasumsi bahwa OP sangat menyadari fakta ini dan bahwa saya tidak perlu memperluas ini).β^FLTSβ^MMR2

Dua pasangan yang kuat memberikan hasil yang bertentangan dan pertanyaannya adalah mana yang benar? Salah satu cara untuk mengatasi ini adalah dengan mempertimbangkan set:

H+=HMMHFLTS

karena , . Lebih lanjut, jika salah satu dari atau bebas dari outlier, demikian juga . Solusi yang saya usulkan memanfaatkan fakta ini. Menghitung:h[n/2]#{H+}pHMMHFLTSH+

D(H+,β^FLTS,β^MM)=iH+(ri2(β^FLTS)ri2(β^MM))

Misalnya, jika , maka, cocok dengan pengamatan yang baik lebih baik daripada dan jadi saya akan mempercayai lebih. Dan sebaliknya.D(H+,β^FLTS,β^MM)<0β^FLTSβ^MMβ^FLTS

pengguna603
sumber
1
+1. Saya kira Anda menggunakan berarti bulat ke fungsi integer atau lantai . Saya menemukan notasi terakhir lebih eksplisit. Sangat mudah untuk mengasumsikan bagi pembaca yang baru dengan notasi untuk pembulatan integer untuk menganggap bahwa tanda kurung siku hanya tanda kurung. [  ]  
Nick Cox