Saya ingin memilih model menggunakan regsubsets()
. Saya memiliki kerangka data yang disebut olympiadaten (data diunggah: http://www.sendspace.com/file/8e27d0 ). Saya pertama-tama melampirkan kerangka data ini dan kemudian mulai menganalisis, kode saya adalah:
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
tangkapan layar plot:
Masalahnya adalah sekarang, bahwa saya ingin mencocokkan model terbaik lagi "secara manual" dan melihatnya, tetapi nilai R yang disesuaikan kuadrat tidak sama dengan dalam output regsubsets? Ini juga merupakan kasus untuk model lain, misalnya ketika saya melakukan model paling sederhana dalam grafik:
summary(lm(Gesamt~ExpHealth))
Grafik mengatakan, seharusnya memiliki R kuadrat yang disesuaikan sekitar 0,14, tetapi ketika saya melihat output, saya mendapatkan nilai 0,06435.
Ini adalah output dari summary(lm(Gesamt~ExpHealth))
:
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
Saya tidak tahu apa yang mungkin saya lakukan salah, bantuan apa pun akan dihargai.
Dan yang tak kalah pentingnya, beberapa pertanyaan lagi:
- Apa perbedaan antara memilih model oleh AIC dan oleh adj. R kuadrat?
- Keduanya mengukur kecocokan dan mengenali jumlah variabel, jadi bukan model terbaik yang dipilih oleh AIC juga model dengan adj tertinggi. r kuadrat?
- Jadi, apakah
regsubsets()
perintah menghitung masing-masing model dan menunjukkan dua terbaik (nbest=2
) dari masing-masing ukuran? - Jika demikian, apakah saya benar-benar mendapatkan model 'terbaik'?
- Dan ketika saya melakukan AIC menggunakan seleksi mundur (dimulai dengan model yang berisi semua variabel), apakah ini juga berakhir dengan model yang sama yang
regsubsets()
mengatakan yang terbaik?
sumber
Jawaban:
Untuk memajukan gagasan tentang penggunaan semua himpunan bagian atau perangkat himpunan himpunan bagian terbaik untuk menemukan model pemasangan "Terbaik", Buku "Bagaimana Berbohong dengan Statistik" oleh Darrell Huff mengisahkan tentang Readers Digest yang menerbitkan perbandingan bahan kimia dalam asap rokok. Maksud artikel mereka adalah untuk menunjukkan bahwa tidak ada perbedaan nyata antara merek-merek yang berbeda, tetapi satu merek paling rendah di beberapa bahan kimia (tetapi sedikit sekali perbedaannya tidak berarti) dan merek memulai kampanye iklan besar berdasarkan menjadi "terendah" atau "terbaik" menurut Readers Digest.
Semua subset atau regresi subset terbaik adalah serupa, pesan sebenarnya dari grafik yang Anda tunjukkan bukan "di sini adalah yang terbaik" tetapi sebenarnya tidak ada satu model terbaik. Dari tampilan statistik (menggunakan r-squared yang disesuaikan) sebagian besar model Anda hampir sama (beberapa di bagian bawah lebih rendah daripada yang di atas, tetapi sisanya semua serupa). Keinginan Anda untuk menemukan model "Terbaik" dari tabel itu seperti perusahaan rokok yang mengatakan bahwa produk mereka adalah yang terbaik ketika tujuannya adalah untuk menunjukkan bahwa mereka semua serupa.
Ini adalah sesuatu untuk dicoba, hapus satu titik secara acak dari dataset dan jalankan kembali analisisnya, apakah Anda mendapatkan model "Terbaik" yang sama? atau apakah itu berubah? ulangi beberapa kali menghapus titik yang berbeda setiap kali untuk melihat bagaimana perubahan model "Terbaik". Apakah Anda benar-benar nyaman mengklaim model adalah "Terbaik" ketika perubahan kecil dalam data memberikan "Terbaik" yang berbeda? Juga lihat seberapa jauh perbedaan koefisien antara model yang berbeda, bagaimana Anda menginterpretasikan perubahan itu?
Hal-hal lain yang perlu dipertimbangkan termasuk mengambil beberapa model yang baik dan menggabungkannya (Model Averaging), atau daripada meminta masing-masing variabel menjadi semua atau semua menambahkan beberapa bentuk penalti (Ridge regresi, LASSO, elasticnet, ...).
sumber
Saya benar-benar tidak tahu apa yang Anda maksud dengan model terbaik. Setiap kriteria pada dasarnya memberikan definisi yang berbeda tentang yang terbaik. Anda dapat memanggil model terbaik dalam hal informasi, entropi, kompleksitas stokastik, variasi persentase yang dijelaskan (disesuaikan) dan banyak lagi. Jika Anda berurusan dengan crtierion tertentu dan maknanya dengan terbaik menangkap minimum sebenarnya untuk mengatakan AIC atas semua model yang mungkin maka itu hanya dapat dijamin dengan melihat semua model (yaitu semua pilihan subset untuk variabel). Prosedur step-up, step-down dan step-wise tidak selalu menemukan model terbaik dalam arti suatu crtierion tertentu. Dengan regresi bertahap, Anda bahkan bisa mendapatkan jawaban yang berbeda dengan memulai model yang berbeda. Saya yakin Frank Harrell akan banyak bicara tentang ini.
Untuk mempelajari lebih lanjut, ada beberapa buku bagus tentang pemilihan model / subset yang tersedia dan saya telah merujuk beberapa di sini pada posting lain. Juga monografi Lacey Gunter dengan Springer dalam seri SpringerBrief mereka akan segera keluar. Saya adalah rekan penulis dalam buku itu.
sumber