Di R, drop1
perintah menghasilkan sesuatu yang rapi.
Dua perintah ini akan memberi Anda beberapa output:
example(step)#-> swiss
drop1(lm1, test="F")
Milik saya terlihat seperti ini:
> drop1(lm1, test="F")
Single term deletions
Model:
Fertility ~ Agriculture + Examination + Education + Catholic +
Infant.Mortality
Df Sum of Sq RSS AIC F value Pr(F)
<none> 2105.0 190.69
Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 *
Examination 1 53.03 2158.1 189.86 1.0328 0.315462
Education 1 1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic 1 447.71 2552.8 197.75 8.7200 0.005190 **
Infant.Mortality 1 408.75 2513.8 197.03 7.9612 0.007336 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Apa arti semua ini? Saya berasumsi bahwa "bintang-bintang" membantu dalam menentukan variabel input mana yang harus disimpan. Melihat output di atas, saya ingin membuang variabel "Pemeriksaan" dan fokus pada variabel "Pendidikan", apakah interpretasi ini benar?
Juga, nilai AIC, lebih rendah lebih baik, ya?
Ed. Harap perhatikan jawaban Wiki Komunitas di bawah ini dan tambahkan padanya jika Anda mau, untuk memperjelas hasil ini.
step()
telah diberi peringkat +2 pada saat penulisan ini (jadi mengapa ?!), (3) OP mengakui kegunaan tanggapan @ Joris.Jawaban:
drop1
memberi Anda perbandingan model berdasarkan kriteria AIC, dan ketika menggunakan opsitest="F"
Anda menambahkan "tipe II ANOVA" untuk itu, seperti yang dijelaskan dalam file bantuan . Selama Anda hanya memiliki variabel kontinu, tabel ini persis sama dengansummary(lm1)
, karena nilai-F hanyalah nilai-T yang dikuadratkan. Nilai-P persis sama.Lalu apa hubungannya dengan itu? Menafsirkannya persis seperti itu: ia menyatakan dengan cara jika model tanpa istilah itu "secara signifikan" berbeda dari model dengan istilah itu. Pikirkan "" sekitar secara signifikan, karena signifikansi di sini tidak dapat ditafsirkan seperti yang dipikirkan kebanyakan orang. (masalah multi-pengujian dan semua ...)
Dan mengenai AIC: semakin rendah semakin baik tampaknya lebih seperti itu. AIC adalah nilai yang berlaku untuk model , bukan untuk variabel. Jadi model terbaik dari keluaran itu adalah yang tanpa pemeriksaan variabel.
Ingat, perhitungan statistik AIC dan F berbeda dari fungsi R
AIC(lm1)
resp.anova(lm1)
. SebabAIC()
, informasi itu diberikan di halaman bantuanextractAIC()
. Untukanova()
fungsi, agak jelas bahwa tipe I dan tipe II SS tidak sama.Saya mencoba untuk tidak bersikap kasar, tetapi jika Anda tidak mengerti apa yang dijelaskan dalam file bantuan di sana, Anda seharusnya tidak menggunakan fungsi itu terlebih dahulu. Regresi bertahap sangat rumit, membahayakan nilai-p Anda dengan cara yang paling mendalam. Jadi sekali lagi, jangan tidak mendasarkan diri pada p-nilai. Model Anda harus mencerminkan hipotesis Anda dan bukan sebaliknya.
sumber
Sebagai referensi, ini adalah nilai-nilai yang termasuk dalam tabel:
Df
merujuk pada Derajat kebebasan , "jumlah derajat kebebasan adalah jumlah nilai dalam penghitungan akhir suatu statistik yang bebas bervariasi."The
Sum of Sq
kolom mengacu pada jumlah kuadrat (atau lebih tepatnya jumlah penyimpangan kuadrat ). Singkatnya, ini adalah ukuran jumlah yang masing-masing nilai individu menyimpang dari rata-rata keseluruhan nilai-nilai tersebut.RSS
adalah Jumlah Sisa Kuadrat . Ini adalah ukuran seberapa besar nilai prediksi variabel dependen (atau output) bervariasi dari nilai sebenarnya untuk setiap titik data dalam set (atau lebih bahasa sehari-hari: setiap "baris" dalam tabel data).AIC
adalah kriteria informasi Akaike yang umumnya dianggap "terlalu rumit untuk dijelaskan" tetapi, singkatnya, merupakan ukuran dari kebaikan model model statistik yang diperkirakan. Jika Anda memerlukan perincian lebih lanjut, Anda harus beralih ke pohon mati dengan kata-kata di atasnya (yaitu, buku). Atau Wikipedia dan sumber daya di sana.Yang
F value
digunakan untuk melakukan apa yang disebut F-test dan dari itu diturunkanPr(F)
nilai, yang menjelaskan bagaimana mungkin (atau Probable = Pr) yang nilai F adalah. Nilai Pr (F) mendekati nol (ditunjukkan oleh***
) merupakan indikasi dari variabel input yang dalam beberapa hal penting untuk dimasukkan dalam model yang baik, yaitu model yang tidak memasukkannya "secara signifikan" berbeda dari yang ada. itu benar.Semua nilai-nilai ini, dalam konteks
drop1
perintah, dihitung untuk membandingkan model keseluruhan (termasuk semua variabel input) dengan model yang dihasilkan dari menghapus satu variabel tertentu per setiap baris dalam tabel output.Sekarang, jika ini dapat diperbaiki, silakan tambahkan atau klarifikasi masalah apa pun. Tujuan saya hanya untuk mengklarifikasi dan memberikan referensi "reverse lookup" yang lebih baik dari output perintah R ke makna sebenarnya dari itu.
sumber