Apa rumus tepat yang digunakan dalam R lm()
untuk Adjusted R-squared? Bagaimana saya bisa menafsirkannya?
Formula r-squared yang disesuaikan
Tampaknya ada beberapa rumus untuk menghitung R-kuadrat Disesuaikan.
- Formula Wherry:
- Formula McNemar:
- Formula Tuhan:
- Formula Stein:
Deskripsi buku teks
- Menurut buku teks Field, Discovering Statistics Using R (2012, hlm. 273) R menggunakan persamaan Wherry yang "memberi tahu kita berapa banyak varian dalam Y yang akan dipertanggungjawabkan jika model tersebut berasal dari populasi dari mana sampel diambil". Dia tidak memberikan formula untuk Wherry. Dia merekomendasikan menggunakan formula Stein (dengan tangan) untuk memeriksa seberapa baik model memvalidasi silang.
- Kleiber / Zeileis, Applied Econometrics with R (2008, p. 59) mengklaim itu "Theil's adjusted R-squared" dan tidak mengatakan dengan tepat bagaimana interpretasinya bervariasi dari beberapa R-squared.
- Dalgaard, Pengantar Statistik dengan R (2008, hal. 113) menulis bahwa "jika Anda mengalikan [disesuaikan R-kuadrat] dengan 100%, itu dapat diartikan sebagai '% pengurangan varians'". Dia tidak mengatakan formula mana yang sesuai.
Saya sebelumnya berpikir, dan membaca secara luas, bahwa R-squared menghukum karena menambahkan variabel tambahan ke model. Sekarang penggunaan formula yang berbeda ini tampaknya membutuhkan interpretasi yang berbeda. Saya juga melihat pertanyaan terkait pada Stack Overflow ( Apa perbedaan antara Multiple R-squared dan Adjusted R-squared dalam regresi kuadrat varian tunggal-variate? ), Dan kamus statistik Wharton school di UPenn .
Pertanyaan
- Formula mana yang digunakan untuk r-square yang disesuaikan oleh R
lm()
? - Bagaimana saya bisa menafsirkannya?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
:, di mana ans $ r.squared = R ^ 2; n = n, rdf = residual df, df.int = intersep df (0 atau 1).Jawaban:
1. Formula apa yang digunakan
lm
dalam R untuk penyesuaian r-square?Seperti yang telah disebutkan, mengetik
summary.lm
akan memberi Anda kode yang R gunakan untuk menghitung R square yang disesuaikan. Mengekstrak baris paling relevan yang Anda dapatkan:yang sesuai dengan notasi matematika untuk:
df.int=1
rdf
n-p-1
2. Mengapa ada begitu banyak formula r-square yang disesuaikan?
Referensi
sumber
Mengenai pertanyaan pertama Anda: Jika Anda tidak tahu bagaimana cara menghitungnya lihat kode! Jika Anda mengetik
summary.lm
di konsol, Anda mendapatkan kode untuk fungsi ini. Jika Anda skim pikir kode Anda akan menemukan baris:ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
. Jika Anda melihat beberapa baris di atas dari baris ini, Anda akan melihat bahwa:ans$r.squared
n
adalah jumlah residu = jumlah pengamatandf.int
adalah 0 atau 1 (tergantung jika Anda memiliki intersep)rdf
adalah sisa df Andasumber