Mengapa disesuaikan R-kuadrat kurang dari R-kuadrat jika disesuaikan R-kuadrat memprediksi model yang lebih baik?

15

Sejauh yang saya mengerti, menjelaskan seberapa baik model memprediksi pengamatan. Adjusted R 2 adalah salah satu yang memperhitungkan lebih banyak pengamatan (atau derajat kebebasan). Jadi, Adjusted R 2 memprediksi model lebih baik? Lalu mengapa ini kurang dari R 2 ? Tampaknya sering harus lebih.R2R2R2R2

pengguna59756
sumber

Jawaban:

30

menunjukkan hubungan linear antara variabel independen dan variabel dependen. Ini didefinisikan sebagai 1 - S S ER2 yang merupakan jumlah kesalahan kuadrat dibagi dengan jumlah total kuadrat. SSTO=SSE+SSRyang merupakan kesalahan total dan jumlah total dari kotak regresi. Ketika variabel independen ditambahkan,SSRakan terus naik (dan karenaSSTOsudah pasti)SSEakan turun danR2akan terus naik terlepas dari seberapa berharganya variabel yang Anda tambahkan.1SSESSTOSSTO=SSE+SSRSSRSSTOSSER2

Adjusted berusaha menjelaskan penyusutan statistik. Model dengan banyak prediktor cenderung berkinerja lebih baik dalam sampel daripada saat diuji di luar sampel. R 2 yang disesuaikan "menghukum" Anda karena menambahkan variabel prediktor tambahan yang tidak meningkatkan model yang ada. Ini dapat membantu dalam pemilihan model. Adjusted R 2 akan sama dengan R 2 untuk satu variabel prediktor. Ketika Anda menambahkan variabel, itu akan lebih kecil dari R 2 .R2R2R2R2R2

Eric Peterson
sumber
Tidak jelas, bagaimana R square yang disesuaikan mencapai properti runcing. Artinya, apa rumusnya dan bagaimana itu menyebabkan sifat-sifatnya?
Alexey Voytenko
Adj R ^ 2 = 1 - ((n -1) / (n - k -1)) (1 - R ^ 2)
mountainclimber
Di mana k = # variabel bebas, n = # pengamatan
mountainclimber
mencoba menjelaskan penyusutan statistik - mungkin karena kelebihan beban?
Richard Hardy
-1

R ^ 2 menjelaskan proporsi variasi dalam variabel dependen Anda (Y) yang dijelaskan oleh variabel independen Anda (X) untuk model regresi linier.

Sementara adjusted R ^ 2 mengatakan proporsi variasi dalam variabel dependen Anda (Y) dijelaskan oleh lebih dari 1 variabel independen (X) untuk model regresi linier.

astha gupta
sumber
1
Perbedaan yang Anda buat antara "variabel independen" dan "lebih dari 1 variabel independen" tidak jelas. Juga, mengutip Andy dari bawah, "Anda tidak benar-benar menambahkan informasi baru ke apa yang disediakan sebelumnya."
Amuba mengatakan Reinstate Monica
-2

R-Squared meningkat bahkan ketika Anda menambahkan variabel yang tidak terkait dengan variabel dependen, tetapi R-Squared yang disesuaikan berhati-hati karena akan berkurang setiap kali Anda menambahkan variabel yang tidak terkait dengan variabel dependen, jadi setelah merawat kemungkinan untuk mengurangi.

MBOTWA CHRISTOPHER
sumber
3
Mengingat bahwa pertanyaan ini sudah memiliki jawaban yang diterima, ini seharusnya lebih berupa komentar. Anda tidak benar-benar menambahkan informasi baru ke apa yang disediakan sebelumnya.
Andy