Saya telah menjalankan regresi berganda di mana model secara keseluruhan signifikan dan menjelaskan sekitar 13% dari varians. Namun, saya perlu menemukan jumlah varians yang dijelaskan oleh masing-masing prediktor signifikan. Bagaimana saya bisa melakukan ini menggunakan R?
Berikut beberapa contoh data dan kode:
D = data.frame(
dv = c( 0.75, 1.00, 1.00, 0.75, 0.50, 0.75, 1.00, 1.00, 0.75, 0.50 ),
iv1 = c( 0.75, 1.00, 1.00, 0.75, 0.75, 1.00, 0.50, 0.50, 0.75, 0.25 ),
iv2 = c( 0.882, 0.867, 0.900, 0.333, 0.875, 0.500, 0.882, 0.875, 0.778, 0.867 ),
iv3 = c( 1.000, 0.067, 1.000, 0.933, 0.875, 0.500, 0.588, 0.875, 1.000, 0.467 ),
iv4 = c( 0.889, 1.000, 0.905, 0.938, 0.833, 0.882, 0.444, 0.588, 0.895, 0.812 ),
iv5 = c( 18, 16, 21, 16, 18, 17, 18, 17, 19, 16 ) )
fit = lm( dv ~ iv1 + iv2 + iv3 + iv4 + iv5, data=D )
summary( fit )
Inilah output dengan data aktual saya:
Call: lm(formula = posttestScore ~ pretestScore + probCategorySame +
probDataRelated + practiceAccuracy + practiceNumTrials, data = D)
Residuals:
Min 1Q Median 3Q Max
-0.6881 -0.1185 0.0516 0.1359 0.3690
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.77364 0.10603 7.30 8.5e-13 ***
iv1 0.29267 0.03091 9.47 < 2e-16 ***
iv2 0.06354 0.02456 2.59 0.0099 **
iv3 0.00553 0.02637 0.21 0.8340
iv4 -0.02642 0.06505 -0.41 0.6847
iv5 -0.00941 0.00501 -1.88 0.0607 .
--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.18 on 665 degrees of freedom
Multiple R-squared: 0.13, Adjusted R-squared: 0.123
F-statistic: 19.8 on 5 and 665 DF, p-value: <2e-16
Pertanyaan ini telah dijawab di sini , tetapi jawaban yang diterima hanya membahas prediktor yang tidak berkorelasi, dan sementara ada respons tambahan yang membahas prediktor yang berkorelasi, itu hanya memberikan petunjuk umum, bukan solusi spesifik. Saya ingin tahu apa yang harus dilakukan jika prediktor saya berkorelasi.
r
regression
variance
Baixiwei
sumber
sumber
relaimpo
paket, dan kertas yang menyertainya: jstatsoft.org/index.php/jss/article/view/v017i01/v17i01.pdf Saya sering menggunakan metode "LMG".Jawaban:
Persentase yang dijelaskan tergantung pada urutan yang dimasukkan.
Jika Anda menentukan urutan tertentu, Anda dapat menghitung ini secara sepele dalam R (misalnya melalui
update
dananova
fungsi, lihat di bawah), tetapi urutan entri yang berbeda akan menghasilkan jawaban yang berpotensi sangat berbeda.[Satu kemungkinan adalah rata-rata untuk semua pesanan atau sesuatu, tetapi itu akan menjadi sulit dan mungkin tidak menjawab pertanyaan yang sangat berguna.]
-
Seperti yang ditunjukkan Stat, dengan model tunggal, jika Anda mencari satu variabel pada satu waktu, Anda bisa menggunakan 'anova' untuk menghasilkan jumlah tabel kuadrat tambahan. Ini akan mengikuti dari kode Anda:
-
Jadi di sana kita memiliki varian tambahan yang dijelaskan; bagaimana kita mendapatkan proporsi?
Cukup sepele, skala mereka dengan 1 dibagi dengan jumlah mereka. (Ganti 1 dengan 100 untuk variasi persentase yang dijelaskan.)
Di sini saya telah menampilkannya sebagai kolom tambahan ke tabel anova:
-
Jika Anda memutuskan ingin beberapa pesanan masuk tertentu, Anda dapat melakukan sesuatu yang lebih umum seperti ini (yang juga memungkinkan Anda untuk memasukkan atau menghapus grup variabel sekaligus jika Anda mau):
(Pendekatan semacam itu mungkin juga otomatis, misalnya melalui loop dan penggunaan
get
. Anda dapat menambah dan menghapus variabel dalam beberapa pesanan jika diperlukan)... dan kemudian skala ke persentase seperti sebelumnya.
(NB. Fakta bahwa saya menjelaskan bagaimana melakukan hal-hal ini tidak harus dianggap sebagai pembelaan dari semua yang saya jelaskan.)
sumber
anova(fit)
summary.lm
Saya membuktikan bahwa persentase variasi yang dijelaskan oleh prediktor yang diberikan dalam regresi linier berganda adalah produk dari koefisien kemiringan dan korelasi prediktor dengan nilai-nilai yang sesuai dari variabel dependen (dengan asumsi bahwa semua variabel telah distandarisasi memiliki rata-rata nol dan varian satu; yang tanpa kehilangan sifat umum). Temukan di sini:
https://www.researchgate.net/publication/306347340_A_Natural_Decomposition_of_R2_in_Multiple_Linear_Regression
sumber
Anda dapat menggunakan pustaka hier.part untuk memiliki ukuran goodness of fit untuk regresi satu variabel dependen ke semua kombinasi N variabel independen
sumber