Saya bertanya-tanya apa hubungan yang tepat antara parsial dan koefisien dalam model linier dan apakah saya harus menggunakan hanya satu atau keduanya untuk menggambarkan pentingnya dan pengaruh faktor.
Sejauh yang saya tahu, dengan summary
saya mendapatkan estimasi koefisien, dan dengan anova
jumlah kuadrat untuk setiap faktor - proporsi jumlah kuadrat dari satu faktor dibagi dengan jumlah jumlah kuadrat ditambah residu adalah parsial (kode berikut ada di ).R
library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe)
Residuals:
Min 1Q Median 3Q Max
-60.240 -15.738 -1.156 15.883 51.380
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 ***
income 8.065e-02 9.299e-03 8.674 2.56e-11 ***
young 8.173e-01 1.598e-01 5.115 5.69e-06 ***
urban -1.058e-01 3.428e-02 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 48087 48087 67.4869 1.219e-10 ***
young 1 19537 19537 27.4192 3.767e-06 ***
urban 1 6787 6787 9.5255 0.003393 **
Residuals 47 33489 713
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Ukuran koefisien untuk 'young' (0,8) dan 'urban' (-0,1, sekitar 1/8 dari yang sebelumnya, mengabaikan '-') tidak cocok dengan varian yang dijelaskan ('young' ~ 19500 dan 'urban' ~ 6790, yaitu sekitar 1/3).
Jadi saya pikir saya perlu skala data saya karena saya berasumsi bahwa jika rentang faktor jauh lebih luas daripada rentang faktor lain koefisien mereka akan sulit untuk dibandingkan:
Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)
Residuals:
Min 1Q Median 3Q Max
-1.29675 -0.33879 -0.02489 0.34191 1.10602
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.084e-16 8.046e-02 0.000 1.00000
income 9.723e-01 1.121e-01 8.674 2.56e-11 ***
young 4.216e-01 8.242e-02 5.115 5.69e-06 ***
urban -3.447e-01 1.117e-01 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 22.2830 22.2830 67.4869 1.219e-10 ***
young 1 9.0533 9.0533 27.4192 3.767e-06 ***
urban 1 3.1451 3.1451 9.5255 0.003393 **
Residuals 47 15.5186 0.3302
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Tapi itu tidak benar-benar membuat perbedaan, parsial dan ukuran koefisien (ini sekarang koefisien terstandarisasi ) masih tidak cocok:
22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young: partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban: partial R2 0.062, Coeff -0.34
Jadi apakah adil untuk mengatakan bahwa 'muda' menjelaskan perbedaan tiga kali lebih banyak daripada 'perkotaan' karena parsial untuk 'muda' adalah tiga kali lipat dari 'perkotaan'? Mengapa koefisien 'muda' maka tidak tiga kali lipat dari 'urban' (mengabaikan tanda)?
Saya kira jawaban untuk pertanyaan ini kemudian juga akan memberi saya jawaban untuk pertanyaan awal saya: Haruskah saya menggunakan sebagian atau koefisien untuk menggambarkan kepentingan relatif faktor? (Mengabaikan arah pengaruh - tanda - untuk saat ini.)
Edit:
Parsial muncul eta-squared menjadi nama lain untuk apa yang saya disebut parsial . etasq {heplots} adalah fungsi yang berguna yang menghasilkan hasil yang serupa:
etasq(mod)
Partial eta^2
income 0.6154918
young 0.3576083
urban 0.1685162
Residuals NA
Jawaban:
Singkatnya , saya tidak akan menggunakan parsial dan koefisien terstandarisasi dalam analisis yang sama, karena mereka tidak independen. Saya berpendapat bahwa biasanya mungkin lebih intuitif untuk membandingkan hubungan menggunakan koefisien terstandarisasi karena mereka mudah berhubungan dengan definisi model (yaitu ). Parsial , pada dasarnya, pada dasarnya adalah proporsi varians bersama unik antara prediktor dan variabel dependen (dv) (jadi untuk prediktor pertama itu adalah kuadrat dari korelasi parsial ). Selanjutnya, untuk kecocokan dengan kesalahan yang sangat kecil, semua parsial koefisien Y = β X R 2 r x 1 y . x 2 . . . x n R 2R2 Y= βX R2 rx1y. x2. . . xn R2 cenderung ke 1, sehingga mereka tidak berguna dalam mengidentifikasi kepentingan relatif dari para prediktor.
Definisi ukuran efek
partial - Proporsi variasi residu dijelaskan dengan menambahkan prediktor ke model terbatas (model penuh tanpa prediktor). Sama dengan:R2
R 2ΔR2 - Perbedaan antara model terbatas dan penuh. Sama dengan:R2
Semua ini terkait erat, tetapi mereka berbeda mengenai bagaimana mereka menangani struktur korelasi antara variabel. Untuk memahami perbedaan ini sedikit lebih baik, mari kita asumsikan kita memiliki 3 variabel standar (rata-rata = 0, sd = 1) yang korelasinya adalah . Kami akan mengambil sebagai variabel dependen dan dan sebagai prediktor. Kami akan mengungkapkan semua koefisien ukuran efek dalam hal korelasi sehingga kami dapat secara eksplisit melihat bagaimana struktur korelasi ditangani oleh masing-masing. Pertama kita akan membuat daftar koefisien dalam model regresi diperkirakan menggunakan OLS. Rumus untuk koefisien: r x y , r x z , r y z x y z x = β y Y + β z Z β y = r x y - r y z r z xx , y, z rx y, rx z, ryz x y z x = βyY+ βzZ R2parsial
yang diberikan oleh:Δ R2----√
Perbedaan antara ini adalah penyebutnya, yang untuk dan hanya berisi korelasi antara prediktor. Harap perhatikan bahwa dalam sebagian besar konteks (untuk prediktor yang berkorelasi lemah) ukuran keduanya akan sangat mirip, sehingga keputusan tersebut tidak akan terlalu mempengaruhi penafsiran Anda. Juga, jika prediktor yang memiliki kekuatan korelasi yang sama dengan variabel dependen dan tidak terlalu berkorelasi kuat rasio akan mirip dengan rasio .√β √Δ R2----√ βstdR2sebagian------√ βs t d
Kembali ke kode Anda. TheR2
anova
fungsi dalam penggunaan R ketik saya jumlah kuadrat secara default, sedangkan parsial seperti yang dijelaskan di atas harus dihitung berdasarkan jumlah tipe III dari kotak (yang saya percaya adalah setara dengan jumlah tipe II dari kotak jika tidak ada interaksi hadir dalam model Anda). Perbedaannya adalah bagaimana SS yang dijelaskan dipartisi di antara para prediktor. Dalam tipe I SS, prediktor pertama diberikan semua SS yang dijelaskan, yang kedua hanya "SS yang tersisa" dan yang ketiga hanya SS yang tersisa dari situ, oleh karena itu urutan Anda memasukkan variabel dalam panggilan Anda akan mengubah SS masing-masing. . Ini kemungkinan besar bukan yang Anda inginkan ketika menafsirkan koefisien model.lm
Jika Anda menggunakan jumlah kuadrat tipe II dalamF t F( 1 , n ) = t2( n ) R2 adalah variabel SS dibagi dengan variabel SS ditambah SS residual. Ini akan menghasilkan nilai yang sama seperti yang Anda daftarkan dari hal R2
Anova
panggilan Anda daricar
paket dalam R, maka nilai untuk anova Anda akan sama dengan nilai kuadrat untuk koefisien Anda (karena ). Ini menunjukkan bahwa memang jumlah ini terkait erat, dan tidak boleh dinilai secara independen. Untuk memanggil jumlah kuadrat tipe II dalam contoh Anda ganti dengan . Jika Anda memasukkan istilah interaksi, Anda harus menggantinya dengan jumlah kuadrat tipe III agar koefisien dan uji R parsial sama (ingat untuk mengubah kontras ke jumlah yang digunakan sebelum memanggil ). Parsialanova(mod)
Anova(mod, type = 2)
options(contrasts = c("contr.sum","contr.poly"))
Anova(mod,type=3)
etasq()
output. Sekarang tes dan nilai untuk hasil anova Anda (parsial ) dan koefisien regresi Anda adalah sama.Kredit
Rumus untuk korelasi parsial diberikan dalam jawaban di sini: Regresi berganda atau koefisien korelasi parsial? Dan hubungan keduanya
sumber
Seperti yang sudah dijelaskan dalam beberapa jawaban lain dan dalam komentar, pertanyaan ini didasarkan pada setidaknya tiga kebingungan:
Fungsit
anova()
menggunakan dekomposisi jumlah kuadrat (SS) berurutan (juga disebut tipe I) yang tergantung pada urutan prediktor. Dekomposisi yang berkaitan dengan koefisien regresi dan uji untuk signifikansinya, adalah tipe III SS, yang dapat Anda peroleh dengan fungsi dari paket.Anova()
car
Setelah kebingungan ini diklarifikasi, pertanyaannya tetap seperti apa ukuran ukuran efek prediktor yang paling tepat, atau penting.
Dalam R, ada paket
relaimpo
yang menyediakan beberapa ukuran yang relatif penting.Menggunakan
Anscombe
dataset yang sama seperti dalam pertanyaan Anda, ini menghasilkan metrik berikut:Beberapa metrik ini telah dibahas:
betasq
adalah kuadrat koefisien standar, nilai yang sama seperti yang Anda perolehlm()
.first
anova()
last
anova()
Ada empat metrik lebih lanjut di
relaimpo
- dan satu lagi (kelima) tersedia jika paketrelaimpo
diinstal secara manual: Versi CRAN mengecualikan metrik ini karena potensi konflik dengan penulisnya yang, gila kedengarannya, memiliki hak paten AS pada metodenya. . Saya menjalankan R online dan tidak memiliki akses ke sana, jadi jika ada yang bisa menginstal secara manualrelaimpo
, tambahkan metrik tambahan ini ke output saya di atas untuk kelengkapan.Dua metrik
pratt
itu bisa negatif (buruk) dangenizi
itu cukup kabur.Dua pendekatan menarik adalah
lmg
dancar
.Yang kedua diperkenalkan pada (Zuber & Strimmer, 2011) dan memiliki banyak sifat teoritis yang menarik; itu kuadrat koefisien standar setelah prediktor pertama kali standar dan kemudian diputihkan dengan transformasi ZCA / Mahalanobis (yaitu memutihkan sambil meminimalkan kesalahan rekonstruksi).
lmg
car
Bibliografi:
Referensi pada kepentingan relatif di Ulrike Grömping situs 's - dia adalah penulis
relaimpo
.Grömping, U. (2006). Pentingnya Relatif untuk Regresi Linier di R: Paket relaimpo . Jurnal Perangkat Lunak Statistik 17, Edisi 1.
Grömping, U. (2007). Estimator Pentingnya Relatif dalam Regresi Linier Berdasarkan Dekomposisi Varians . The American Statistician 61, 139-147.
Zuber, V. dan Strimmer, K. (2010). Regresi dimensi tinggi dan pemilihan variabel menggunakan skor CAR . Aplikasi Statistik dalam Genetika dan Biologi Molekuler 10.1 (2011): 1-27.
Grömping, U. (2015). Variabel kepentingan dalam model regresi . Wiley Interdisciplinary Reviews: Computational Statistics, 7 (2), 137-152. (di balik dinding bayar)
sumber
Kau menulis:
Penting untuk tidak membingungkan dua hal di sini. Pertama, ada pertanyaan tentang spesifikasi model. Algoritma lm mengasumsikan bahwa asumsi OLS terpenuhi. Di antara hal-hal lain ini berarti bahwa untuk estimasi yang tidak bias, variabel NO yang signifikan dapat hilang dari model (kecuali bila tidak berkorelasi dengan semua regresi lainnya, jarang).
Jadi dalam menemukan model, pengaruh tambahan pada R² atau R² yang disesuaikan tentu saja menarik. Orang mungkin berpikir bahwa adalah tepat untuk menambahkan regressor sampai R² yang disesuaikan berhenti membaik, misalnya. Ada masalah menarik dengan prosedur regresi bertahap seperti ini, tetapi ini bukan topiknya. Bagaimanapun saya berasumsi ada alasan Anda memilih model Anda.
NAMUN: pengaruh tambahan ini pada R² tidak identik dengan pengaruh nyata atau total dari regressor pada variabel independen, justru karena multikolineritas: Jika Anda mengambil regressor, sebagian dari pengaruhnya sekarang akan dikaitkan dengan regressor lain yang berkorelasi dengan itu. Jadi sekarang pengaruh sebenarnya tidak ditampilkan dengan benar.
Dan ada masalah lain: Perkiraan hanya valid untuk model lengkap dengan semua regresi lainnya hadir. Entah model ini belum benar dan oleh karena itu diskusi tentang pengaruh tidak ada artinya - atau itu benar dan kemudian Anda tidak dapat menghilangkan regresi dan masih menggunakan metode OLS dengan sukses.
Jadi: apakah model Anda dan penggunaan OLS sesuai? Jika ya, maka estimasi menjawab pertanyaan Anda - itu adalah tebakan terbaik Anda secara literal dari pengaruh variabel terhadap variabel regresi dan variabel dependen.
Jika tidak, maka pekerjaan pertama Anda adalah menemukan model yang benar. Untuk ini, penggunaan sebagian R² mungkin merupakan cara. Pencarian spesifikasi model atau regresi bertahap akan menghasilkan banyak pendekatan menarik di forum ini. Apa yang berhasil akan tergantung pada data Anda.
sumber
relaimpo
adalah untuk memberikan alternatif untuk parsial R ^ 2, untuk alasan yang diberikan IMA!relaimpo
paket saya menyadari bahwa ada seluruh dunia pendekatan yang berbeda untuk mengukur kepentingan relatif dari prediktor dalam regresi linier. Saya saat ini sedang melihat-lihat beberapa makalah yang terhubung di sana ( pracetak 2010 ini terlihat cukup bagus sejauh ini), dan ini berantakan! Saya tidak menyadari bahwa masalah ini sangat rumit, ketika saya menawarkan hadiah saya. Sepertinya tidak dibahas dengan baik di CV. Apakah ini topik yang tidak jelas? Jika demikian, mengapa?Mengenai perbedaan antara koefisien regresi linier dan korelasi parsial Anda dapat membaca ini , misalnya.
Namun, kebingungan yang diungkapkan dalam pertanyaan itu tampaknya bersifat lain. Tampaknya tentang jenis standar jumlah kotak yang digunakan oleh paket statistik ini atau itu (topik, berulang kali dibahas di situs kami). Regresi linier menggunakan apa yang disebut dalam perhitungan ANOVA Tipe III SS. Dalam banyak program ANOVA itu adalah opsi default juga. Secara
R
fungsianova
, menurut saya (saya bukan pengguna R, jadi saya kira saja) perhitungan standarnya adalah Tipe I SS ("sekuensial SS" yang tergantung pada urutan prediktor yang ditentukan dalam model). Jadi, perbedaan yang Anda amati dan yang tidak hilang ketika Anda menstandarkan ("diskalakan") variabel Anda adalah karena Anda menentukan ANOVA dengan opsi Tipe I default.Di bawah ini adalah hasil yang diperoleh di SPSS dengan data Anda:
Anda dapat memilih dalam cetakan ini bahwa parameter (koefisien penyesalan) adalah sama terlepas dari jenis perhitungan SS. Anda mungkin memperhatikan juga bahwa parsial Eta kuadrat [yang SSeffect / (SSeffect + SSerror) dan = parsial R-kuadrat dalam kasus kami karena prediktor adalah kovariat numerik] sepenuhnya sama dalam tabel efek dan koefisien hanya ketika mengetik SS adalah III. Ketika tipe SS adalah I, hanya yang terakhir dari 3 prediktor, "urban", yang mempertahankan nilai yang sama (.169); ini karena dalam urutan input dari prediktor, ini adalah yang terakhir. Dalam kasus SS tipe III urutan input tidak menjadi masalah, seperti dalam regresi. Ngomong-ngomong, ketidaksesuaian itu juga diamati dalam nilai-p. Meskipun Anda tidak melihatnya di tabel saya karena hanya ada 3 digit desimal di kolom "Sig",
Anda mungkin ingin membaca lebih lanjut tentang "tipe SS" yang berbeda dalam model ANOVA / linier. Secara konseptual, tipe III atau "regresi" tipe SS adalah fundamental dan primordial. Tipe SS lainnya (I, II, IV, bahkan ada lebih banyak lagi) adalah perangkat khusus untuk memperkirakan efek lebih komprehensif, lebih tidak boros daripada parameter regresi memungkinkan dalam situasi prediktor berkorelasi.
Secara umum, ukuran efek dan nilai-p mereka lebih penting untuk dilaporkan daripada parameter dan nilai-p mereka, kecuali jika tujuan dari penelitian ini adalah untuk membuat model untuk masa depan. Parameter adalah apa yang memungkinkan Anda untuk memprediksi, tetapi "pengaruh" atau "efek" mungkin merupakan konsep yang lebih luas daripada "kekuatan prediksi linier". Untuk melaporkan pengaruh atau pentingnya koefisien lain dimungkinkan selain Eta parsial kuadrat. Satu wujud adalah koefisien cuti-keluar-keluar: pentingnya prediktor adalah jumlah residu kuadrat dengan prediktor dikeluarkan dari model, dinormalisasi sehingga nilai-nilai penting untuk semua prediktor berjumlah 1.
sumber