Pentingnya prediktor dalam regresi berganda: Partial vs koefisien standar

21

Saya bertanya-tanya apa hubungan yang tepat antara parsial dan koefisien dalam model linier dan apakah saya harus menggunakan hanya satu atau keduanya untuk menggambarkan pentingnya dan pengaruh faktor.R2

Sejauh yang saya tahu, dengan summarysaya mendapatkan estimasi koefisien, dan dengan anovajumlah kuadrat untuk setiap faktor - proporsi jumlah kuadrat dari satu faktor dibagi dengan jumlah jumlah kuadrat ditambah residu adalah parsial (kode berikut ada di ).R2R

library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
    summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe)

Residuals:
    Min      1Q  Median      3Q     Max 
-60.240 -15.738  -1.156  15.883  51.380 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.868e+02  6.492e+01  -4.418 5.82e-05 ***
income       8.065e-02  9.299e-03   8.674 2.56e-11 ***
young        8.173e-01  1.598e-01   5.115 5.69e-06 ***
urban       -1.058e-01  3.428e-02  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df Sum Sq Mean Sq F value    Pr(>F)    
income     1  48087   48087 67.4869 1.219e-10 ***
young      1  19537   19537 27.4192 3.767e-06 ***
urban      1   6787    6787  9.5255  0.003393 ** 
Residuals 47  33489     713                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Ukuran koefisien untuk 'young' (0,8) dan 'urban' (-0,1, sekitar 1/8 dari yang sebelumnya, mengabaikan '-') tidak cocok dengan varian yang dijelaskan ('young' ~ 19500 dan 'urban' ~ 6790, yaitu sekitar 1/3).

Jadi saya pikir saya perlu skala data saya karena saya berasumsi bahwa jika rentang faktor jauh lebih luas daripada rentang faktor lain koefisien mereka akan sulit untuk dibandingkan:

Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.29675 -0.33879 -0.02489  0.34191  1.10602 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.084e-16  8.046e-02   0.000  1.00000    
income       9.723e-01  1.121e-01   8.674 2.56e-11 ***
young        4.216e-01  8.242e-02   5.115 5.69e-06 ***
urban       -3.447e-01  1.117e-01  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df  Sum Sq Mean Sq F value    Pr(>F)    
income     1 22.2830 22.2830 67.4869 1.219e-10 ***
young      1  9.0533  9.0533 27.4192 3.767e-06 ***
urban      1  3.1451  3.1451  9.5255  0.003393 ** 
Residuals 47 15.5186  0.3302                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1    

Tapi itu tidak benar-benar membuat perbedaan, parsial dan ukuran koefisien (ini sekarang koefisien terstandarisasi ) masih tidak cocok:R2

22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young:  partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban:  partial R2 0.062, Coeff -0.34

Jadi apakah adil untuk mengatakan bahwa 'muda' menjelaskan perbedaan tiga kali lebih banyak daripada 'perkotaan' karena parsial untuk 'muda' adalah tiga kali lipat dari 'perkotaan'? R2Mengapa koefisien 'muda' maka tidak tiga kali lipat dari 'urban' (mengabaikan tanda)?

Saya kira jawaban untuk pertanyaan ini kemudian juga akan memberi saya jawaban untuk pertanyaan awal saya: Haruskah saya menggunakan sebagian atau koefisien untuk menggambarkan kepentingan relatif faktor? (Mengabaikan arah pengaruh - tanda - untuk saat ini.)R2

Edit:

Parsial muncul eta-squared menjadi nama lain untuk apa yang saya disebut parsial . etasq {heplots} adalah fungsi yang berguna yang menghasilkan hasil yang serupa:R2

etasq(mod)
          Partial eta^2
income        0.6154918
young         0.3576083
urban         0.1685162
Residuals            NA
robert
sumber
Apa yang ingin Anda lakukan atau perlihatkan? Pengaruh yang diperkirakan? Signifikansi?
IMA
Ya, saya kenal dengan uji t dan uji F. Saya ingin menunjukkan pengaruh yang diperkirakan, yang afaik t-dan F-tes tidak cocok.
robert
1
Pertanyaan saya adalah: Haruskah saya menggunakan sebagian R² atau koefisien untuk menunjukkan seberapa besar pengaruh masing-masing faktor terhadap hasil? Saya berasumsi keduanya menunjuk ke arah yang sama. Anda mengatakan itu tidak benar karena ada multikolinieritas dalam data. Baiklah, jadi ketika saya ingin membuat pernyataan seperti faktor 'muda' mempengaruhi hasil x kali lebih banyak / x kali lebih penting daripada faktor 'urban', apakah saya melihat sebagian R² atau koefisien?
robert
1
Saya tidak setuju dengan @IMA. Parsial R kuadrat secara langsung terkait dengan korelasi parsial, yang merupakan cara yang bagus untuk mempelajari hubungan yang disesuaikan-confounder antara iv dan dv.
Michael M
1
Saya mengedit pertanyaan Anda untuk membuatnya muncul di halaman depan lagi. Saya akan sangat tertarik dengan jawaban yang bagus; jika tidak ada yang muncul saya bahkan mungkin menawarkan hadiah. Omong-omong, koefisien regresi setelah standarisasi semua prediktor disebut "koefisien standar". Saya memasukkan istilah ini ke pertanyaan Anda, untuk membuatnya lebih jelas.
Amoeba berkata Reinstate Monica

Jawaban:

10

Singkatnya , saya tidak akan menggunakan parsial dan koefisien terstandarisasi dalam analisis yang sama, karena mereka tidak independen. Saya berpendapat bahwa biasanya mungkin lebih intuitif untuk membandingkan hubungan menggunakan koefisien terstandarisasi karena mereka mudah berhubungan dengan definisi model (yaitu ). Parsial , pada dasarnya, pada dasarnya adalah proporsi varians bersama unik antara prediktor dan variabel dependen (dv) (jadi untuk prediktor pertama itu adalah kuadrat dari korelasi parsial ). Selanjutnya, untuk kecocokan dengan kesalahan yang sangat kecil, semua parsial koefisien Y = β X R 2 r x 1 y . x 2 . . . x n R 2R2Y=βXR2rx1y.x2...xnR2 cenderung ke 1, sehingga mereka tidak berguna dalam mengidentifikasi kepentingan relatif dari para prediktor.


Definisi ukuran efek

  • koefisien terstandarisasi, - koefisien diperoleh dari mengestimasi model pada variabel terstandarisasi (rata-rata = 0, standar deviasi = 1). ββstdβ
  • partial - Proporsi variasi residu dijelaskan dengan menambahkan prediktor ke model terbatas (model penuh tanpa prediktor). Sama dengan:R2

    • kuadrat korelasi parsial antara prediktor dan variabel dependen, mengendalikan semua prediktor lain dalam model. .Rpartial2=rxiy.Xxi2
    • partial - proporsi kuadrat tipe III dari prediktor ke jumlah kuadrat yang dikaitkan dengan prediktor dan kesalahan SS efek / ( SS efek + SS error )η2SSeffect/(SSeffect+SSerror)
  • R 2ΔR2 - Perbedaan antara model terbatas dan penuh. Sama dengan:R2

    • korelasi semipartial kuadrat r_rxsaya(y.Xxsaya)2
    • SS efek / SS Total R 2η2 untuk jumlah kuadrat tipe III - apa yang Anda hitung sebagai parsial dalam pertanyaan.SSefek/SStotalR2

Semua ini terkait erat, tetapi mereka berbeda mengenai bagaimana mereka menangani struktur korelasi antara variabel. Untuk memahami perbedaan ini sedikit lebih baik, mari kita asumsikan kita memiliki 3 variabel standar (rata-rata = 0, sd = 1) yang korelasinya adalah . Kami akan mengambil sebagai variabel dependen dan dan sebagai prediktor. Kami akan mengungkapkan semua koefisien ukuran efek dalam hal korelasi sehingga kami dapat secara eksplisit melihat bagaimana struktur korelasi ditangani oleh masing-masing. Pertama kita akan membuat daftar koefisien dalam model regresi diperkirakan menggunakan OLS. Rumus untuk koefisien: r x y , r x z , r y z x y z x = β y Y + β z Z β y = r x y - r y z r z xx,y,zrxy,rxz,ryzxyzx=βyY+βzZR2parsial

βy=rxy-ryzrzx1-ryz2βz=rxz-ryzryx1-ryz2,
Root kuadrat dari untuk prediktor akan sama dengan:Rsebagian2

Rxy.z2=rxy-ryzrzx(1-rxz2)(1-ryz2)Rxz.y2=rxz-ryzryx(1-rxy2)(1-ryz2)

yang diberikan oleh:ΔR2

Rxyz2-Rxz2=ry(x.z)=rxy-ryzrzx(1-ryz2)Rxzy2-Rxy2=rz(x.y)=rxz-ryzryx(1-ryz2)

Perbedaan antara ini adalah penyebutnya, yang untuk dan hanya berisi korelasi antara prediktor. Harap perhatikan bahwa dalam sebagian besar konteks (untuk prediktor yang berkorelasi lemah) ukuran keduanya akan sangat mirip, sehingga keputusan tersebut tidak akan terlalu mempengaruhi penafsiran Anda. Juga, jika prediktor yang memiliki kekuatan korelasi yang sama dengan variabel dependen dan tidak terlalu berkorelasi kuat rasio akan mirip dengan rasio .βΔR2 βstdRsebagian2βstd

Kembali ke kode Anda. The anovafungsi dalam penggunaan R ketik saya jumlah kuadrat secara default, sedangkan parsial seperti yang dijelaskan di atas harus dihitung berdasarkan jumlah tipe III dari kotak (yang saya percaya adalah setara dengan jumlah tipe II dari kotak jika tidak ada interaksi hadir dalam model Anda). Perbedaannya adalah bagaimana SS yang dijelaskan dipartisi di antara para prediktor. Dalam tipe I SS, prediktor pertama diberikan semua SS yang dijelaskan, yang kedua hanya "SS yang tersisa" dan yang ketiga hanya SS yang tersisa dari situ, oleh karena itu urutan Anda memasukkan variabel dalam panggilan Anda akan mengubah SS masing-masing. . Ini kemungkinan besar bukan yang Anda inginkan ketika menafsirkan koefisien model.R2lm

Jika Anda menggunakan jumlah kuadrat tipe II dalam Anovapanggilan Anda dari carpaket dalam R, maka nilai untuk anova Anda akan sama dengan nilai kuadrat untuk koefisien Anda (karena ). Ini menunjukkan bahwa memang jumlah ini terkait erat, dan tidak boleh dinilai secara independen. Untuk memanggil jumlah kuadrat tipe II dalam contoh Anda ganti dengan . Jika Anda memasukkan istilah interaksi, Anda harus menggantinya dengan jumlah kuadrat tipe III agar koefisien dan uji R parsial sama (ingat untuk mengubah kontras ke jumlah yang digunakan sebelum memanggil ). ParsialFtF(1,n)=t2(n)anova(mod)Anova(mod, type = 2)options(contrasts = c("contr.sum","contr.poly"))Anova(mod,type=3)R2adalah variabel SS dibagi dengan variabel SS ditambah SS residual. Ini akan menghasilkan nilai yang sama seperti yang Anda daftarkan dari etasq()output. Sekarang tes dan nilai untuk hasil anova Anda (parsial ) dan koefisien regresi Anda adalah sama.halR2


Kredit

Chris Novak
sumber
Apa yang Anda maksud dengan "beta dihitung berdasarkan jumlah kuadrat tipe III"? Saya berpikir bahwa koefisien regresi ditentukan dengan cara yang tidak ada hubungannya dengan pilihan tipe SS; selalu , bukan? β=(XX)Xy
Amoeba berkata Reinstate Monica
1
Anda benar, yang saya maksudkan adalah tes tipe III SS dan t untuk koefisien pada dasarnya memberikan uji F dan nilai p yang sama.
Chris Novak
2
@amoeba setelah melakukan beberapa perhitungan saya mengedit jawaban saya untuk memasukkan saran Anda, mengklarifikasi perbedaan antara dua ukuran efek sedikit dan lebih baik menjawab jawaban OP.
Chris Novak
1
@amoeba Saya telah memperbarui jawaban saya seperti yang disarankan. Sekarang saya berpikir tentang hal itu lebih masuk akal untuk membandingkan koefisien standar atau daripada parsial . Tidak masuk akal untuk membandingkan parsial misalnya menambahkan prediktor, yang tidak berkorelasi dengan prediktor lain, mengubah rasio (kepentingan relatif) parsial antara mereka. R 2 R 2 R 2ΔR2R2R2R2
Chris Novak
1
Terima kasih, @ Chris, jawaban Anda meningkat banyak dan sekarang cukup bagus (jika saya OP, saya akan menerimanya). Saya tidak yakin saya memahami argumen Anda yang mendukung daripada . Menambahkan prediktor yang tidak berkorelasi dengan semua prediktor lain, seharusnya tidak mengubah SSeffect untuk semua yang lain (?) Tetapi akan mengurangi SSerror. Jadi semua akan tetap sama, tetapi semua akan meningkat dan rasio mereka mungkin berubah; Apakah itu yang kamu maksud? Inilah argumen lain: jika modelnya sempurna dan SSerror nol, maka parsial akan sama dengan untuk semua prediktor! Tidak terlalu informatif :)R 2 p Δ R 2 R 2 p R 2 1ΔR2Rhal2ΔR2Rhal2R21
amoeba mengatakan Reinstate Monica
8

Seperti yang sudah dijelaskan dalam beberapa jawaban lain dan dalam komentar, pertanyaan ini didasarkan pada setidaknya tiga kebingungan:

  1. Fungsi anova()menggunakan dekomposisi jumlah kuadrat (SS) berurutan (juga disebut tipe I) yang tergantung pada urutan prediktor. Dekomposisi yang berkaitan dengan koefisien regresi dan uji untuk signifikansinya, adalah tipe III SS, yang dapat Anda peroleh dengan fungsi dari paket.tAnova()car

  2. R2βstd

  3. R2SSefek/(SSefek+SSkesalahan)SSefek/SStotalR2SSefek

Setelah kebingungan ini diklarifikasi, pertanyaannya tetap seperti apa ukuran ukuran efek prediktor yang paling tepat, atau penting.


Dalam R, ada paket relaimpoyang menyediakan beberapa ukuran yang relatif penting.

library(car)
library(relaimpo)
mod <- lm(education~income+young+urban, data=Anscombe)
metrics <- calc.relimp(mod, type = c("lmg", "first", "last", "betasq", "pratt", "genizi", "car"))

Menggunakan Anscombedataset yang sama seperti dalam pertanyaan Anda, ini menghasilkan metrik berikut:

Relative importance metrics: 

              lmg      last      first    betasq       pratt     genizi        car
income 0.47702843 0.4968187 0.44565951 0.9453764  0.64908857 0.47690056 0.55375085
young  0.14069003 0.1727782 0.09702319 0.1777135  0.13131006 0.13751552 0.13572338
urban  0.07191039 0.0629027 0.06933945 0.1188235 -0.09076978 0.07521276 0.00015460

Beberapa metrik ini telah dibahas:

  • betasqadalah kuadrat koefisien standar, nilai yang sama seperti yang Anda peroleh lm().
  • firstSSefek/SStotalSSefekanova()
  • lastR2SSefek/SStotalSSefekR2anova()

R2

Ada empat metrik lebih lanjut di relaimpo- dan satu lagi (kelima) tersedia jika paket relaimpodiinstal secara manual: Versi CRAN mengecualikan metrik ini karena potensi konflik dengan penulisnya yang, gila kedengarannya, memiliki hak paten AS pada metodenya. . Saya menjalankan R online dan tidak memiliki akses ke sana, jadi jika ada yang bisa menginstal secara manual relaimpo, tambahkan metrik tambahan ini ke output saya di atas untuk kelengkapan.

Dua metrik prattitu bisa negatif (buruk) dan geniziitu cukup kabur.

Dua pendekatan menarik adalah lmgdan car.

SSefek/SStotalSSefek

Yang kedua diperkenalkan pada (Zuber & Strimmer, 2011) dan memiliki banyak sifat teoritis yang menarik; itu kuadrat koefisien standar setelah prediktor pertama kali standar dan kemudian diputihkan dengan transformasi ZCA / Mahalanobis (yaitu memutihkan sambil meminimalkan kesalahan rekonstruksi).

2:1lmg878:1car

Bibliografi:

  1. Referensi pada kepentingan relatif di Ulrike Grömping situs 's - dia adalah penulis relaimpo.

  2. Grömping, U. (2006). Pentingnya Relatif untuk Regresi Linier di R: Paket relaimpo . Jurnal Perangkat Lunak Statistik 17, Edisi 1.

  3. Grömping, U. (2007). Estimator Pentingnya Relatif dalam Regresi Linier Berdasarkan Dekomposisi Varians . The American Statistician 61, 139-147.

  4. Zuber, V. dan Strimmer, K. (2010). Regresi dimensi tinggi dan pemilihan variabel menggunakan skor CAR . Aplikasi Statistik dalam Genetika dan Biologi Molekuler 10.1 (2011): 1-27.

  5. Grömping, U. (2015). Variabel kepentingan dalam model regresi . Wiley Interdisciplinary Reviews: Computational Statistics, 7 (2), 137-152. (di balik dinding bayar)

amuba kata Reinstate Monica
sumber
Ringkasan yang sangat bagus dengan info nilai tambah tambahan tentang berbagai koefisien penting. BTW, apakah Anda menggunakan mesin pbil.univ-lyon1.fr/Rweb online ini atau yang lain?
ttnphns
1
Saya menggunakan r-fiddle.org , tetapi saya tidak pernah mencoba yang lain dan tidak tahu bagaimana membandingkannya. Ini terlihat sangat ramping.
Amuba kata Reinstate Monica
Ringkasan yang sangat jelas dan info tambahan tentang ukuran efek (+1)
Chris Novak
4

Kau menulis:

Pertanyaan saya adalah: Haruskah saya menggunakan sebagian R² atau koefisien untuk menunjukkan seberapa besar pengaruh masing-masing faktor terhadap hasil?

Penting untuk tidak membingungkan dua hal di sini. Pertama, ada pertanyaan tentang spesifikasi model. Algoritma lm mengasumsikan bahwa asumsi OLS terpenuhi. Di antara hal-hal lain ini berarti bahwa untuk estimasi yang tidak bias, variabel NO yang signifikan dapat hilang dari model (kecuali bila tidak berkorelasi dengan semua regresi lainnya, jarang).
Jadi dalam menemukan model, pengaruh tambahan pada R² atau R² yang disesuaikan tentu saja menarik. Orang mungkin berpikir bahwa adalah tepat untuk menambahkan regressor sampai R² yang disesuaikan berhenti membaik, misalnya. Ada masalah menarik dengan prosedur regresi bertahap seperti ini, tetapi ini bukan topiknya. Bagaimanapun saya berasumsi ada alasan Anda memilih model Anda.

NAMUN: pengaruh tambahan ini pada R² tidak identik dengan pengaruh nyata atau total dari regressor pada variabel independen, justru karena multikolineritas: Jika Anda mengambil regressor, sebagian dari pengaruhnya sekarang akan dikaitkan dengan regressor lain yang berkorelasi dengan itu. Jadi sekarang pengaruh sebenarnya tidak ditampilkan dengan benar.

Dan ada masalah lain: Perkiraan hanya valid untuk model lengkap dengan semua regresi lainnya hadir. Entah model ini belum benar dan oleh karena itu diskusi tentang pengaruh tidak ada artinya - atau itu benar dan kemudian Anda tidak dapat menghilangkan regresi dan masih menggunakan metode OLS dengan sukses.

Jadi: apakah model Anda dan penggunaan OLS sesuai? Jika ya, maka estimasi menjawab pertanyaan Anda - itu adalah tebakan terbaik Anda secara literal dari pengaruh variabel terhadap variabel regresi dan variabel dependen.
Jika tidak, maka pekerjaan pertama Anda adalah menemukan model yang benar. Untuk ini, penggunaan sebagian R² mungkin merupakan cara. Pencarian spesifikasi model atau regresi bertahap akan menghasilkan banyak pendekatan menarik di forum ini. Apa yang berhasil akan tergantung pada data Anda.

IMA
sumber
1
Terima kasih atas jawaban Anda! Saya tidak yakin pernyataan Anda bahwa "pengaruh tambahan ini pada R² tidak identik dengan pengaruh nyata atau total dari regresi pada variabel independen" tidak kontroversial. Paket relaimpo cran.r-project.org/web/packages/relaimpo/relaimpo.pdf misalnya menggunakan sebagian R² "untuk menilai kepentingan relatif dalam model linier".
robert
1
Apakah Anda pikir Anda bisa memberikan referensi untuk pandangan Anda bahwa R² hanya boleh digunakan untuk pemilihan model?
robert
1
@robert: The raison d'etre of relaimpoadalah untuk memberikan alternatif untuk parsial R ^ 2, untuk alasan yang diberikan IMA!
Scortchi
1
@ Scortchi: Wow, setelah melihat manual relaimpopaket saya menyadari bahwa ada seluruh dunia pendekatan yang berbeda untuk mengukur kepentingan relatif dari prediktor dalam regresi linier. Saya saat ini sedang melihat-lihat beberapa makalah yang terhubung di sana ( pracetak 2010 ini terlihat cukup bagus sejauh ini), dan ini berantakan! Saya tidak menyadari bahwa masalah ini sangat rumit, ketika saya menawarkan hadiah saya. Sepertinya tidak dibahas dengan baik di CV. Apakah ini topik yang tidak jelas? Jika demikian, mengapa?
Amuba kata Reinstate Monica
2
@amoeba: Jawaban tidak langsung adalah bahwa "kepentingan relatif dari para prediktor" tidak terlalu penting untuk sebagian besar tujuan. Jika Anda memiliki model yang Anda sukai maka Anda dapat menggunakannya untuk mengatakan hal-hal seperti merokok satu batang sehari adalah sama dengan makan lima hamburger dalam hal risiko terkena serangan jantung - pentingnya berasal dari interpretasi substantif tentang apa Anda menjadi model; jika Anda membandingkan model yang Anda bandingkan keseluruhan model - katakanlah yang dengan & tanpa sepasang alat prediksi yang mahal - & tidak perlu khawatir tentang bagaimana daya prediksi mungkin dibagikan secara adil.
Scortchi
3

Mengenai perbedaan antara koefisien regresi linier dan korelasi parsial Anda dapat membaca ini , misalnya.

Namun, kebingungan yang diungkapkan dalam pertanyaan itu tampaknya bersifat lain. Tampaknya tentang jenis standar jumlah kotak yang digunakan oleh paket statistik ini atau itu (topik, berulang kali dibahas di situs kami). Regresi linier menggunakan apa yang disebut dalam perhitungan ANOVA Tipe III SS. Dalam banyak program ANOVA itu adalah opsi default juga. Secara Rfungsi anova, menurut saya (saya bukan pengguna R, jadi saya kira saja) perhitungan standarnya adalah Tipe I SS ("sekuensial SS" yang tergantung pada urutan prediktor yang ditentukan dalam model). Jadi, perbedaan yang Anda amati dan yang tidak hilang ketika Anda menstandarkan ("diskalakan") variabel Anda adalah karena Anda menentukan ANOVA dengan opsi Tipe I default.

Di bawah ini adalah hasil yang diperoleh di SPSS dengan data Anda:

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Anda dapat memilih dalam cetakan ini bahwa parameter (koefisien penyesalan) adalah sama terlepas dari jenis perhitungan SS. Anda mungkin memperhatikan juga bahwa parsial Eta kuadrat [yang SSeffect / (SSeffect + SSerror) dan = parsial R-kuadrat dalam kasus kami karena prediktor adalah kovariat numerik] sepenuhnya sama dalam tabel efek dan koefisien hanya ketika mengetik SS adalah III. Ketika tipe SS adalah I, hanya yang terakhir dari 3 prediktor, "urban", yang mempertahankan nilai yang sama (.169); ini karena dalam urutan input dari prediktor, ini adalah yang terakhir. Dalam kasus SS tipe III urutan input tidak menjadi masalah, seperti dalam regresi. Ngomong-ngomong, ketidaksesuaian itu juga diamati dalam nilai-p. Meskipun Anda tidak melihatnya di tabel saya karena hanya ada 3 digit desimal di kolom "Sig",

Anda mungkin ingin membaca lebih lanjut tentang "tipe SS" yang berbeda dalam model ANOVA / linier. Secara konseptual, tipe III atau "regresi" tipe SS adalah fundamental dan primordial. Tipe SS lainnya (I, II, IV, bahkan ada lebih banyak lagi) adalah perangkat khusus untuk memperkirakan efek lebih komprehensif, lebih tidak boros daripada parameter regresi memungkinkan dalam situasi prediktor berkorelasi.

Secara umum, ukuran efek dan nilai-p mereka lebih penting untuk dilaporkan daripada parameter dan nilai-p mereka, kecuali jika tujuan dari penelitian ini adalah untuk membuat model untuk masa depan. Parameter adalah apa yang memungkinkan Anda untuk memprediksi, tetapi "pengaruh" atau "efek" mungkin merupakan konsep yang lebih luas daripada "kekuatan prediksi linier". Untuk melaporkan pengaruh atau pentingnya koefisien lain dimungkinkan selain Eta parsial kuadrat. Satu wujud adalah koefisien cuti-keluar-keluar: pentingnya prediktor adalah jumlah residu kuadrat dengan prediktor dikeluarkan dari model, dinormalisasi sehingga nilai-nilai penting untuk semua prediktor berjumlah 1.

ttnphns
sumber
+1, terima kasih telah bergabung dalam diskusi. Saya punya pertanyaan terminologis. "Partial R squared" didefinisikan sebagai SSeffect / (SSeffect + SSerror). Apa nama untuk SSeffect / SStotal? Sejauh yang saya mengerti (koreksi saya jika saya salah), jika kita menggunakan dekomposisi SS tipe III, maka SSeffect / SStotal ini akan sama dengan korelasi parsial kuadrat antara respons dan prediktor ini (mengendalikan semua prediktor lain). Apakah jumlah ini memiliki nama? R2 parsial analog dengan eta parsial kuadrat, tetapi mengapa tidak ada nama untuk analog eta kuadrat itu sendiri? Saya bingung dengan ini.
Amuba kata Reinstate Monica
Ups, saya pikir saya menulis beberapa omong kosong di atas: korelasi parsial kuadrat adalah SSeffect / (SSeffect + SSerror), yaitu persis parsial R2, benar? Namun, pertanyaan tentang bagaimana memanggil SSeffect / SStotal (yang merupakan apa yang OP coba hitung dalam pertanyaan aslinya!) Tetap ada. Haruskah kita menyebutnya eta kuadrat? Atau "dipartisi R2" (memahami tentu saja bahwa untuk tipe III SS, "partisi" ini tidak akan menjumlahkan total R2)?
Amuba kata Reinstate Monica
1
Ya, SSeffect / SStotal hanya eta kuadrat. Ini adalah eta kuadrat dari prediktor dalam model spesifik (tidak bingung dengan eta kuadrat marjinal = eta kuadrat ketika prediktor hanya satu dalam model = nol-order Pearson r ^ 2, dalam kasus kami prediktor berkelanjutan).
ttnphns
1
Tepat sekali. Korelasi bagian adalah (contoh spesifik dari) eta. Saya berpikir bahwa itu adalah karena itu tepat untuk menyebut bahwa eta dalam model bagian eta. Saya hanya tidak ingat teks mana pun saya menemukan istilah "bagian" atau "semipartial" eta. Jika Anda mengetahuinya, beri tahu saya.
ttnphns
1
Iya nih; mengapa, saya berpikir dengan cara yang sama. Tetapi r, parsial r, semipartial r adalah kasus khusus dari eta yang sesuai. Namun, perbedaan terminologis yang penting antara keduanya, muncul dalam konteks ketika, di samping itu, keseluruhan efek kategori (dummy) "nonlinier" kita tambahkan efek linier (atau polinomial) dari prediktor seolah-olah kode numerik. Di sini kita menampilkan 3 efek: Gabungan Etasq = Linear Rsq + Deviasi-dari-linearitas.
ttnphns