Bagaimana cara memilih antara berbagai formula Adjusted

Saya telah memikirkan formula R-squared yang disesuaikan yang diusulkan oleh:

Yehezkiel (1930), yang saya percaya adalah yang saat ini digunakan dalam SPSS.

$R_{a d j u s t e d}^{2} = 1 - \frac{(N - 1)}{(N - p - 1)} (1 - R^{2})$ $R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2)$
Olkin dan Pratt (1958)

$R_{u n b i a s e d}^{2} = 1 - \frac{(N - 3) (1 - R^{2})}{(N - p - 1)} - \frac{2 (N - 3) (1 - R^{2})^{2}}{(N - p - 1) (N - p + 1)}$ $R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)}$

Dalam keadaan apa (jika ada) saya lebih suka 'disesuaikan' ke 'tidak bias' ? $R^2$

Referensi

Yehezkiel, M. (1930). Metode analisis korelasi . John Wiley and Sons, New York.
Olkin I., Pratt JW (1958). Estimasi Tidak Koefisien Koefisien Korelasi Tertentu. Sejarah Statistik Matematika , 29 (1), 201-211.

regression r-squared user1205901 - Pasang kembali Monica
sumber

Jawaban:

Tanpa ingin mengambil kredit untuk jawaban @ttnphns, saya ingin memindahkan jawaban dari komentar (terutama mengingat bahwa tautan ke artikel telah mati). Jawaban Matt Krause memberikan diskusi yang bermanfaat tentang perbedaan antara dan tetapi tidak membahas keputusan yang menggunakan rumus dalam kasus apa pun. $R^2$ $R^2_{adj}$ $R^2_{adj}$

Seperti yang saya bahas dalam jawaban ini , Yin dan Fan (2001) memberikan ikhtisar yang baik tentang berbagai formula untuk memperkirakan varians populasi yang dijelaskan , yang semuanya dapat berpotensi diberi label tipe disesuaikan . $\rho^2$ $R^2$

Mereka melakukan simulasi untuk menilai mana dari berbagai disesuaikan formula r-square memberikan yang terbaik estimasi berisi untuk ukuran sampel yang berbeda, , dan interkorelasi prediktor. Mereka menyarankan agar formula Pratt $\rho^2$ mungkin merupakan pilihan yang baik, tetapi saya tidak berpikir penelitian ini definitif mengenai masalah ini.

Update: Raju et al (1997) catatan yang disesuaikan formula berbeda berdasarkan apakah mereka dirancang untuk memperkirakan disesuaikan dengan asumsi tetap x atau acak-x predcitors. Secara khusus, rumus Yehezkiel dirancang untuk memperkirakan dalam konteks tetap-x, dan rumus Olkin-Pratt dan Pratt dirancang untuk memperkirakan dalam konteks acak-x. Tidak ada banyak perbedaan antara rumus Olkin-Pratt dan Pratt. Asumsi tetap-x sejajar dengan eksperimen yang direncanakan, asumsi acak-x sejajar dengan ketika Anda berasumsi bahwa nilai-nilai variabel prediktor adalah sampel dari nilai yang mungkin seperti yang biasanya terjadi dalam studi observasional. Lihat $R^2$ $R^2$ $\rho^2$ $\rho^2$ jawaban ini untuk diskusi lebih lanjut . Ada juga tidak banyak perbedaan antara kedua jenis formula karena ukuran sampel menjadi cukup besar (lihat di sini untuk diskusi tentang ukuran perbedaan ).

Ringkasan Aturan Jempol

Jika Anda mengasumsikan bahwa pengamatan Anda untuk variabel prediktor adalah sampel acak dari suatu populasi, dan Anda ingin memperkirakan untuk populasi penuh dari kedua prediktor dan kriteria (yaitu asumsi acak-x) maka gunakan rumus Olkin-Pratt (atau rumus Pratt). $\rho^2$
Jika Anda menganggap bahwa pengamatan Anda sudah pasti atau Anda tidak ingin menggeneralisasi di luar tingkat prediksi Anda yang diamati, maka perkirakan dengan rumus Yehezkiel. $\rho^2$
Jika Anda ingin tahu tentang prediksi sampel menggunakan persamaan regresi sampel, maka Anda ingin melihat beberapa bentuk prosedur validasi silang.

Referensi

Raju, NS, Bilgic, R., Edwards, JE, & Fleer, PF (1997). Tinjauan metodologi: Estimasi validitas populasi dan validitas silang, dan penggunaan bobot yang sama dalam prediksi. Pengukuran Psikologis Terapan, 21 (4), 291-305.
Yin, P., & Fan, X. (2001). Memperkirakan penyusutan dalam regresi berganda: Perbandingan metode analitik yang berbeda. Jurnal Pendidikan Eksperimental, 69 (2), 203-224. PDF $R^2$

Jeromy Anglim
sumber

$R^2$ $R^2$ $R^2$ $R^2$ is an attempt to solve this problem by adjusting the $R^2$ value according to the number of parameters in the model.

They therefore have slightly different purposes. $R^2$ describes how well different data sets fit a model. You might write something like "The model described above accurately predicts the performance of Part A ( $r^2$ =0.9), but not Widget B ( $r^2$ =0.05) under standard test conditions." Adjusted $R^2$ describes how well different models fit the same data (or similar data). For example, "Results from the short and long-form questionnaire predicted customer's annual spending equally well (Adjusted $R^2$ = 0.8 for both)."

Matt Krause
sumber

Thanks, I found that to be a very clear explanation of the difference between R-squared and adjusted R-squared. In your view how does unbiased R-squared fit into this picture?

user1205901 - Reinstate Monica

There are indeed various formulas to estimate the population R^2. See for example studyforquals.pbworks.com/f/yin.pdf. Fisher's (= Wherry's) "Adjusted R^2" is said to be slightly negatively biased (it is still dependent on sample size while not dependent on number of predictors), so Olkin-Pratt version is probably somewhat better.

ttnphns

@ttnphns, maybe that should be an answer instead of a comment. To me, it seems to address the original question more than this answer.

gung - Reinstate Monica

The

R^{2}

$R^2$ value computed from a sample will be slightly smaller than the "true" population value. The plot on page 6/138 of uv.es/psicologica/articulos1.03/9.ZUMBO.pdf showing how the bias varies with sample size and

R^{2}

$R^2$ value. The Olkin-Pratt formula corrects for this sample size bias. There seem to be two versions of the Olkin-Pratt formula floating around, one of which also corrects for the number of parameters (see ttnphns link). In fact, that paper contains several tables which will help you choose a correction method for your specific application, so it's worth a look.

Matt Krause

@ttnphns, I agree with Gung! You should write up an answer and take some credit. Also, can you confirm what I wrote? JStor is acting strange today and won't let me read the original Olkin and Pratt paper.

Matt Krause