Ada beberapa kebingungan di kepala saya tentang dua jenis penduga nilai populasi dari koefisien korelasi Pearson.
A. Fisher (1915) menunjukkan bahwa untuk populasi normal bivariat, empiris adalah penaksir bias negatif dari , meskipun bias bisa dibilang cukup besar hanya untuk ukuran sampel kecil ( ). Sampel meremehkan dalam arti bahwa ia lebih dekat ke daripada . (Kecuali ketika yang terakhir adalah atau , untuk kemudian adalah berisi.) Beberapa hampir estimator berisi dari telah diusulkan, yang terbaik mungkin menjadi Olkin dan Pratt (1958) mengoreksi :
B. Dikatakan bahwa dalam regresi diamati melebih-lebihkan populasi yang sesuai R-square. Atau, dengan regresi sederhana, itu adalah bahwa r 2 overestimates ρ 2 . Berdasarkan fakta itu, saya telah melihat banyak teks yang mengatakan bahwa r adalah bias positif relatif terhadap ρ , yang berarti nilai absolut: r lebih jauh dari 0 daripada ρ (apakah pernyataan itu benar?). Teks mengatakan itu adalah masalah yang sama dengan estimasi berlebihan dari parameter standar deviasi dengan nilai sampelnya. Ada banyak formula untuk "menyesuaikan" mengamati R 2lebih dekat ke parameter populasinya, adj Wherry (1931) menjadi yang paling terkenal (tapi bukan yang terbaik). Akar tersebut disesuaikan r 2 adj disebut menyusut r :
Hadir adalah dua penduga yang berbeda dari . Sangat berbeda: yang pertama mengembang r , yang kedua mengempiskan r . Bagaimana cara mendamaikan mereka? Di mana menggunakan / melaporkan satu dan di mana - yang lainnya?
Secara khusus, dapatkah benar bahwa penaksir "menyusut" juga (hampir) tidak bias, seperti yang "tidak bias", tetapi hanya dalam konteks yang berbeda - dalam konteks regresi yang asimetris. Sebab, dalam regresi OLS kami menganggap nilai-nilai satu sisi (prediktor) sebagai tetap, hadir tanpa kesalahan acak dari sampel ke sampel? (Dan untuk menambahkan di sini, regresi tidak perlu normalitas bivariat .)
Jawaban:
Mengenai bias dalam korelasi: Ketika ukuran sampel cukup kecil untuk bias memiliki signifikansi praktis (misalnya, n <30 yang Anda sarankan), maka bias cenderung menjadi yang paling sedikit dari kekhawatiran Anda, karena ketidaktepatan mengerikan.
Mengenai bias R 2 dalam regresi berganda, ada banyak penyesuaian berbeda yang berkaitan dengan estimasi populasi yang tidak bias vs estimasi yang tidak bias dalam sampel independen dengan ukuran yang sama. Lihat Yin, P. & Fan, X. (2001). Memperkirakan penyusutan R 2 dalam regresi berganda: Perbandingan metode analitik. Jurnal Pendidikan Eksperimental, 69, 203-224.
Metode regresi modern juga membahas penyusutan koefisien regresi serta R 2 sebagai konsekuensi - misalnya, jaring elastis dengan validasi silang k- lipat, lihat http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .
sumber
Saya pikir jawabannya adalah dalam konteks regresi sederhana dan regresi berganda. Dalam regresi sederhana dengan satu IV dan satu DV, R sq tidak bias positif, dan pada kenyataannya mungkin bias negatif mengingat r bias negatif. Tetapi dalam regresi berganda dengan beberapa IV yang mungkin berkorelasi sendiri, R sq mungkin bias positif karena setiap "penindasan" yang mungkin terjadi. Jadi, pendapat saya adalah bahwa mengamati R2 melebih-lebihkan populasi yang sesuai R-square, tetapi hanya dalam regresi berganda
sumber
R sq is not positively biased, and in-fact may be negatively biased
Menarik. Bisakah Anda menunjukkannya atau memberikan referensi? - Dalam populasi normal bivariat, dapatkah sampel statistik Rsq yang diamati menjadi penaksir yang bias negatif?