Shrunken

22

Ada beberapa kebingungan di kepala saya tentang dua jenis penduga nilai populasi dari koefisien korelasi Pearson.

A. Fisher (1915) menunjukkan bahwa untuk populasi normal bivariat, empiris r adalah penaksir bias negatif dari ρ , meskipun bias bisa dibilang cukup besar hanya untuk ukuran sampel kecil ( n<30 ). Sampel r meremehkan ρ dalam arti bahwa ia lebih dekat ke 0 daripada ρ . (Kecuali ketika yang terakhir adalah 0 atau ±1 , untuk kemudian r adalah berisi.) Beberapa hampir estimator berisi dari ρ telah diusulkan, yang terbaik mungkin menjadi Olkin dan Pratt (1958) mengoreksi r:

runbiased=r[1+1r22(n3)]

B. Dikatakan bahwa dalam regresi diamati melebih-lebihkan populasi yang sesuai R-square. Atau, dengan regresi sederhana, itu adalah bahwa r 2 overestimates ρ 2 . Berdasarkan fakta itu, saya telah melihat banyak teks yang mengatakan bahwa r adalah bias positif relatif terhadap ρ , yang berarti nilai absolut: r lebih jauh dari 0 daripada ρ (apakah pernyataan itu benar?). Teks mengatakan itu adalah masalah yang sama dengan estimasi berlebihan dari parameter standar deviasi dengan nilai sampelnya. Ada banyak formula untuk "menyesuaikan" mengamati R 2R2r2ρ2rρr0ρR2lebih dekat ke parameter populasinya, adj Wherry (1931) menjadi yang paling terkenal (tapi bukan yang terbaik). Akar tersebut disesuaikan r 2 adj disebut menyusut r :Radj2radj2 r

rshrunk=±1(1r2)n1n2

Hadir adalah dua penduga yang berbeda dari . Sangat berbeda: yang pertama mengembang r , yang kedua mengempiskan r . Bagaimana cara mendamaikan mereka? Di mana menggunakan / melaporkan satu dan di mana - yang lainnya?ρrr

Secara khusus, dapatkah benar bahwa penaksir "menyusut" juga (hampir) tidak bias, seperti yang "tidak bias", tetapi hanya dalam konteks yang berbeda - dalam konteks regresi yang asimetris. Sebab, dalam regresi OLS kami menganggap nilai-nilai satu sisi (prediktor) sebagai tetap, hadir tanpa kesalahan acak dari sampel ke sampel? (Dan untuk menambahkan di sini, regresi tidak perlu normalitas bivariat .)

ttnphns
sumber
Saya bertanya-tanya apakah ini hanya karena sesuatu berdasarkan ketidaksetaraan Jensen. Itu, dan normalitas bivariat mungkin merupakan asumsi yang buruk dalam banyak kasus.
shadowtalker
1
Juga, pemahaman saya tentang masalah dalam B. adalah bahwa regresi adalah perkiraan terlalu tinggi karena kecocokan regresi dapat ditingkatkan secara sewenang-wenang dengan menambahkan prediktor. r2
Bagi
Apakah benar bahwa adalah estimasi bias positif ρ 2 untuk semua nilai ρ ? Untuk distribusi normal bivariat, hal ini tampaknya tidak berlaku untuk ρ yang cukup besar. r2ρ2ρρ
NRH
Bisakah bias bergerak berlawanan arah dengan kuadrat estimator? Misalnya, dengan estimator sederhana, hal itu dapat menunjukkan bahwa untuk beberapa rentang θ ? Saya pikir ini akan sulit dilakukan jika θ = ρ , tetapi mungkin contoh yang lebih sederhana dapat dilakukan. E[θ^θ]<0<E[θ^2θ2]θθ=ρ
Anthony

Jawaban:

1

Mengenai bias dalam korelasi: Ketika ukuran sampel cukup kecil untuk bias memiliki signifikansi praktis (misalnya, n <30 yang Anda sarankan), maka bias cenderung menjadi yang paling sedikit dari kekhawatiran Anda, karena ketidaktepatan mengerikan.

Mengenai bias R 2 dalam regresi berganda, ada banyak penyesuaian berbeda yang berkaitan dengan estimasi populasi yang tidak bias vs estimasi yang tidak bias dalam sampel independen dengan ukuran yang sama. Lihat Yin, P. & Fan, X. (2001). Memperkirakan penyusutan R 2 dalam regresi berganda: Perbandingan metode analitik. Jurnal Pendidikan Eksperimental, 69, 203-224.

Metode regresi modern juga membahas penyusutan koefisien regresi serta R 2 sebagai konsekuensi - misalnya, jaring elastis dengan validasi silang k- lipat, lihat http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .

Fred Oswald
sumber
1
Saya tidak tahu apakah ini benar-benar menjawab pertanyaan
shadowtalker
1

Saya pikir jawabannya adalah dalam konteks regresi sederhana dan regresi berganda. Dalam regresi sederhana dengan satu IV dan satu DV, R sq tidak bias positif, dan pada kenyataannya mungkin bias negatif mengingat r bias negatif. Tetapi dalam regresi berganda dengan beberapa IV yang mungkin berkorelasi sendiri, R sq mungkin bias positif karena setiap "penindasan" yang mungkin terjadi. Jadi, pendapat saya adalah bahwa mengamati R2 melebih-lebihkan populasi yang sesuai R-square, tetapi hanya dalam regresi berganda

Dingus
sumber
1
R sq is not positively biased, and in-fact may be negatively biasedMenarik. Bisakah Anda menunjukkannya atau memberikan referensi? - Dalam populasi normal bivariat, dapatkah sampel statistik Rsq yang diamati menjadi penaksir yang bias negatif?
ttnphns
Saya pikir kamu salah. Bisakah Anda memberikan referensi untuk mendukung klaim Anda?
Richard Hardy
Maaf, tapi ini lebih merupakan latihan pikiran, jadi saya tidak punya referensi.
Dingus
Saya keluar dari Komentar A di atas, di mana Fischer menunjukkan bahwa dalam situasi normal bivariat, r adalah penaksir bias yang negatif terhadap rho. Jika demikian, bukankah R sq juga bias negatif?
Dingus
Mungkin ini akan membantu dalam percakapan digitalcommons.unf.edu/cgi/…
Dingus