Dalam bidang psikologi dan bidang lainnya bentuk regresi bertahap sering digunakan yang melibatkan hal-hal berikut:
- Lihatlah prediktor yang tersisa (tidak ada dalam model pada awalnya) dan identifikasi prediktor yang menghasilkan perubahan r-square terbesar;
- Jika nilai p dari perubahan r-square kurang dari alpha (biasanya 0,05), maka sertakan prediktor itu dan kembali ke langkah 1, jika tidak hentikan.
Misalnya, lihat prosedur ini di SPSS .
Prosedur ini secara rutin dikritik karena berbagai alasan (lihat diskusi ini di situs web Stata dengan referensi ).
Secara khusus, situs web Stata merangkum beberapa komentar oleh Frank Harrell. Saya tertarik dengan klaim:
[regresi bertahap] menghasilkan nilai R-kuadrat yang sangat bias menjadi tinggi.
Secara khusus, beberapa penelitian saya saat ini berfokus pada memperkirakan populasi r-square . Dengan populasi r-square, saya merujuk pada persentase varians yang dijelaskan oleh persamaan penghasil data populasi dalam populasi. Banyak literatur yang saya ulas telah menggunakan prosedur regresi bertahap dan saya ingin tahu apakah estimasi yang diberikan bias dan jika demikian seberapa banyak. Secara khusus, sebuah studi khas akan memiliki 30 prediktor, n = 200, alfa masuknya 0,05, dan estimasi r-square sekitar 0,50.
Apa yang saya tahu:
- Secara asimptotik, setiap prediktor dengan koefisien bukan nol akan menjadi prediktor signifikan secara statistik, dan r-square akan sama dengan r-square yang disesuaikan. Dengan demikian, regresi bertahap asimptotik harus memperkirakan persamaan regresi yang benar dan populasi yang benar r-square.
- Dengan ukuran sampel yang lebih kecil, kemungkinan penghilangan beberapa prediktor akan menghasilkan r-square yang lebih kecil daripada semua prediktor yang dimasukkan dalam model. Tetapi juga bias r-square yang biasa untuk sampel data akan meningkatkan r-square. Jadi, pemikiran naif saya adalah bahwa secara potensial, kedua kekuatan yang berlawanan ini dapat dalam kondisi tertentu menghasilkan r-square yang tidak bias. Dan lebih umum, arah bias akan bergantung pada berbagai fitur data dan kriteria inklusi alfa.
- Menetapkan kriteria inklusi alfa yang lebih ketat (mis., 01, .001, dll.) Harus lebih rendah dari perkiraan yang diperkirakan r-kuadrat karena kemungkinan menyertakan prediktor apa pun dalam setiap generasi data akan lebih kecil.
- Secara umum, r-square adalah estimasi bias populasi ke atas r-square dan tingkat bias ini meningkat dengan lebih banyak prediktor dan ukuran sampel yang lebih kecil.
Pertanyaan
Jadi akhirnya, pertanyaan saya:
- Sejauh mana r-square dari hasil regresi bertahap dalam estimasi bias populasi r-square?
- Sejauh mana bias ini terkait dengan ukuran sampel, jumlah prediktor, kriteria inklusi alfa atau sifat data?
- Apakah ada referensi tentang topik ini?
sumber
Jawaban:
Direferensikan dalam buku saya, ada literatur yang menunjukkan bahwa untuk mendapatkan perkiraan hampir objektif tentang ketika melakukan pemilihan variabel, salah satu kebutuhan untuk memasukkan ke dalam rumus untuk disesuaikan R 2 jumlah calon prediktor, bukan jumlah "dipilih" prediktor . Oleh karena itu, bias yang disebabkan oleh pemilihan variabel sangat besar. Mungkin yang lebih penting, pemilihan variabel menghasilkan R 2 nyata lebih buruk dan ketidakmampuan untuk benar-benar menemukan variabel "benar".R2 R2 R2
sumber
Gambaran
Simulasi
Simulasi berikut memiliki empat prediktor tidak berkorelasi di mana populasi r-square adalah 40%. Dua prediktor menjelaskan masing-masing 20%, dan dua prediktor lainnya menjelaskan 0%. Simulasi menghasilkan 1000 dataset dan memperkirakan regresi bertahap r-square sebagai persentase untuk setiap dataset.
Kode berikut mengembalikan r-square dengan alpha untuk entri .01, .001, .0001, dan .00001.
Hasil berikut menunjukkan bias untuk masing-masing dari lima alfa entri. Perhatikan bahwa saya telah mengalikan r-square dengan 100 untuk membuatnya lebih mudah untuk melihat perbedaannya.
Hasil penelitian menunjukkan bahwa alpha dari entri .01 dan .001 menghasilkan bias positif dan alpha dari entri .0001 dan .00001 menghasilkan bias negatif. Jadi mungkin alfa entri di sekitar .0005 akan menghasilkan regresi bertahap yang tidak bias.
Kesimpulan utama yang saya ambil dari ini adalah bahwa regresi bertahap tidak bias inheren dalam arah tertentu. Yang mengatakan, itu akan setidaknya agak bias untuk semua kecuali satu nilai p entri prediktor. Saya mengambil poin @Peter Flom bahwa di dunia nyata kita tidak tahu proses pembuatan data. Namun, saya membayangkan eksplorasi yang lebih rinci tentang bagaimana bias ini bervariasi atas, n, alfa entri, proses menghasilkan data, dan prosedur regresi bertahap (misalnya, termasuk melewati mundur) secara substansial dapat menginformasikan pemahaman tentang bias tersebut.
Referensi
sumber