Saya memiliki model linier klasik, dengan 5 kemungkinan regresi. Mereka tidak berkorelasi satu sama lain, dan memiliki korelasi yang cukup rendah dengan respons. Saya telah sampai pada model di mana 3 dari regressor memiliki koefisien signifikan untuk statistik t mereka (p <0,05). Menambahkan salah satu atau kedua dari 2 variabel yang tersisa menghasilkan nilai p> 0,05 untuk statistik t, untuk variabel yang ditambahkan. Ini membuat saya percaya bahwa model 3 variabel adalah "terbaik".
Namun, dengan menggunakan perintah anova (a, b) dalam R di mana a adalah model variabel 3 dan b adalah model penuh, nilai p untuk statistik F adalah <0,05, yang memberitahu saya untuk lebih memilih model penuh daripada 3 variabel model. Bagaimana saya bisa mendamaikan kontradiksi yang tampak ini?
Terima kasih PS Edit: Beberapa latar belakang lebih lanjut. Ini adalah pekerjaan rumah jadi saya tidak akan memposting detail, tetapi kami tidak diberi rincian tentang apa yang diwakili oleh para regressor - mereka hanya diberi nomor 1 hingga 5. Kami diminta untuk "mendapatkan model yang sesuai, memberikan justifikasi".
sumber
Jawaban:
Masalahnya dimulai ketika Anda mencari model yang dikurangi dan menggunakan data alih-alih pengetahuan subjek untuk memilih prediktor. Pemilihan variabel bertahap tanpa pengurangan secara simultan untuk menghukum seleksi variabel, meskipun sering digunakan, merupakan pendekatan yang tidak valid. Banyak yang telah ditulis tentang ini. Tidak ada alasan untuk percaya bahwa model 3-variabel adalah "terbaik" dan tidak ada alasan untuk tidak menggunakan daftar asli dari prediktor yang ditentukan sebelumnya. Nilai-P yang dihitung setelah menggunakan nilai-P untuk memilih variabel tidak valid. Ini telah disebut "pencelupan ganda" dalam literatur pencitraan fungsional.
Berikut ini analoginya. Misalkan seseorang tertarik untuk membandingkan 6 perawatan, tetapi menggunakan uji-t berpasangan untuk memilih perawatan mana yang "berbeda", yang mengakibatkan berkurangnya 4 perawatan. Analis kemudian menguji perbedaan keseluruhan dengan 3 derajat kebebasan. Tes F ini akan memiliki kesalahan tipe I yang meningkat. Uji F asli dengan 5 df cukup valid.
Lihat http://www.stata.com/support/faqs/stat/stepwise.html dan regresi bertahap untuk informasi lebih lanjut.
sumber
Salah satu jawabannya adalah "ini tidak dapat dilakukan tanpa pengetahuan subjek". Sayangnya, itu mungkin akan membuat Anda mendapat nilai F pada tugas Anda. Kecuali saya adalah profesor Anda. Maka akan mendapat nilai A.
Tapi, berikan pernyataan Anda ituR2 adalah 0,03 dan ada korelasi rendah di antara semua variabel, saya bingung bahwa model apa pun signifikan sama sekali. Apa itu N? Saya kira itu sangat besar.
Lalu ada
Nah, jika Anda TAHU ini (yaitu, instruktur Anda memberi tahu Anda) dan jika dengan "independen" maksud Anda "tidak terkait dengan DV" maka Anda tahu bahwa model terbaik adalah yang tanpa prediktor, dan intuisi Anda benar.
sumber
Anda dapat mencoba melakukan validasi silang. Pilih subset sampel Anda, temukan model "terbaik" untuk subset tersebut menggunakan uji F atau t, kemudian terapkan ke set data lengkap (validasi silang penuh bisa menjadi lebih rumit dari ini, tetapi ini akan menjadi awal yang baik). Ini membantu meringankan beberapa masalah pengujian bertahap.
Lihat Catatan tentang Persamaan Regresi Skrining oleh David Freedman untuk simulasi kecil yang lucu dari ide ini.
sumber
Saya sangat suka metode yang digunakan dalam
caret
paket: penghapusan fitur rekursif. Anda dapat membaca lebih lanjut tentang hal itu di sketsa , tetapi inilah proses dasarnya:Ide dasarnya adalah menggunakan kriteria (seperti statistik t) untuk menghilangkan variabel yang tidak penting dan melihat bagaimana hal itu meningkatkan akurasi prediksi model. Anda membungkus semuanya dalam loop resampling, seperti cross-validation. Berikut ini sebuah contoh, menggunakan model linear untuk memberi peringkat variabel dengan cara yang mirip dengan apa yang telah Anda jelaskan:
Dalam contoh ini, algorythm mendeteksi bahwa ada 3 variabel "penting", tetapi hanya mendapat 2 variabel.
sumber