Saya sering menjalankan regresi dari dataset n-rendah (~ 100 pengamatan). Seringkali hasilnya hanya signifikan dengan dimasukkannya variabel kontrol. Namun, saya sering melihat artikel jurnal di mana orang-orang (selalu dengan sejumlah besar pengamatan) mengklaim telah menjalankan regresi mereka "dengan dan tanpa variabel kontrol".
Mengapa orang sering menjalankan regresi dengan dan tanpa variabel kontrol?
least-squares
ChrisStata
sumber
sumber
Jawaban:
Sedikit persyaratan terlebih dahulu. Menurut definisi, variabel kontrol tetap konstan selama penelitian, sehingga Anda tidak dapat menggunakannya dalam regresi. Anda mungkin berarti variabel yang harus dikontrol secara statistik . Seperti faktor kovariat atau pemblokiran (seperti setelah desain eksperimen blok acak)
Orang-orang menjalankan regresi atau ANOVA dengan variabel-variabel semacam itu tidak hanya untuk menghilangkan efek mereka dari variabel-variabel prediktor tetapi juga untuk memeriksa apakah efek mereka sendiri signifikan. Jika signifikan maka dimasukkannya mereka dalam model sepenuhnya dijamin. Jika tidak, mereka mungkin dikeluarkan dari model.
Ini sebagian besar penting untuk faktor pemblokiran. Jika Anda membiarkannya dalam model meskipun tidak signifikan, Anda berisiko kehilangan pengaruh variabel prediktor karena penurunan dalam jangka waktu Kesalahan df , - faktor pemblokiran mengurangi Kesalahan dan df , dan muncul situasi persaingan. Signifikansi prediktor dapat turun atau naik tergantung pada "apa yang menang" - jatuhnya Jumlah kesalahan kuadrat dari jatuhnya df . Ini mungkin menjadi alasan mengapa orang lebih suka model yang lebih ringkas kadang-kadang.
Alasan lain untuk hal ini adalah bahwa untuk sampel yang sedang hingga 100 inklusi, banyak infus, bahkan jika semuanya tampak penting atau signifikan, menyebabkan overfitting .
sumber
Satu lagi alasan untuk memasukkan kovariat adalah karena mereka penting dalam literatur. Jika Anda dapat menunjukkan bahwa beberapa kovariat yang telah ditemukan memiliki efek besar di masa lalu (baik sendiri atau dengan mempengaruhi parameter lain) TIDAK memiliki efek besar dalam penelitian Anda, maka Anda telah menemukan sesuatu yang menarik.
sumber
Biasanya, ini berarti ada regresi dengan hasil dan variabel pengobatan. Kemudian, ada kontrol lain yang dapat ditambahkan ke model --- kovariat lain yang mungkin penting. Penulis pertama kali menjalankan model sederhana yang hanya mencakup perawatan. Kemudian, mereka memeriksa kekokohan temuan mereka dengan memasukkan variabel lain. Secara khusus, mereka bertanya apakah dimasukkannya kovariat lain mengurangi atau menghilangkan dampak yang diperkirakan dalam model sederhana.
Selain itu, dimasukkannya kovariat lainnya biasanya mengurangi kesalahan standar. Dalam hal ini, penulis dapat menemukan bahwa dampak yang diperkirakan relatif sama antara model sederhana dan yang mencakup kontrol, tetapi hanya dalam yang terakhir adalah estimasi signifikan (biasanya, berbeda dari 0). Para penulis kemudian akan menggunakan model yang terakhir untuk melakukan inferensi (tes hipotesis, interval kepercayaan) karena kesalahan standar yang lebih kecil.
sumber
Selain jawaban di atas, ada beberapa teknik pemilihan kovariat yang melibatkan membandingkan model dengan dan tanpa variabel di tempat. Dan jika seseorang ingin mengilustrasikan efek menambahkan kovariat, model mentah (tidak disesuaikan) diperlukan sebagai referensi di tempat pertama.
sumber