Saya memiliki beberapa kovariat dalam perhitungan saya untuk sebuah model, dan tidak semuanya signifikan secara statistik. Haruskah saya menghapus yang bukan?
Pertanyaan ini membahas fenomena tersebut, tetapi tidak menjawab pertanyaan saya: Bagaimana menafsirkan efek non-signifikan dari kovariat di ANCOVA?
Tidak ada jawaban untuk pertanyaan itu yang menunjukkan bahwa kovariat yang tidak signifikan dihilangkan, jadi saat ini saya cenderung percaya bahwa mereka harus tetap tinggal. Bahkan sebelum membaca jawaban itu, saya memikirkan hal yang sama sejak kovariat. masih dapat menjelaskan beberapa varians (dan dengan demikian membantu model) tanpa perlu menjelaskan jumlah di luar batas tertentu (ambang batas signifikansi, yang saya lihat tidak berlaku untuk kovariat).
Ada pertanyaan lain di suatu tempat di CV di mana jawabannya tampaknya menyiratkan bahwa kovariat harus dipertahankan terlepas dari signifikansi, tetapi tidak jelas tentang itu. (Saya ingin menautkan ke pertanyaan itu, tetapi saya tidak dapat melacaknya lagi sekarang.)
Jadi ... Haruskah kovariat yang tidak menunjukkan signifikan secara statistik disimpan dalam perhitungan untuk model? (Saya sudah mengedit pertanyaan ini untuk mengklarifikasi bahwa kovariat tidak pernah dalam model keluaran dengan perhitungan.)
Untuk menambah kerumitan, bagaimana jika kovariat signifikan secara statistik untuk beberapa himpunan bagian data (himpunan bagian yang harus diproses secara terpisah). Saya akan default untuk menjaga kovariat seperti itu, jika tidak model yang berbeda harus digunakan atau Anda akan memiliki kovariat yang signifikan secara statistik hilang dalam salah satu kasus. Jika Anda juga memiliki jawaban untuk kasus perpecahan ini, harap sebutkan.
Jawaban:
Anda sudah mendapatkan beberapa jawaban bagus. Ada alasan untuk mempertahankan kovariat dan alasan untuk menjatuhkan kovariat. Signifikansi statistik tidak boleh menjadi faktor kunci, dalam sebagian besar kasus.
Jika Anda berada dalam mode yang sangat eksploratif dan kovariat tidak penting dalam literatur dan ukuran efeknya kecil dan kovariat memiliki sedikit efek pada model Anda dan kovariat tidak ada dalam hipotesis Anda, maka Anda mungkin bisa menghapusnya hanya untuk kesederhanaan .
sumber
sumber
Salah satu wawasan yang bermanfaat adalah bahwa tidak ada yang spesifik tentang kovariat yang berbicara secara statistik, lihat mis. Bantu menulis kovariat ke dalam rumus regresi . Kebetulan, itu mungkin menjelaskan mengapa tidak ada
covariate
tag. Akibatnya, materi di sini dan di tempat lain tentang istilah-istilah non-signifikan dalam model linier relevan, seperti juga kritik terkenal dari regresi bertahap, bahkan jika ANCOVA tidak disebutkan secara eksplisit.Secara umum, itu adalah ide yang buruk untuk memilih prediktor berdasarkan signifikansi saja. Jika karena alasan tertentu Anda tidak dapat menentukan model di muka, Anda harus mempertimbangkan pendekatan lain tetapi jika Anda berencana untuk memasukkannya di tempat pertama, mengumpulkan data yang sesuai dan tidak menghadapi masalah khusus (misalnya collinearity), simpan saja.
Mengenai alasan untuk mempertahankannya, keberatan yang Anda ajukan tampaknya masuk akal bagi saya. Alasan lain adalah bahwa menghapus bias prediksi prediktor tidak signifikan berdasarkan model. Namun cara lain untuk melihat semua ini adalah dengan bertanya apa yang akan diperoleh dengan menghapus kovariat ini setelah fakta.
sumber
Kami benar-benar membutuhkan lebih banyak informasi tentang tujuan Anda untuk menjawab pertanyaan ini. Regresi digunakan untuk dua tujuan utama:
Prediksi adalah ketika tujuan Anda adalah untuk dapat menebak nilai-nilai variabel hasil untuk pengamatan yang tidak ada dalam sampel (meskipun biasanya mereka berada dalam kisaran data sampel-jika tidak, kami terkadang menggunakan kata "peramalan"). Prediksi berguna untuk tujuan periklanan, keuangan, dll. Jika Anda hanya tertarik untuk memprediksi beberapa variabel hasil, saya hanya memiliki sedikit untuk menawarkan kepada Anda.
Inferensi adalah tempat kesenangan (bahkan jika bukan di mana uang itu berada). Inferensi adalah tempat Anda mencoba membuat kesimpulan tentang parameter model spesifik – biasanya untuk menentukan efek kausal dari satu variabel pada variabel lainnya. Meskipun persepsi umum, analisis regresi tidak pernah cukup untuk inferensi kausal. Anda harus selalu tahu lebih banyak tentang proses menghasilkan data untuk mengetahui apakah regresi Anda menangkap efek kausal. Masalah utama untuk inferensi kausal dari regresi adalah apakah rata-rata kondisional dari kesalahan (tergantung pada regresor) adalah nol. Ini tidak dapat diketahui dari nilai-p pada regressor. Dimungkinkan untuk memiliki penduga regresi yang tidak bias atau konsisten, tetapi itu membutuhkan usaha yang jauh lebih dari sekadar melemparkan beberapa kontrol yang jelas ke dalam regresi dan berharap Anda mendapatkan yang penting.Menguasai Metrik: Jalur dari Penyebab ke Efek dan Ekonometrika yang Paling Tidak Berbahaya ). Menguasai Metrik adalah yang lebih mudah dibaca dan cukup murah, tetapi berhati-hatilah karena itu bukan pengobatan tentang bagaimana melakukan regresi tetapi lebih dari apa yang mereka maksud. Untuk liputan yang baik dari contoh desain penelitian observasional yang baik dan buruk, saya merekomendasikan David Freedman (1991) "Model Statistik dan Kulit Sepatu", Metodologi Sosiologis , volume 21 (bacaan pendek dan mudah dengan contoh-contoh menarik).
Selain itu: obsesi dengan teknik statistik atas desain penelitian yang baik di sebagian besar mata kuliah adalah kencing pedagogis saya.
Di samping yang kedua untuk memotivasi pentingnya masalah ini saat ini: perbedaan antara prediksi dan kesimpulan adalah mengapa big data bukan merupakan pengganti ilmu pengetahuan.
sumber