Haruskah kovariat yang tidak signifikan secara statistik 'disimpan' ketika membuat model?

39

Saya memiliki beberapa kovariat dalam perhitungan saya untuk sebuah model, dan tidak semuanya signifikan secara statistik. Haruskah saya menghapus yang bukan?

Pertanyaan ini membahas fenomena tersebut, tetapi tidak menjawab pertanyaan saya: Bagaimana menafsirkan efek non-signifikan dari kovariat di ANCOVA?

Tidak ada jawaban untuk pertanyaan itu yang menunjukkan bahwa kovariat yang tidak signifikan dihilangkan, jadi saat ini saya cenderung percaya bahwa mereka harus tetap tinggal. Bahkan sebelum membaca jawaban itu, saya memikirkan hal yang sama sejak kovariat. masih dapat menjelaskan beberapa varians (dan dengan demikian membantu model) tanpa perlu menjelaskan jumlah di luar batas tertentu (ambang batas signifikansi, yang saya lihat tidak berlaku untuk kovariat).

Ada pertanyaan lain di suatu tempat di CV di mana jawabannya tampaknya menyiratkan bahwa kovariat harus dipertahankan terlepas dari signifikansi, tetapi tidak jelas tentang itu. (Saya ingin menautkan ke pertanyaan itu, tetapi saya tidak dapat melacaknya lagi sekarang.)

Jadi ... Haruskah kovariat yang tidak menunjukkan signifikan secara statistik disimpan dalam perhitungan untuk model? (Saya sudah mengedit pertanyaan ini untuk mengklarifikasi bahwa kovariat tidak pernah dalam model keluaran dengan perhitungan.)

Untuk menambah kerumitan, bagaimana jika kovariat signifikan secara statistik untuk beberapa himpunan bagian data (himpunan bagian yang harus diproses secara terpisah). Saya akan default untuk menjaga kovariat seperti itu, jika tidak model yang berbeda harus digunakan atau Anda akan memiliki kovariat yang signifikan secara statistik hilang dalam salah satu kasus. Jika Anda juga memiliki jawaban untuk kasus perpecahan ini, harap sebutkan.

SAYA
sumber
6
Secara umum, saya akan mengatakan bahwa Anda harus menjaga variabel yang secara teoritis penting atau yang signifikan dalam studi sebelumnya, meskipun data Anda tidak mendukung efeknya. Yang sedang berkata, untuk mendapatkan jawaban yang lebih spesifik, saya pikir Anda harus menambahkan beberapa baris untuk menjelaskan model dan tujuannya (misalnya mengidentifikasi faktor risiko, membuat prediksi, ...).
ocram
Saya akan mengatakan itu tergantung. Tes hanyalah indikator. Jika Anda percaya bahwa harus ada ketergantungan kecil maka pikirkan untuk mempertahankan model. Jika Anda yakin juga bahwa ketergantungan itu seharusnya tidak ada maka tinggalkan saja.
Bene
OK, jadi Anda berdua mengatakan bahwa tidak penting tidak menentukan kovariat dihapus dari pertimbangan, sehingga Anda berdua benar-benar menjawab pertanyaan saya. Saya harus benar-benar mengulangi pertanyaan saya untuk lebih jelas menunjukkan bahwa apa yang saya tanyakan adalah apakah signifikansi stastistik kovariat adalah syarat yang diperlukan untuk menjaganya ("Apakah tidak signifikansi kovariat berarti harus dihapus ..."), dan Saya akan menerima salah satu dari komentar Anda sebagai jawaban.
AM
Sebelum saya melakukannya, saya ingin memastikan saya menggunakan terminologi yang tepat. Awalnya saya menulis "keep in the model", tetapi itu tampaknya tidak benar karena kovariat tidak pernah muncul dalam model. Saya setuju untuk "menyimpan dalam perhitungan untuk model " (dan "dihapus dari pertimbangan "), tetapi apakah ada cara yang lebih baik untuk mengatakan ini? Apa istilah yang tepat untuk menyimpan atau memindahkan kovariat?
AM
3
Anda perlu memvalidasi kinerja yang benar dari prosedur seleksi tersebut. Yang lain gagal.
Frank Harrell

Jawaban:

32

Anda sudah mendapatkan beberapa jawaban bagus. Ada alasan untuk mempertahankan kovariat dan alasan untuk menjatuhkan kovariat. Signifikansi statistik tidak boleh menjadi faktor kunci, dalam sebagian besar kasus.

  1. Kovariat mungkin sangat penting sehingga mereka harus ada di sana.
  2. Ukuran efek kovariat mungkin tinggi, meskipun tidak signifikan.
  3. Kovariat dapat mempengaruhi aspek lain dari model.
  4. Kovariat mungkin menjadi bagian dari bagaimana hipotesis Anda diucapkan.

Jika Anda berada dalam mode yang sangat eksploratif dan kovariat tidak penting dalam literatur dan ukuran efeknya kecil dan kovariat memiliki sedikit efek pada model Anda dan kovariat tidak ada dalam hipotesis Anda, maka Anda mungkin bisa menghapusnya hanya untuk kesederhanaan .

Peter Flom - Pasang kembali Monica
sumber
6
Situasi yang sangat penting tetapi sering diabaikan dibahas oleh # 4 di sini, tetapi saya akan menguraikannya. Seringkali - memang biasanya - Anda harus ingin membandingkan hasil Anda dengan pekerja sebelumnya dengan data serupa. Jika orang lain menemukan nilai kovariat tertentu termasuk dalam model mereka, Anda harus ingin membandingkan hasil Anda dengan hasilnya, terlepas dari apakah kovariat Anda mencapai tingkat signifikansi (konvensional). Perhatikan bahwa kasus di sini dapat bervariasi dari model pelaporan yang Anda putuskan tidak (terutama) baik untuk model pelaporan yang Anda putuskan baik.
Nick Cox
1
Saya benar-benar condong ke arah 'terus' (dan tidak membuat banyak nilai p untuk kovariat), tetapi jawaban Anda membuat daftar periksa yang sangat bagus (yah ... dua) untuk diambil oleh minoritas. Ukuran efek adalah sesuatu yang tidak saya pertimbangkan, dan sementara saya mempertimbangkan hipotesis, saya sangat suka Anda memasukkannya, untuk alasan @NickCox disebutkan dan hanya untuk mencegah penangkapan ikan.
AM
26

P

Frank Harrell
sumber
10
Jawaban panjangnya adalah "ya"! +1 dan LOL.
Peter Flom - Reinstate Monica
Jika bukan nilai-p, apa alasan lain untuk menghapus prediktor? Anda menyebutkan menafsirkan interval kepercayaan, tetapi sepertinya "rentang yang menarik" akan menjadi nol, yang berarti orang akan menginterpretasikan CI seperti nilai-p (dimasukkan atau dikecualikan dari nol).
Mark White
1
Apa alasan untuk menghapus prediktor ketika ini mendistorsi properti statistik? Tidak jelas tentang pertanyaan Anda dan "nol".
Frank Harrell
7

Salah satu wawasan yang bermanfaat adalah bahwa tidak ada yang spesifik tentang kovariat yang berbicara secara statistik, lihat mis. Bantu menulis kovariat ke dalam rumus regresi . Kebetulan, itu mungkin menjelaskan mengapa tidak ada covariatetag. Akibatnya, materi di sini dan di tempat lain tentang istilah-istilah non-signifikan dalam model linier relevan, seperti juga kritik terkenal dari regresi bertahap, bahkan jika ANCOVA tidak disebutkan secara eksplisit.

Secara umum, itu adalah ide yang buruk untuk memilih prediktor berdasarkan signifikansi saja. Jika karena alasan tertentu Anda tidak dapat menentukan model di muka, Anda harus mempertimbangkan pendekatan lain tetapi jika Anda berencana untuk memasukkannya di tempat pertama, mengumpulkan data yang sesuai dan tidak menghadapi masalah khusus (misalnya collinearity), simpan saja.

Mengenai alasan untuk mempertahankannya, keberatan yang Anda ajukan tampaknya masuk akal bagi saya. Alasan lain adalah bahwa menghapus bias prediksi prediktor tidak signifikan berdasarkan model. Namun cara lain untuk melihat semua ini adalah dengan bertanya apa yang akan diperoleh dengan menghapus kovariat ini setelah fakta.

Gala
sumber
4

Kami benar-benar membutuhkan lebih banyak informasi tentang tujuan Anda untuk menjawab pertanyaan ini. Regresi digunakan untuk dua tujuan utama:

  1. Ramalan
  2. Kesimpulan

Prediksi adalah ketika tujuan Anda adalah untuk dapat menebak nilai-nilai variabel hasil untuk pengamatan yang tidak ada dalam sampel (meskipun biasanya mereka berada dalam kisaran data sampel-jika tidak, kami terkadang menggunakan kata "peramalan"). Prediksi berguna untuk tujuan periklanan, keuangan, dll. Jika Anda hanya tertarik untuk memprediksi beberapa variabel hasil, saya hanya memiliki sedikit untuk menawarkan kepada Anda.

Inferensi adalah tempat kesenangan (bahkan jika bukan di mana uang itu berada). Inferensi adalah tempat Anda mencoba membuat kesimpulan tentang parameter model spesifik – biasanya untuk menentukan efek kausal dari satu variabel pada variabel lainnya. Meskipun persepsi umum, analisis regresi tidak pernah cukup untuk inferensi kausal. Anda harus selalu tahu lebih banyak tentang proses menghasilkan data untuk mengetahui apakah regresi Anda menangkap efek kausal. Masalah utama untuk inferensi kausal dari regresi adalah apakah rata-rata kondisional dari kesalahan (tergantung pada regresor) adalah nol. Ini tidak dapat diketahui dari nilai-p pada regressor. Dimungkinkan untuk memiliki penduga regresi yang tidak bias atau konsisten, tetapi itu membutuhkan usaha yang jauh lebih dari sekadar melemparkan beberapa kontrol yang jelas ke dalam regresi dan berharap Anda mendapatkan yang penting.Menguasai Metrik: Jalur dari Penyebab ke Efek dan Ekonometrika yang Paling Tidak Berbahaya ). Menguasai Metrik adalah yang lebih mudah dibaca dan cukup murah, tetapi berhati-hatilah karena itu bukan pengobatan tentang bagaimana melakukan regresi tetapi lebih dari apa yang mereka maksud. Untuk liputan yang baik dari contoh desain penelitian observasional yang baik dan buruk, saya merekomendasikan David Freedman (1991) "Model Statistik dan Kulit Sepatu", Metodologi Sosiologis , volume 21 (bacaan pendek dan mudah dengan contoh-contoh menarik).

Selain itu: obsesi dengan teknik statistik atas desain penelitian yang baik di sebagian besar mata kuliah adalah kencing pedagogis saya.

Di samping yang kedua untuk memotivasi pentingnya masalah ini saat ini: perbedaan antara prediksi dan kesimpulan adalah mengapa big data bukan merupakan pengganti ilmu pengetahuan.

Randy Cragun
sumber