Setelah mencari klarifikasi tentang koefisien model linier di sini saya punya pertanyaan lanjutan tentang non-signfikan (nilai p tinggi) untuk koefisien tingkat faktor.
Contoh: Jika model linier saya menyertakan faktor dengan 10 level, dan hanya 3 level tersebut yang memiliki nilai p signifikan yang terkait dengannya, ketika menggunakan model untuk memprediksi Y, saya dapat memilih untuk tidak menyertakan istilah koefisien jika subjeknya termasuk dalam salah satu tingkat yang tidak signifikan?
Lebih drastis, akankah salah jika menggabungkan 7 level yang tidak signifikan menjadi satu level dan menganalisis kembali?
statistical-significance
linear-model
model-selection
regression-coefficients
regression-strategies
Trees4theForest
sumber
sumber
Jawaban:
Jika Anda memasukkan variabel prediktor dengan beberapa level, Anda memasukkan variabel atau tidak, Anda tidak dapat memilih dan memilih level. Anda mungkin ingin menyusun kembali level variabel prediktor Anda untuk mengurangi jumlah level (jika itu masuk akal dalam konteks analisis Anda.) Namun, saya tidak yakin apakah ini akan menyebabkan beberapa jenis pembatalan statistik jika Anda tingkat runtuh karena Anda melihat mereka tidak signifikan.
Juga, hanya sebuah catatan, Anda mengatakan nilai- kecil tidak signifikan. Saya berasumsi bahwa yang Anda maksud p -value kecil adalah signifikan, yaitu: p -value .0001 adalah signifikan dan karena itu Anda menolak nol (dengan asumsi tingkat α > .0001 ?).p p p α >.0001
sumber
@ Tanggapan Ellie bagus.
Jika Anda memasukkan variabel dengan sejumlah level, Anda perlu mempertahankan semua level tersebut dalam analisis Anda. Memilih dan memilih berdasarkan tingkat signifikansi akan membiasakan hasil Anda dan melakukan hal-hal yang sangat aneh pada kesimpulan Anda, bahkan jika oleh beberapa keajaiban perkiraan Anda berhasil tetap sama, karena Anda akan memiliki lubang menganga dalam perkiraan efek Anda pada tingkat yang berbeda dari variabel.
Saya akan mempertimbangkan untuk melihat perkiraan Anda untuk setiap tingkat prediktor secara grafis. Apakah Anda melihat tren ketika Anda naik level, atau itu tidak menentu?
Secara umum, saya juga menentang pengodean ulang variabel berdasarkan tes statistik - atau murni berdasarkan momen statistik. Pembagian dalam variabel Anda harus didasarkan pada sesuatu yang lebih tegas - titik potong yang bermakna secara logis, minat bidang pada titik transisi tertentu, dll.
sumber
Memperluas dua jawaban bagus yang sudah Anda dapatkan, mari kita lihat ini secara substantif. Misalkan variabel dependen Anda adalah (katakanlah) pendapatan dan variabel independen Anda adalah (katakanlah) etnis, dengan level, per definisi sensus (Putih, Hitam / Afr.Am., Am. Indian / Alaska Asli, Asia, Asli Hawaii / Pac Islander, lainnya dan multiras). Katakanlah Anda kode tiruan dengan Putih menjadi kategori referensi dan Anda dapatkan
Jika Anda melakukan studi ini di New York City, Anda mungkin akan mendapatkan sangat sedikit penduduk asli Hawaii / Kepulauan Pasifik. Anda mungkin memutuskan untuk memasukkan mereka (jika ada) dengan yang lain. Namun, Anda tidak dapat menggunakan persamaan lengkap dan tidak termasuk koefisien itu. Maka intersep akan salah, dan demikian juga nilai prediksi untuk pendapatan.
Tetapi bagaimana Anda menggabungkan kategori?
Seperti yang dikatakan orang lain, itu harus masuk akal .
sumber
Untuk memberikan pendapat yang berbeda: mengapa tidak memasukkannya sebagai efek acak? Itu harus menghukum level tersebut dengan dukungan lemah dan memastikan ukuran efeknya minimal. Dengan begitu Anda bisa menyimpan semuanya tanpa khawatir mendapat prediksi konyol.
Dan ya, ini lebih termotivasi dari pandangan Bayesian tentang efek acak daripada keseluruhan "sampel dari semua tingkatan yang memungkinkan" pandangan efek acak.
sumber
Saya juga bertanya-tanya apakah saya bisa menggabungkan kategori tidak signifikan dengan kategori referensi. Pernyataan berikut dalam buku "Penambangan Data untuk Intelijen Bisnis: Konsep, Teknik, dan Aplikasi di Microsoft Office Excel® dengan XLMiner®, Edisi ke-2 oleh Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Dimensi Bagian reduksi) ( Hasil Pencarian Google ) tampaknya mendukung kalimat kedua dari tanggapan Ellie:
Namun, saya berencana untuk memeriksa dengan ahli materi pelajaran apakah menggabungkan kategori itu masuk akal (seperti yang tersirat dalam jawaban / komentar sebelumnya, misalnya @Fomite, @gung).
sumber