Saya ingin menjalankan regresi dengan 4 hingga 5 variabel penjelas, tetapi saya hanya memiliki 15 pengamatan. Tidak dapat mengasumsikan variabel-variabel ini terdistribusi normal, adakah metode non-parametrik atau metode regresi lain yang valid?
9
Jawaban:
@ Glen_b benar tentang sifat asumsi normalitas dalam regresi 1 .
Saya pikir masalah Anda yang lebih besar adalah bahwa Anda tidak memiliki cukup data untuk mendukung 4 hingga 5 variabel penjelas. Aturan standar praktis 2 adalah bahwa Anda harus memiliki setidaknya 10 data per variabel penjelas, yaitu 40 atau 50 data dalam kasus Anda (dan ini adalah untuk situasi ideal di mana tidak ada pertanyaan tentang asumsi). Karena model Anda tidak akan sepenuhnya jenuh 3(Anda memiliki lebih banyak data daripada parameter yang pas), Anda bisa mendapatkan taksiran parameter (kemiringan, dll.) dan dalam kondisi ideal, taksirannya asimtotik. Namun, kemungkinan besar estimasi Anda akan jauh dari nilai sebenarnya dan SE / CI Anda akan sangat besar, sehingga Anda tidak akan memiliki kekuatan statistik. Perhatikan bahwa menggunakan analisis regresi nonparametrik, atau alternatif lainnya, tidak akan membuat Anda keluar dari masalah ini.
Apa yang perlu Anda lakukan di sini adalah memilih satu variabel penjelas tunggal (sebelum melihat data Anda!) Berdasarkan teori sebelumnya di bidang Anda atau firasat Anda, atau Anda harus menggabungkan variabel penjelas Anda. Strategi yang masuk akal untuk opsi yang terakhir adalah menjalankan analisis komponen utama (PCA) dan menggunakan komponen prinsip pertama sebagai variabel penjelas Anda.
Referensi:
1. Bagaimana jika residu terdistribusi normal tetapi Y tidak?
2. Aturan praktis untuk ukuran sampel minimum untuk regresi berganda
3. Jumlah maksimum variabel independen yang dapat dimasukkan ke dalam persamaan regresi berganda
sumber