Regresi dengan ukuran sampel yang sangat kecil

9

Saya ingin menjalankan regresi dengan 4 hingga 5 variabel penjelas, tetapi saya hanya memiliki 15 pengamatan. Tidak dapat mengasumsikan variabel-variabel ini terdistribusi normal, adakah metode non-parametrik atau metode regresi lain yang valid?

Bob
sumber
5
Tidak ada asumsi bahwa salah satu variabel penjelas adalah normal. Tidak ada asumsi tentang distribusi respon marjinal baik. Jika Anda melakukan CI atau tes hipotesis, kesimpulan biasa mengasumsikan normalitas bersyarat dari respons. Lebih penting adalah asumsi linearitas dan varian konstan. Terdiri dari apa tanggapan Anda (/ mengapa itu tidak normal)?
Glen_b -Reinstate Monica
3
Tidak. Anda tidak memiliki cukup data. Ini adalah analisis eksplorasi. Anda mungkin melihat hubungan sugestif. Tetapi Anda harus menghindari nilai-p, interval kepercayaan dan pengujian hipotesis.
charles

Jawaban:

10

@ Glen_b benar tentang sifat asumsi normalitas dalam regresi 1 .

Saya pikir masalah Anda yang lebih besar adalah bahwa Anda tidak memiliki cukup data untuk mendukung 4 hingga 5 variabel penjelas. Aturan standar praktis 2 adalah bahwa Anda harus memiliki setidaknya 10 data per variabel penjelas, yaitu 40 atau 50 data dalam kasus Anda (dan ini adalah untuk situasi ideal di mana tidak ada pertanyaan tentang asumsi). Karena model Anda tidak akan sepenuhnya jenuh 3(Anda memiliki lebih banyak data daripada parameter yang pas), Anda bisa mendapatkan taksiran parameter (kemiringan, dll.) dan dalam kondisi ideal, taksirannya asimtotik. Namun, kemungkinan besar estimasi Anda akan jauh dari nilai sebenarnya dan SE / CI Anda akan sangat besar, sehingga Anda tidak akan memiliki kekuatan statistik. Perhatikan bahwa menggunakan analisis regresi nonparametrik, atau alternatif lainnya, tidak akan membuat Anda keluar dari masalah ini.

Apa yang perlu Anda lakukan di sini adalah memilih satu variabel penjelas tunggal (sebelum melihat data Anda!) Berdasarkan teori sebelumnya di bidang Anda atau firasat Anda, atau Anda harus menggabungkan variabel penjelas Anda. Strategi yang masuk akal untuk opsi yang terakhir adalah menjalankan analisis komponen utama (PCA) dan menggunakan komponen prinsip pertama sebagai variabel penjelas Anda.

Referensi:
1. Bagaimana jika residu terdistribusi normal tetapi Y tidak?
2. Aturan praktis untuk ukuran sampel minimum untuk regresi berganda
3. Jumlah maksimum variabel independen yang dapat dimasukkan ke dalam persamaan regresi berganda

gung - Pasang kembali Monica
sumber