Regresi berganda dengan set data kecil

8

Saya memiliki dataset studi kasus proyek untuk tipe baru metode penelitian untuk badan-badan Pemerintah untuk mendukung kegiatan pengambilan keputusan. Tugas saya adalah mengembangkan metode estimasi berdasarkan pengalaman masa lalu untuk proyek masa depan untuk keperluan estimasi.

Dataset saya dibatasi hingga 50 kasus. Saya memiliki 30+ (calon) prediktor yang direkam dan satu variabel respons (yaitu jam yang diambil untuk menyelesaikan proyek).

Tidak semua prediktor signifikan, menggunakan teknik seleksi langkah-bijaksana. Saya berharap jumlah variabel prediksi cenderung berada dalam kisaran variabel 5-10. Meskipun saya berjuang untuk mendapatkan set prediktor menggunakan appraoches standar dalam alat-alat seperti PASW (SPSS).

Saya menyadari semua materi berbicara tentang aturan praktis untuk ukuran sampel dan variabel prediktor untuk rasio kasus. Dilema saya adalah butuh waktu hampir 10 tahun untuk mengumpulkan 50 kasus apa adanya, jadi ini akan sebaik mungkin.

Pertanyaan saya adalah apa yang harus saya lakukan untuk mendapatkan hasil maksimal dari set sampel kecil ini?

Apakah ada referensi bagus untuk berurusan dengan set smaple kecil? Perubahan signifikansi p-value? Perubahan pendekatan seleksi bertahap? Penggunaan transformasi seperti pemusatan atau log?

Setiap saran sangat dihargai.

Shane
sumber

Jawaban:

3

Karena Anda ingin memilih beberapa prediktor dari kumpulan data Anda, saya akan menyarankan regresi linier sederhana dengan penalti atau menggunakan LASSO (regresi linier penalti). Kasing Anda cocok untuk regresi dengan penalti LASSO sebagai ukuran sampel Anda, , dan jumlah prediktor, . Mengubah parameter tuning akan memilih jumlah prediktor yang ingin Anda pilih. L1n=50p=30

Jika Anda dapat memberikan detail tentang distribusi variabel Anda, saya bisa lebih spesifik.

Saya tidak menggunakan SPSS, tetapi ini bisa dilakukan dengan mudah dalam Rmenggunakan glmnetfungsi dalam paket dengan nama yang sama. Jika Anda melihat di manual, ini berisi contoh umum (yang pertama, untuk kasus gaussian ) yang akan menyelesaikan masalah Anda. Saya yakin, solusi serupa harus ada di SPSS.

suncoolsu
sumber
Responsnya cenderung sangat negatif. Dengan keagungan proyek sekitar 2500 jam dan ekor membentang ke beberapa proyek 10.000-14000 jam. Prediktor kontinu (skala) adalah campuran distribusi sementara beberapa prediktor bersifat kategoris (nominal). Jenis distribusi apa yang diperlukan untuk LASSO (atau apa lagi yang perlu Anda ketahui dari saya)? - btw terima kasih atas tanggapannya!
Shane
@Shane, LASSO adalah konsep umum menghukum dengan(modulus atau nilai absolut) berfungsi. Ini independen dari distribusi apa pun. Jika Anda memeriksa paket (lihat fungsi :), ia memberi Anda opsi untuk menyesuaikan (regresi linier adalah kasus khusus) dengan penalti untuk berbagai distribusi. Ini cukup cepat dan luar biasa pada saat bersamaan. ||glmnetglmnetglmL1
suncoolsu
Memeriksa SPSS membantunya berbicara tentang fitur yang disebut "Regulasi Kategorikal Regresi" atau CATREG. Tampaknya untuk mengatasi metode Lasso dan Ridge. Untuk beberapa alasan itu tidak diaktifkan di versi saya. Kalau ada yang tahu mengapa saya akan menghargai.
Shane
@Shane Jika ingatan saya tidak mengecewakan saya, saya telah melihat @AndyW memposting kode SPSS yang mewah . Itu (kode) membuat saya terkesan sepanjang waktu!
suncoolsu
@ Shane, tampaknya perintah CATREG telah ada untuk beberapa versi SPSS, tetapi Anda mungkin memerlukan beberapa modul / lisensi regresi tingkat lanjut untuk menggunakannya. Dalam edisi saat ini Anda memerlukan suite stat "premium" untuk mendapatkan fungsi ini. Saya hanya akan menyarankan memeriksa paket R suncoolsu menyebutkan (gratis!).
Andy W