Ketika saya menggunakan model-model regresi, saya merasa curiga untuk gagal dalam asumsi asosiasi linier; sebaliknya saya ingin mengeksplorasi bentuk fungsional hubungan antara variabel dependen dan penjelas menggunakan regresi smoothing nonparametric (misalnya model aditif umum , lowess / lowess , running line smoothers , dll.) sebelum memperkirakan model parametrik menggunakan, jika sesuai, regresi kuadrat terkecil nonlinear untuk memperkirakan parameter untuk fungsi yang disarankan oleh model nonparametric.
Apa cara yang baik untuk berpikir tentang melakukan validasi silang dalam fase regresi smoothing nonparametric dari pendekatan seperti itu? Saya bertanya-tanya apakah saya mungkin menghadapi situasi di mana dalam sampel holdout acak A hubungan yang diperkirakan oleh fungsi engsel linear "patah tongkat" mungkin terbukti, sedangkan sampel holdout B menunjukkan hubungan yang akan lebih baik didekati dengan fungsi engsel ambang parabola.
Apakah seseorang akan mengambil pendekatan non-lengkap menahan beberapa bagian data yang dipilih secara acak, melakukan regresi nonparametrik, menafsirkan bentuk-bentuk fungsional yang masuk akal untuk hasilnya, dan mengulangi ini beberapa kali (dikelola manusia) beberapa kali dan bentuk-bentuk fungsional yang masuk akal secara mental ?
Atau apakah orang akan mengambil pendekatan yang lengkap (misalnya LOOCV), dan menggunakan beberapa algoritma untuk 'menghaluskan semua smooths' dan menggunakan smooths yang paling halus untuk menginformasikan bentuk fungsional yang masuk akal? (Meskipun, pada refleksi, saya pikir LOOCV sangat tidak mungkin menghasilkan hubungan fungsional yang sangat berbeda karena bentuk fungsional pada sampel yang cukup besar tidak mungkin diubah oleh satu titik data tunggal.)
Aplikasi saya biasanya memerlukan sejumlah variabel prediktor yang dapat dikelola manusia (beberapa saja, katakan saja), tetapi ukuran sampel saya akan berkisar dari beberapa ratus hingga beberapa ratus ribu. Tujuan saya adalah untuk menghasilkan model yang dikomunikasikan secara intuitif dan mudah diterjemahkan yang dapat digunakan untuk membuat prediksi oleh orang-orang dengan set data selain milik saya, dan yang tidak termasuk variabel hasil.
Referensi dalam jawaban sangat diterima.
Jawaban:
Menurut saya ada dua kebingungan dalam pertanyaan Anda:
Pertama, regresi linier (paling tidak kuadrat) tidak memerlukan hubungan linier dalam variabel independen , tetapi dalam parameter .
Jadiy= a + b ⋅ xe- x+ c ⋅z1 +x2 dapat diperkirakan dengan kuadrat terkecil biasa (y adalah fungsi linear dari parameter Sebuah , b , c ), sementara y= a + b ⋅ x +b2⋅ z tidak bisa (y tidak linear dalam parameter b ).
Kedua, bagaimana Anda menentukan model fungsional "benar" dari yang lebih halus, yaitu bagaimana Anda beralih dari langkah 1 ke langkah 2?
Sejauh yang saya tahu, tidak ada cara untuk menyimpulkan "fungsi mana yang digunakan regresi" dari teknik perataan seperti splines, jaring saraf, dll. Kecuali mungkin dengan memplot output yang dihaluskan, dan menentukan hubungan berdasarkan intuisi, tetapi itu tidak berarti apa-apa. Kedengarannya sangat kuat bagi saya, dan sepertinya orang tidak perlu merapikannya, cukup sebar saja.
Jika tujuan akhir Anda adalah model regresi linier, dan masalah Anda adalah bahwa Anda tidak tahu persis apa bentuk fungsional dari regressor yang harus digunakan, Anda akan lebih baik langsung menyesuaikan model regresi linier yang diatur (seperti LASSO ) dengan ekspansi besar-besaran dari regressor asli (seperti polinomial dari regressor, eksponensial, log, ...). Prosedur regularisasi kemudian harus menghilangkan regresi yang tidak dibutuhkan, meninggalkan Anda dengan model parametrik (semoga baik). Dan Anda dapat menggunakan validasi silang untuk menentukan parameter hukuman optimal (yang menentukan derajat kebebasan sebenarnya dari model).
Anda selalu dapat menggunakan regresi nonparametrik sebagai tolok ukur untuk kesalahan generalisasi, sebagai cara untuk memeriksa apakah model linier Anda yang diprediksi memprediksi data luar sama baiknya dengan nonparametrik yang lebih mulus.
sumber