Validasi silang dengan regresi smoothing nonparametric

Ketika saya menggunakan model-model regresi, saya merasa curiga untuk gagal dalam asumsi asosiasi linier; sebaliknya saya ingin mengeksplorasi bentuk fungsional hubungan antara variabel dependen dan penjelas menggunakan regresi smoothing nonparametric (misalnya model aditif umum , lowess / lowess , running line smoothers , dll.) sebelum memperkirakan model parametrik menggunakan, jika sesuai, regresi kuadrat terkecil nonlinear untuk memperkirakan parameter untuk fungsi yang disarankan oleh model nonparametric.

Apa cara yang baik untuk berpikir tentang melakukan validasi silang dalam fase regresi smoothing nonparametric dari pendekatan seperti itu? Saya bertanya-tanya apakah saya mungkin menghadapi situasi di mana dalam sampel holdout acak A hubungan yang diperkirakan oleh fungsi engsel linear "patah tongkat" mungkin terbukti, sedangkan sampel holdout B menunjukkan hubungan yang akan lebih baik didekati dengan fungsi engsel ambang parabola.

Apakah seseorang akan mengambil pendekatan non-lengkap menahan beberapa bagian data yang dipilih secara acak, melakukan regresi nonparametrik, menafsirkan bentuk-bentuk fungsional yang masuk akal untuk hasilnya, dan mengulangi ini beberapa kali (dikelola manusia) beberapa kali dan bentuk-bentuk fungsional yang masuk akal secara mental ?

Atau apakah orang akan mengambil pendekatan yang lengkap (misalnya LOOCV), dan menggunakan beberapa algoritma untuk 'menghaluskan semua smooths' dan menggunakan smooths yang paling halus untuk menginformasikan bentuk fungsional yang masuk akal? (Meskipun, pada refleksi, saya pikir LOOCV sangat tidak mungkin menghasilkan hubungan fungsional yang sangat berbeda karena bentuk fungsional pada sampel yang cukup besar tidak mungkin diubah oleh satu titik data tunggal.)

Aplikasi saya biasanya memerlukan sejumlah variabel prediktor yang dapat dikelola manusia (beberapa saja, katakan saja), tetapi ukuran sampel saya akan berkisar dari beberapa ratus hingga beberapa ratus ribu. Tujuan saya adalah untuk menghasilkan model yang dikomunikasikan secara intuitif dan mudah diterjemahkan yang dapat digunakan untuk membuat prediksi oleh orang-orang dengan set data selain milik saya, dan yang tidak termasuk variabel hasil.

Referensi dalam jawaban sangat diterima.

cross-validation nonparametric-regression Alexis
sumber

Ini akan membantu untuk memperjelas pertanyaan Anda: apa yang ingin Anda capai dengan validasi silang? Tentukan model smoothing mana yang paling berhasil?

jubo

Terima kasih. Saya tertarik untuk menghasilkan model prediksi parametrik yang divalidasi silang. Namun, saya tidak nyaman dengan asumsi hubungan fungsional linier antara variabel dependen dan independen. Oleh karena itu, nonparametrik -> pendekatan nonlinier parametrik yang saya jelaskan di atas. Saya tertarik untuk memasukkan CV pada langkah pertama untuk memvalidasi bentuk fungsional yang disarankan (mis. Apakah sub-sampel yang berbeda menyarankan berbagai fungsi?).

Alexis

Menurut saya ada dua kebingungan dalam pertanyaan Anda:

Pertama, regresi linier (paling tidak kuadrat) tidak memerlukan hubungan linier dalam variabel independen , tetapi dalam parameter .

Jadi $y=a + b \cdot x e^{-x} + c \cdot \frac{z}{1 + x^2}$ dapat diperkirakan dengan kuadrat terkecil biasa ( $y$ adalah fungsi linear dari parameter $a$ , $b$ , $c$ ), sementara $y = a + b \cdot x + b^2 \cdot z$ tidak bisa ( $y$ tidak linear dalam parameter $b$ ).
Kedua, bagaimana Anda menentukan model fungsional "benar" dari yang lebih halus, yaitu bagaimana Anda beralih dari langkah 1 ke langkah 2?

Sejauh yang saya tahu, tidak ada cara untuk menyimpulkan "fungsi mana yang digunakan regresi" dari teknik perataan seperti splines, jaring saraf, dll. Kecuali mungkin dengan memplot output yang dihaluskan, dan menentukan hubungan berdasarkan intuisi, tetapi itu tidak berarti apa-apa. Kedengarannya sangat kuat bagi saya, dan sepertinya orang tidak perlu merapikannya, cukup sebar saja.

Jika tujuan akhir Anda adalah model regresi linier, dan masalah Anda adalah bahwa Anda tidak tahu persis apa bentuk fungsional dari regressor yang harus digunakan, Anda akan lebih baik langsung menyesuaikan model regresi linier yang diatur (seperti LASSO ) dengan ekspansi besar-besaran dari regressor asli (seperti polinomial dari regressor, eksponensial, log, ...). Prosedur regularisasi kemudian harus menghilangkan regresi yang tidak dibutuhkan, meninggalkan Anda dengan model parametrik (semoga baik). Dan Anda dapat menggunakan validasi silang untuk menentukan parameter hukuman optimal (yang menentukan derajat kebebasan sebenarnya dari model).

Anda selalu dapat menggunakan regresi nonparametrik sebagai tolok ukur untuk kesalahan generalisasi, sebagai cara untuk memeriksa apakah model linier Anda yang diprediksi memprediksi data luar sama baiknya dengan nonparametrik yang lebih mulus.

Jubo
sumber

Poin 1 Anda: Saya berkomunikasi dengan buruk. Saya tertarik pada parameterisasi nonlinier seperti yang Anda tunjukkan (mis. Fungsi engsel:

β_{x} x + β_{h} max (x - θ, 0)

$\beta_{x}x + \beta_{\text{h}}\max(x-\theta,0)$ dimana

θ

$\theta$ juga merupakan parameter untuk diestimasi). Motivasi untuk pertanyaan ini adalah karena saya bertanya-tanya: akan menahan sub-sampel A menyarankan, katakanlah, fungsi engsel "tongkat patah", sementara sub-sampel tahan-B menunjukkan fungsi engsel ambang parabola? Saya tidak mencari hubungan fungsional yang "benar" (mungkin nonlinear dalam parameterisasi), tetapi hubungan "prediktif". Apakah CV berperan di sini?

Alexis

Poin ke-2 Anda: Anda benar mengatakan bahwa pindah dari langkah 1 ke 2 memerlukan intuisi. Namun, salah satu manfaat menggunakan pendekatan "tidak kuat" (sebagai lawan dari pendekatan pemasangan kurva algoritmik), adalah (dalam pengalaman saya) seseorang dapat mengkomunikasikan hubungan antara hasil dan prediktor dengan parameterisasi yang cukup intuitif (misalnya fungsi polinomial fraksional yang jangan memanggil bentuk / bentuk tertentu ke pikiran), dengan kesalahan yang cukup dekat dengan pendekatan algoritmik. Jadi: lebih baik daripada asumsi parameter linier, tetapi mempertahankan interpretabilitas untuk audiens.

Alexis

Tidak jelas bagi saya bahwa LASSO akan melayani kebutuhan saya: Saya tidak dalam

p > n

$p > n$ situasi.

Alexis

Saya mendorong Anda untuk mempertimbangkan kembali komentar laso Anda. Meskipun laso dirancang dengan

p > n

$p > n$ dalam pikiran, kegunaannya tidak terbatas pada situasi itu, terutama ketika mencari model yang kecil (kecil) dengan daya prediksi tinggi. jubo menyarankan untuk memperluas jumlah kovariat dengan menambahkan ekspansi basis besar, splines atau polinomial ortogonal, dan kemudian membiarkan laso memilih yang relevan.

Matthew Drury

Saya tidak yakin pendekatan laso untuk splines benar-benar ideal, karena mereka cenderung memiliki dukungan sempit (untuk kubus saya percaya mereka didukung antara empat knot berturut-turut). Beberapa kombinasi hukuman L1 dan L2 dengan glmnet dapat bekerja.

Matthew Drury

Validasi silang dengan regresi smoothing nonparametric

Jawaban: