Seleksi variabel vs Seleksi model

12

Jadi saya mengerti bahwa pemilihan variabel adalah bagian dari pemilihan model. Tapi apa sebenarnya yang terdiri dari pemilihan model? Apakah lebih dari yang berikut:

1) pilih distribusi untuk model Anda

2) pilih variabel penjelas,?

Saya bertanya ini karena saya membaca artikel Burnham & Anderson: AIC vs BIC di mana mereka berbicara tentang AIC dan BIC dalam pemilihan model. Membaca artikel ini saya menyadari bahwa saya telah memikirkan 'pemilihan model' sebagai 'pemilihan variabel' (ref. Komentar Apakah BIC mencoba menemukan model yang benar? )

Kutipan dari artikel di mana mereka berbicara tentang 12 model dengan peningkatan derajat "generalitas" dan model ini menunjukkan "efek tapering" (Gambar 1) ketika KL-Informasi diplot terhadap 12 model:

FILOSOFI DAN MODEL TARGET YANG BERBEDA ... Meskipun target BIC adalah model yang lebih umum daripada model target untuk AIC, model yang paling sering dipilih di sini oleh BIC akan lebih umum daripada Model 7 kecuali n sangat besar. Mungkin Model 5 atau 6. Diketahui (dari banyak makalah dan simulasi dalam literatur) bahwa dalam konteks efek tapering (Gambar 1), AIC berkinerja lebih baik daripada BIC. Jika ini adalah konteks analisis data nyata seseorang, maka AIC harus digunakan.

Bagaimana BIC bisa memilih model yang lebih kompleks daripada AIC dalam pemilihan model yang saya tidak mengerti! Apa yang spesifik adalah "pemilihan model" dan kapan secara spesifik BIC memilih model yang lebih "umum" daripada AIC?

Jika kita berbicara tentang pemilihan variabel, maka BIC harus selalu memilih model dengan jumlah variabel terendah, benar? Istilah dalam BIC akan selalu menghukum variabel tambahan lebih dari istilah di AIC. Tetapi bukankah ini tidak masuk akal ketika " target BIC adalah model yang lebih umum daripada model target untuk AIC "?2ln(N)k2k

EDIT :

Dari diskusi di komentar di Apakah ada alasan untuk lebih suka AIC atau BIC daripada yang lain? kita melihat diskusi kecil antara @Michael Chernick dan @ user13273 di komentar, membuat saya percaya bahwa ini adalah sesuatu yang tidak sepele:

Saya pikir lebih tepat untuk menyebut diskusi ini sebagai pilihan "fitur" atau "kovariat". Bagi saya, pemilihan model jauh lebih luas yang melibatkan spesifikasi distribusi kesalahan, bentuk fungsi tautan, dan bentuk kovariat. Ketika kita berbicara tentang AIC / BIC, kita biasanya dalam situasi di mana semua aspek pembangunan model diperbaiki, kecuali pemilihan kovariat. - user13273 13 Agustus 12 pada 21:17

Memutuskan kovariat tertentu untuk dimasukkan ke dalam model biasanya mengikuti istilah pemilihan model dan ada sejumlah buku dengan pemilihan model dalam judul yang terutama memutuskan kovariat model / parameter apa yang akan dimasukkan ke dalam model. - Michael Chernick 24 Agustus 12 pada 14:44

Erosennin
sumber
3
Pertanyaan bagus! Setidaknya bagian dari resolusi adalah untuk membedakan antara "target" BIC dalam terminologi makalah ini - model yang sebenarnya, yang akan dipilih dengan ukuran sampel yang sangat besar - & model yang kebetulan dipilih dengan sampel tertentu ukuran. Tidak ada kontradiksi saat itu, ketika mempertimbangkan urutan model bersarang dengan peningkatan no. parameter, dalam mengatakan bahwa target BIC adalah model dengan 9 parameter, meskipun pada ukuran sampel moderat BIC memilih model dengan 4 parameter, & AIC yang dengan 6.
Scortchi - Reinstate Monica
1
@ Scortchi: Contoh yang bagus, tetapi bukankah konsep model target tidak sepenuhnya berlebihan ketika kita berbicara tentang model bersarang? Jika konteksnya adalah serangkaian model bersarang (maka kita berbicara tentang pemilihan variabel): BIC mungkin memiliki model target yang lebih kompleks , tetapi tidak akan pernah memilih model yang lebih kompleks daripada AIC. Dalam konteks lain (kita berbicara tentang pemilihan model) (dengan ukuran sampel besar) makalah ini mengklaim bahwa BIC akan memilih model target yang lebih kompleks ("umum") daripada AIC. Bagaimana ini terjadi secara khusus, masih belum jelas bagi saya.
Erosennin
@ Erosennin apakah Anda pernah berhasil menemukan jawaban untuk pertanyaan umum Anda ini?
zipzapboing

Jawaban:

3

Terkadang pemodel memisahkan pemilihan variabel menjadi langkah berbeda dalam pengembangan model. Misalnya, mereka pertama-tama akan melakukan analisis eksplorasi, meneliti literatur akademik, dan praktik industri kemudian membuat daftar variabel kandidat. Mereka akan memanggil pemilihan variabel langkah ini .

Selanjutnya, mereka akan menjalankan banyak spesifikasi berbeda dengan banyak kombinasi variabel berbeda seperti model OLS: mana menunjukkan variabel dalam model . Mereka akan memilih model terbaik dari semua model secara manual atau dalam rutinitas otomatis. Jadi, orang-orang ini akan memanggil pemilihan model tahap terakhir .

yi=jmXijmβjm+εi,
jmjmm

Ini mirip dengan bagaimana dalam pembelajaran mesin orang berbicara tentang rekayasa fitur , ketika mereka datang dengan variabel. Anda mencolokkan fitur ke LASSO atau kerangka kerja serupa di mana Anda membangun model menggunakan fitur-fitur ini (variabel). Dalam konteks ini masuk akal untuk memisahkan pemilihan variabel menjadi langkah yang berbeda, karena Anda membiarkan algoritma untuk memilih koefisien yang tepat untuk variabel, dan tidak menghilangkan variabel apa pun. Penilaian Anda (berkenaan dengan variabel mana yang dimasukkan ke dalam model) diisolasi pada langkah pemilihan variabel, maka sisanya terserah algoritma pemasangan.

Dalam konteks makalah yang Anda kutip, ini semua tidak relevan. Kertas menggunakan BIC atau AIC untuk memilih antara spesifikasi model yang berbeda. Tidak masalah apakah Anda memiliki pemilihan variabel sebagai langkah terpisah dalam kasus ini. Yang penting adalah variabel mana dalam spesifikasi model tertentu , maka Anda melihat BIC / AIC mereka untuk memilih yang terbaik. Mereka memperhitungkan ukuran sampel dan jumlah variabel.m

Aksakal
sumber