Pendekatan yang bertentangan dengan pemilihan variabel: AIC, nilai-p atau keduanya?

Dari apa yang saya pahami, pemilihan variabel berdasarkan nilai-p (setidaknya dalam konteks regresi) sangat cacat. Tampaknya pemilihan variabel berdasarkan AIC (atau serupa) juga dianggap cacat oleh beberapa, untuk alasan yang sama, meskipun ini tampaknya agak tidak jelas (mis. Lihat pertanyaan saya dan beberapa tautan pada topik ini di sini: Apa sebenarnya "pemilihan model bertahap"? ).

Tetapi katakan Anda menggunakan salah satu dari dua metode ini untuk memilih serangkaian prediktor terbaik dalam model Anda.

Burnham dan Anderson 2002 (Pemilihan Model dan Inferensi Multimodel: Pendekatan Informasi-Teoretis Praktis, halaman 83) menyatakan bahwa seseorang tidak boleh mencampur pemilihan variabel berdasarkan AIC dengan yang berdasarkan pada pengujian hipotesis : "Tes hipotesis nol dan pendekatan informasi-teoretis harus tidak digunakan bersama; mereka adalah paradigma analisis yang sangat berbeda. "

Di sisi lain, Zuur et al. 2009 (Model Efek Campuran dengan Ekstensi dalam Ekologi dengan R, halaman 541) tampaknya menganjurkan penggunaan AIC untuk pertama-tama menemukan model optimal, dan kemudian melakukan "fine tuning" menggunakan pengujian hipotesis : "Kerugiannya adalah bahwa AIC bisa konservatif , dan Anda mungkin perlu menerapkan beberapa penyempurnaan (menggunakan pengadaan pengujian hipotesis dari pendekatan satu) setelah AIC memilih model yang optimal. "

Anda dapat melihat bagaimana ini membuat pembaca kedua buku bingung tentang pendekatan mana yang harus diikuti.

1) Apakah ini hanya "kamp" pemikiran statistik dan topik ketidaksepakatan di antara para ahli statistik? Apakah salah satu dari pendekatan ini hanya "ketinggalan jaman" sekarang, tetapi dianggap tepat pada saat penulisan? Atau apakah ada yang salah sejak awal?

2) Apakah akan ada skenario di mana pendekatan ini akan sesuai? Misalnya, saya berasal dari latar belakang biologis, di mana saya sering mencoba menentukan variabel mana, jika ada, yang tampaknya memengaruhi atau mendorong respons saya. Saya sering memiliki sejumlah kandidat variabel penjelas dan saya berusaha mencari mana yang "penting" (dalam istilah relatif). Juga, perhatikan bahwa himpunan variabel prediktor kandidat sudah direduksi menjadi variabel yang dianggap memiliki relevansi biologis, tetapi ini mungkin masih mencakup 5-20 kandidat prediksi.

hypothesis-testing multiple-regression feature-selection model-selection aic Tilen
sumber

Saya ingin tahu apa argumen statistik Zuur untuk penyesuaian dengan pengujian hipotesis setelah pemilihan AIC. Itu tidak tampak seperti strategi pembangunan model yang koheren. Tetapi saya tidak cukup tahu tentang hal-hal itu.

Richard Hardy

Firasat saya adalah bahwa saran Zuur et al. Buruk (mengapa Anda pernah menggunakan tes signifikansi untuk pemilihan model?), Meskipun saya tidak yakin pernyataan Burnham dan Anderson juga benar. Ini pertanyaan yang bagus, tetapi saya harus membaca lebih dalam tentang detail teknis daripada yang telah saya baca sejauh ini untuk menjawabnya.

Kodiologist

Saya telah menggunakan kedua metode dalam model untuk memprediksi penjualan panel. Regresi mundur bertahap berbasis AIC tampaknya memberikan hasil yang lebih baik dari pengalaman saya.

Souptik Dhar

@SouptikDhar, ketika Anda mengatakan hasil "lebih baik", dengan cara apa yang Anda maksud?

Tilen

Mungkin jawabannya tergantung pada tujuan analisis? Dalam sebuah penelitian observasional, mungkin diinginkan untuk menemukan model yang paling parcimonious yang diberikan dataset, sehingga bergantung pada "pemilihan variabel berdasarkan AIC" misalnya. Namun, jika tujuannya adalah untuk menguji hipotesis, maka model tersebut, yang merupakan perumusan hipotesis dalam hal proksi yang memadai untuk variabel yang menarik bagi hipotesis kami, sudah ditentukan dari awal sehingga tidak ada ruang untuk IMHO pemilihan variabel?

Rodolphe

Jawaban:

Jawaban singkat.

Pendekatan melakukan pemilihan atau penyetelan model berbasis data , kemudian menggunakan metode inferensial standar pada model yang dipilih / disetel (à la Zuur et al. , Dan banyak ahli ekologi terkemuka lainnya seperti Crawley), akan selalu memberikan hasil yang terlalu optimistik: kepercayaan yang terlalu sempit interval (cakupan buruk), nilai-p yang terlalu kecil (kesalahan tipe I tinggi). Ini karena metode inferensial standar mengasumsikan model ditentukan secara apriori ; mereka tidak memperhitungkan proses penyetelan model.

Inilah sebabnya mengapa para peneliti seperti Frank Harrell ( Regresi Modeling Strategies ) sangat tidak menyetujui teknik seleksi berbasis data seperti regresi bertahap, dan mengingatkan bahwa seseorang harus melakukan pengurangan kompleksitas model ("pengurangan dimensi", misalnya menghitung PCA dari variabel prediktor). dan memilih beberapa sumbu PCA pertama sebagai prediktor) dengan hanya melihat variabel prediktor.

Jika Anda hanya tertarik untuk menemukan model prediktif terbaik (dan tidak tertarik pada segala jenis estimasi yang dapat diandalkan dari ketidakpastian prediksi Anda, yang masuk dalam ranah inferensi!), Maka penyetelan model berbasis data baik-baik saja (meskipun pemilihan bertahap jarang merupakan pilihan terbaik yang tersedia); pembelajaran mesin / algoritma pembelajaran statistik melakukan banyak penyetelan untuk mencoba mendapatkan model prediksi terbaik. Kesalahan "pengujian" atau "di luar sampel" harus dinilai pada sampel yang terpisah, sampel yang ditahan, atau metode penyetelan apa pun perlu dibangun ke dalam prosedur validasi silang.

Tampaknya ada evolusi historis dalam pendapat tentang topik ini; banyak buku teks statistik klasik, terutama yang berfokus pada regresi, menyajikan pendekatan bertahap diikuti oleh prosedur inferensial standar tanpa memperhitungkan efek pemilihan model. [rujukan? ...]

Ada banyak cara untuk mengukur tingkat kepentingan variabel, dan tidak semua masuk dalam jebakan pasca-variabel.

Burnham dan Anderson merekomendasikan menjumlahkan bobot AIC; ada sedikit perbedaan pendapat tentang pendekatan ini.
Anda dapat menyesuaikan model lengkap (dengan prediktor skala / unitless yang tepat) dan memberi peringkat prediktor tersebut dengan perkiraan besarnya [ukuran efek biologis] atau skor-Z ["kejelasan" / ukuran efek statistik].

Ben Bolker
sumber

Saya berasal dari latar belakang biologis dan saya seorang ahli biostatistik yang disewa, bekerja di rumah sakit universitas. Saya banyak membaca tentang ini, terutama baru-baru ini, termasuk terutama pendapat Harrell tentang www, dan bukunya Regression Modeling Strategies. Tidak mengutipnya lagi, tetapi berbicara dari pengalaman: Ini sangat terkait dengan bidang, saya pikir ini adalah tingkat pertama yang harus dipertanggungjawabkan. Tingkat kedua adalah untuk mendapatkan pendekatan rasional yang baik, yang berarti bahwa prediktor Anda harus bermakna inti untuk mengekspresikan apa yang ingin Anda prediksi, dengan pengalaman ilmiah. Ketiga akan menjelaskan interaksi, yang sangat penting, dan dapat diatasi dengan pendekatan statistik yang diambil atau wawasan. Hanya ke-4 metode yang dipilih, dalam kasus saya dengan data rumah sakit, yang cukup sering memiliki sekitar titik data x * 10 ^ 3 dan observasi x * 10 ^ 1 di mis.

Senjata nuklir
sumber