Dari apa yang saya pahami, pemilihan variabel berdasarkan nilai-p (setidaknya dalam konteks regresi) sangat cacat. Tampaknya pemilihan variabel berdasarkan AIC (atau serupa) juga dianggap cacat oleh beberapa, untuk alasan yang sama, meskipun ini tampaknya agak tidak jelas (mis. Lihat pertanyaan saya dan beberapa tautan pada topik ini di sini: Apa sebenarnya "pemilihan model bertahap"? ).
Tetapi katakan Anda menggunakan salah satu dari dua metode ini untuk memilih serangkaian prediktor terbaik dalam model Anda.
Burnham dan Anderson 2002 (Pemilihan Model dan Inferensi Multimodel: Pendekatan Informasi-Teoretis Praktis, halaman 83) menyatakan bahwa seseorang tidak boleh mencampur pemilihan variabel berdasarkan AIC dengan yang berdasarkan pada pengujian hipotesis : "Tes hipotesis nol dan pendekatan informasi-teoretis harus tidak digunakan bersama; mereka adalah paradigma analisis yang sangat berbeda. "
Di sisi lain, Zuur et al. 2009 (Model Efek Campuran dengan Ekstensi dalam Ekologi dengan R, halaman 541) tampaknya menganjurkan penggunaan AIC untuk pertama-tama menemukan model optimal, dan kemudian melakukan "fine tuning" menggunakan pengujian hipotesis : "Kerugiannya adalah bahwa AIC bisa konservatif , dan Anda mungkin perlu menerapkan beberapa penyempurnaan (menggunakan pengadaan pengujian hipotesis dari pendekatan satu) setelah AIC memilih model yang optimal. "
Anda dapat melihat bagaimana ini membuat pembaca kedua buku bingung tentang pendekatan mana yang harus diikuti.
1) Apakah ini hanya "kamp" pemikiran statistik dan topik ketidaksepakatan di antara para ahli statistik? Apakah salah satu dari pendekatan ini hanya "ketinggalan jaman" sekarang, tetapi dianggap tepat pada saat penulisan? Atau apakah ada yang salah sejak awal?
2) Apakah akan ada skenario di mana pendekatan ini akan sesuai? Misalnya, saya berasal dari latar belakang biologis, di mana saya sering mencoba menentukan variabel mana, jika ada, yang tampaknya memengaruhi atau mendorong respons saya. Saya sering memiliki sejumlah kandidat variabel penjelas dan saya berusaha mencari mana yang "penting" (dalam istilah relatif). Juga, perhatikan bahwa himpunan variabel prediktor kandidat sudah direduksi menjadi variabel yang dianggap memiliki relevansi biologis, tetapi ini mungkin masih mencakup 5-20 kandidat prediksi.
Jawaban:
Jawaban singkat.
Pendekatan melakukan pemilihan atau penyetelan model berbasis data , kemudian menggunakan metode inferensial standar pada model yang dipilih / disetel (à la Zuur et al. , Dan banyak ahli ekologi terkemuka lainnya seperti Crawley), akan selalu memberikan hasil yang terlalu optimistik: kepercayaan yang terlalu sempit interval (cakupan buruk), nilai-p yang terlalu kecil (kesalahan tipe I tinggi). Ini karena metode inferensial standar mengasumsikan model ditentukan secara apriori ; mereka tidak memperhitungkan proses penyetelan model.
Inilah sebabnya mengapa para peneliti seperti Frank Harrell ( Regresi Modeling Strategies ) sangat tidak menyetujui teknik seleksi berbasis data seperti regresi bertahap, dan mengingatkan bahwa seseorang harus melakukan pengurangan kompleksitas model ("pengurangan dimensi", misalnya menghitung PCA dari variabel prediktor). dan memilih beberapa sumbu PCA pertama sebagai prediktor) dengan hanya melihat variabel prediktor.
Jika Anda hanya tertarik untuk menemukan model prediktif terbaik (dan tidak tertarik pada segala jenis estimasi yang dapat diandalkan dari ketidakpastian prediksi Anda, yang masuk dalam ranah inferensi!), Maka penyetelan model berbasis data baik-baik saja (meskipun pemilihan bertahap jarang merupakan pilihan terbaik yang tersedia); pembelajaran mesin / algoritma pembelajaran statistik melakukan banyak penyetelan untuk mencoba mendapatkan model prediksi terbaik. Kesalahan "pengujian" atau "di luar sampel" harus dinilai pada sampel yang terpisah, sampel yang ditahan, atau metode penyetelan apa pun perlu dibangun ke dalam prosedur validasi silang.
Tampaknya ada evolusi historis dalam pendapat tentang topik ini; banyak buku teks statistik klasik, terutama yang berfokus pada regresi, menyajikan pendekatan bertahap diikuti oleh prosedur inferensial standar tanpa memperhitungkan efek pemilihan model. [rujukan? ...]
Ada banyak cara untuk mengukur tingkat kepentingan variabel, dan tidak semua masuk dalam jebakan pasca-variabel.
sumber
Saya berasal dari latar belakang biologis dan saya seorang ahli biostatistik yang disewa, bekerja di rumah sakit universitas. Saya banyak membaca tentang ini, terutama baru-baru ini, termasuk terutama pendapat Harrell tentang www, dan bukunya Regression Modeling Strategies. Tidak mengutipnya lagi, tetapi berbicara dari pengalaman: Ini sangat terkait dengan bidang, saya pikir ini adalah tingkat pertama yang harus dipertanggungjawabkan. Tingkat kedua adalah untuk mendapatkan pendekatan rasional yang baik, yang berarti bahwa prediktor Anda harus bermakna inti untuk mengekspresikan apa yang ingin Anda prediksi, dengan pengalaman ilmiah. Ketiga akan menjelaskan interaksi, yang sangat penting, dan dapat diatasi dengan pendekatan statistik yang diambil atau wawasan. Hanya ke-4 metode yang dipilih, dalam kasus saya dengan data rumah sakit, yang cukup sering memiliki sekitar titik data x * 10 ^ 3 dan observasi x * 10 ^ 1 di mis.
sumber