Apa gunanya membagi data ke dalam pelatihan dan menguji bagian untuk menilai properti prediksi ketika kita memiliki AIC?

8

Secara asimptotik, meminimalkan AIC setara dengan meminimalkan MSE validasi silang keluar-keluar untuk data cross-sectional [ 1 ]. Jadi ketika kita memiliki AIC, mengapa orang menggunakan metode membagi data menjadi pelatihan, validasi dan set tes untuk mengukur sifat prediktif model? Apa manfaat khusus dari praktik ini?

Saya dapat memikirkan satu alasan: jika seseorang ingin menilai kinerja prediksi model, analisis out-of-sample berguna. Tetapi meskipun AIC bukan ukuran akurasi perkiraan , orang biasanya memiliki ide bagus jika beberapa model mencapai potensi maksimumnya (untuk data yang diberikan) dalam hal seberapa baik Anda akan dapat memprediksi.

Erosennin
sumber
2
Kutipan dari dokumen sklearn : Pemilihan model berdasarkan informasi-kriteria sangat cepat, tetapi bergantung pada estimasi tingkat kebebasan yang tepat, diturunkan untuk sampel besar (hasil asimptotik) dan menganggap modelnya benar, yaitu bahwa data sebenarnya dihasilkan oleh model ini. Mereka juga cenderung pecah ketika masalahnya buruk (lebih banyak fitur daripada sampel).
sascha
Saya sebenarnya tidak berpikir bahwa AIC mengasumsikan model yang benar ( stats.stackexchange.com/questions/205222/… ). Mengenai ukuran sampel dan AIC menjadi hasil asimptotik: Anda tidak akan pernah membagi data Anda menjadi tiga bagian ketika Anda memiliki sedikit data. Ukuran sampel sangat kecil bermasalah untuk kedua out-of-sampel analisis dan AIC
Erosennin
1
@sascha ada benarnya: untuk AIC untuk memperkirakan informasi KL yang diharapkan. Kehilangan baik salah satu model harus cukup baik. Saya tidak berpikir ada yang mendukung menggunakan AIC untuk membandingkan model yang buruk untuk melihat mana yang kurang buruk.
Scortchi
2
tr(J(θ0)(saya(θ0))-1)k dalam slide 10 yang ditautkan dengan @sascha. (Saya baru saja melihat di situs kami - kami sepertinya memiliki banyak pernyataan tentang AIC, & referensi yang mengandung lebih banyak pernyataan; tetapi sedikit di luar. Dari memori, Pawitan, Dalam Semua Kemungkinan , & Burnham & Anderson, Pemilihan Model , memberikan derivasi .)
Scortchi
1
Ok, saya melewatkan bagian TIC dan melewatkan bagian itu. Anda benar sekali. Permintaan maaf kepada Anda @sascha, dan terima kasih telah memberi saya pencerahan :) Ya, saya baru saja melihat-lihat di Burnham & Anderson sendiri. Sumber daya hebat!
Erosennin

Jawaban:

9

Dalam praktiknya, saya selalu menggunakan validasi silang atau split train-test sederhana daripada AIC (atau BIC). Saya tidak terlalu akrab dengan teori di balik AIC, tetapi dua masalah utama mengarahkan saya untuk lebih memilih perkiraan langsung dari akurasi prediksi:

  1. Angka itu sendiri tidak memberi tahu Anda seberapa akurat model itu. AIC dapat memberikan bukti mengenai model mana yang paling akurat, tetapi tidak memberi tahu Anda seberapa akurat model tersebut dalam unit-unit DV. Saya hampir selalu tertarik pada perkiraan akurasi konkret dari jenis ini, karena ia memberi tahu saya betapa berguna suatu model dalam istilah absolut, dan juga seberapa jauh lebih akurat daripada model perbandingan.

  2. AIC, seperti BIC, perlu untuk setiap model menghitung parameter atau nilai lain yang mengukur kompleksitas model. Tidak jelas apa yang harus Anda lakukan untuk ini dalam kasus metode prediksi yang kurang tradisional seperti klasifikasi tetangga terdekat, hutan acak, atau metode ensembel baru yang aneh yang Anda tuliskan pada serbet koktail di tengah penyok bulan lalu. Sebaliknya, perkiraan akurasi dapat dihasilkan untuk model prediksi apa pun, dan dengan cara yang sama.

Kodiologis
sumber
1
+1 Hebat! # 2 adalah argumen yang bagus! # 1 mendukung apa yang saya tulis tentang AIC yang bukan ukuran akurasi perkiraan, bagus! Dapatkah saya bertanya bagaimana Anda membandingkan "seberapa jauh lebih akurat daripada model perbandingan"? Saya baru-baru ini memikirkan hal ini ketika membandingkan dua model MSE. UMK Model 1 dan Model 2 masing-masing adalah 10 dan 20. Bagaimana cara menafsirkan Model 1 yang jauh lebih akurat? Saya pikir ini tidak sesederhana 20/10, karena membandingkan ini harus / harus mempertimbangkan skala DV?
Erosennin
2
Saya hanya melihat kedua angka akurasi masing-masing (MSE atau apa pun), daripada mencoba untuk membuat skor perbandingan. Selain itu, selalu membantu untuk memiliki skor akurasi untuk model yang sepele (yaitu, model yang tidak menggunakan prediktor) jika itu belum menjadi salah satu model yang Anda bandingkan.
Kodiolog
(+1) Ada industri rumahan dalam menciptakan AIC yang efektif, kuasi-AIC, & sejenisnya untuk situasi yang tidak estimasi kemungkinan maksimum dengan no tetap. parameter.
Scortchi
@Kodiologist: Saya pikir ini akan sangat menarik dengan skor perbandingan. Dengan cara ini kita dapat membandingkan model yang dibuat pada set data yang berbeda, misalnya mengevaluasi kinerja model lama vs model baru ketika data baru tersedia.
Erosennin
Sehubungan dengan 2. ada cara yang relatif mudah untuk mendapatkan derajat kebebasan model (meskipun dalam beberapa kasus mungkin cukup memakan waktu untuk menghitung, dalam banyak situasi umum ada jalan pintas); yang manak=sayay^sayaysaya; dalam arti langsung yang literal ini mengukur derajat kebebasan model untuk memperkirakan data. Lihat misalnya artikel JASA Ye tahun 1998 Anda. StasK menghubungkan ke referensi lengkap dalam jawaban ini misalnya. ...
ctd