Ukuran kompleksitas model

19

Bagaimana kita membandingkan kompleksitas dua model dengan jumlah parameter yang sama?

Sunting 09/19 : Untuk memperjelas, kompleksitas model adalah ukuran seberapa sulitnya untuk belajar dari data yang terbatas. Ketika dua model cocok dengan data yang ada sama baiknya, model dengan kompleksitas yang lebih rendah akan memberikan kesalahan yang lebih rendah pada data masa depan. Ketika perkiraan digunakan, ini secara teknis mungkin tidak selalu benar, tetapi tidak apa-apa jika cenderung benar dalam praktiknya. Berbagai perkiraan memberikan ukuran kompleksitas yang berbeda

Yaroslav Bulatov
sumber
dapatkah Anda memberikan informasi lebih lanjut tentang atribut apa yang tersedia tentang model?
shabbychef
Ini semacam pertanyaan terbuka, jadi pertanyaan saya adalah - atribut seperti apa yang saya butuhkan untuk dapat mengukur kompleksitas? Pada tingkat paling dasar, model probabilitas adalah serangkaian distribusi probabilitas, dan saya menyesuaikan model dengan data dengan memilih anggota yang paling pas
Yaroslav Bulatov
3
Apa tepatnya "kompleksitas" itu? (Ini bukan pertanyaan sembrono!) Dengan tidak adanya definisi formal, kita tidak dapat berharap untuk membuat perbandingan yang valid dari sesuatu.
whuber
Itulah yang saya tanyakan pada dasarnya
Yaroslav Bulatov
2
Tapi tidak bisakah Anda setidaknya memberi kami petunjuk tentang aspek model apa yang Anda coba tangkap dalam kata "kompleksitas"? Tanpa itu, pertanyaan ini hanya ambigu untuk mengakui satu jawaban yang masuk akal.
whuber

Jawaban:

12

Selain berbagai ukuran Panjang Deskripsi Minimum (misalnya, kemungkinan maksimum yang dinormalisasi, perkiraan Informasi Fisher), ada dua metode lain yang layak disebutkan:

  1. Bootstrap parametrik . Jauh lebih mudah diimplementasikan daripada tindakan MDL yang menuntut. Makalah yang bagus ditulis oleh Wagenmaker dan koleganya:
    Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Menilai model mimikri menggunakan bootstrap parametrik . Jurnal Psikologi Matematika , 48, 28-50.
    Abstrak:

    Kami menyajikan prosedur pengambilan sampel umum untuk mengukur model mimikri, yang didefinisikan sebagai kemampuan model untuk menghitung data yang dihasilkan oleh model yang bersaing. Prosedur pengambilan sampel ini, yang disebut metode cross-fitting bootstrap parametrik (PBCM; lih. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrik 26 (1970) 23)), menghasilkan distribusi perbedaan dalam good-of-fit. diharapkan di bawah masing-masing model yang bersaing. Dalam versi data yang diinformasikan dari PBCM, model pembangkit memiliki nilai parameter spesifik yang diperoleh dengan menyesuaikan data eksperimen yang sedang dipertimbangkan. Distribusi perbedaan informasi yang diinformasikan dapat dibandingkan dengan perbedaan yang diamati dalam good-of-fit untuk memungkinkan kuantifikasi kecukupan model. Dalam data versi PBCM yang tidak diinformasikan, model pembangkit memiliki rentang nilai parameter yang relatif luas berdasarkan pengetahuan sebelumnya. Aplikasi data yang diinformasikan dan data yang tidak diinformasikan PBCM diilustrasikan dengan beberapa contoh.

    Pembaruan: Menilai model mimikri dalam bahasa Inggris sederhana. Anda mengambil salah satu dari dua model yang bersaing dan secara acak memilih satu set parameter untuk model itu (baik data diinformasikan atau tidak). Kemudian, Anda menghasilkan data dari model ini dengan set parameter yang dipilih. Selanjutnya, Anda membiarkan kedua model sesuai dengan data yang dihasilkan dan memeriksa yang mana dari dua model kandidat yang memberikan kecocokan yang lebih baik. Jika kedua model sama-sama fleksibel atau rumit, model dari mana Anda menghasilkan data harus memberikan kecocokan yang lebih baik. Namun, jika model lain lebih kompleks, itu bisa memberikan kecocokan yang lebih baik, meskipun data dihasilkan dari model lain. Anda ulangi ini beberapa kali dengan kedua model (yaitu, biarkan kedua model menghasilkan data dan lihat mana di antara keduanya yang lebih cocok). Model yang "overfits" data yang dihasilkan oleh model lain adalah yang lebih kompleks.

  2. Validasi Lintas : Ini juga cukup mudah diimplementasikan. Lihat jawaban untuk pertanyaan ini . Namun, perhatikan bahwa masalah dengan itu adalah bahwa pilihan di antara aturan pemotongan sampel (biarkan-keluar-satu, K-lipat, dll) adalah yang tidak berprinsip.

Henrik
sumber
Saya tidak benar-benar mengerti "model mimikri", tetapi validasi silang tampaknya hanya menunda tugas menilai kompleksitas. Jika Anda menggunakan data untuk memilih parameter dan model Anda seperti dalam cross-validation, pertanyaan yang relevan menjadi bagaimana memperkirakan jumlah data yang diperlukan untuk "meta" ini - pengolah untuk bekerja dengan baik
Yaroslav Bulatov
@Yaroslaw: Saya tidak benar-benar memahami masalah Anda dengan validasi silang, tetapi sejujurnya saya bukan ahli di sana. Namun, saya benar-benar ingin membuat titik untuk mengukur mimikri model. Karena itu, lihat jawaban saya yang diperbarui.
Henrik
4

Saya pikir itu akan tergantung pada prosedur pemasangan model yang sebenarnya. Untuk ukuran yang berlaku secara umum, Anda dapat mempertimbangkan Generalized Degrees of Freedom yang dijelaskan dalam Ye 1998 - pada dasarnya sensitivitas perubahan estimasi model terhadap gangguan pengamatan - yang berfungsi dengan baik sebagai ukuran kompleksitas model.

ars
sumber
Hm ... makalah ini tentang regresi, saya ingin tahu apakah ini dapat digunakan untuk estimasi probabilitas diskrit. Juga, saya tidak benar-benar memahami motivasi yang dia berikan untuk itu - gdf adalah tingkat sensitivitas parameter terhadap perubahan kecil dalam data, tetapi mengapa itu penting? Saya dapat memilih parameterisasi yang berbeda di mana perubahan kecil dalam parameter pada parameterisasi asli berhubungan dengan perubahan besar pada parameterisasi baru, sehingga akan tampak lebih sensitif terhadap data, tetapi ini adalah model yang sama
Yaroslav Bulatov
Yaroslav:> * Saya bisa memilih parameterisasi yang berbeda di mana perubahan kecil dalam parameter pada parameterisasi asli berhubungan dengan perubahan besar pada parameterisasi baru, sehingga akan tampak lebih sensitif terhadap data * dapatkah Anda memberikan contoh (melibatkan penduga ekuivalen affine)? Terima kasih,
user603
1
DoF dalam regresi linier bekerja dengan jejak matriks topi atau jumlah sensitivitas - sehingga motivasi / konsep tidak terlalu jauh. Tibshirani & Knight mengusulkan Kriteria Inflasi Kovarian yang melihat kovariansi estimasi model alih-alih sensitivitas. GDF tampaknya telah diterapkan dalam sejumlah prosedur model seperti gerobak dan wavelet threshold (makalah Ye tentang pemilihan model adaptif memiliki lebih banyak detail), dan dalam metode ensemble untuk mengendalikan kompleksitas, tetapi saya tidak tahu adanya kasus estimasi diskrit. Mungkin patut dicoba ...
ars
Tidak tahu tentang "penduga ekuivalen affine", tetapi anggaplah kita mengandalkan penduga kemungkinan maksimum. Misalkan q = f (p) di mana f adalah suatu penambangan. Misalkan p0, q0 mewakili estimasi MLE dalam parameterisasi yang sesuai. p0, q0 akan memiliki varian asimptotik yang berbeda, tetapi dalam hal pemodelan data, mereka setara. Jadi pertanyaannya adalah - di mana parameterisasi adalah sensitivitas parameter yang mewakili risiko yang diharapkan?
Yaroslav Bulatov
4

Minimum Deskripsi Panjang (MDL) dan Panjang Pesan Minimum (MML) tentu saja layak untuk dicoba.

Sejauh MDL yang bersangkutan, makalah sederhana yang menggambarkan prosedur Normalized Maximum Likelihood (NML) serta perkiraan asimptotik adalah:

S. de Rooij & P. ​​Grünwald. Sebuah studi empiris pemilihan model panjang deskripsi minimum dengan kompleksitas parametrik tak terbatas. Jurnal Psikologi Matematika, 2006, 50, 180-192

Di sini, mereka melihat kompleksitas model distribusi Geometrik vs. Poisson. Tutorial MDL yang luar biasa (gratis) dapat ditemukan di sini .

Atau, makalah tentang kompleksitas distribusi eksponensial yang diperiksa dengan MML dan MDL dapat ditemukan di sini . Sayangnya, tidak ada tutorial terbaru tentang MML, tetapi buku ini adalah referensi yang sangat baik, dan sangat dianjurkan.

emakalic
sumber
1
Saya telah membaca makalah itu dan sepertinya Stochastic Complexity memperbaiki masalah karena tidak dapat membedakan antara model-model dengan dimensi yang sama, tetapi memperkenalkan masalah yang terkadang tidak dapat membedakan antara model-model dari dimensi yang berbeda. Distribusi geometrik diberikan kompleksitas yang tak terbatas, tentu bukan yang kita harapkan untuk model yang begitu sederhana!
Yaroslav Bulatov
Poin yang sangat baik tentang kompleksitas stokastik tak terbatas (SC). Solusi untuk masalah SC tak terbatas ada, tetapi tidak terlalu elegan; Renormalisasi Rissanen bekerja dengan baik dalam model linier, tetapi tidak mudah dilakukan untuk masalah Poisson / Geometrik. Pengkodean MML (atau SMML) data Poisson / Geometrik baik-baik saja.
emakalic
3

Minimum Deskripsi Panjang mungkin merupakan jalan yang layak dikejar.

S. Kolassa - Reinstate Monica
sumber
2
Hanya sebuah catatan singkat: panjang deskripsi minimum sangat kuat dan berguna, tetapi butuh waktu lama untuk mendapatkan hasil, terutama ketika menggunakan kemungkinan maksimum yang dinormalisasi dengan set data yang lebih besar. Saya pernah mengambil 10 hari menjalankan kode FORTRAN untuk mendapatkannya hanya untuk satu model
Dave Kellen
2

Yang dimaksud dengan "kompleksitas model" biasanya berarti kekayaan ruang model. Perhatikan bahwa definisi ini tidak tergantung pada data. Untuk model linier, kekayaan ruang model diukur secara sepele dengan berkurangnya ruang. Inilah yang oleh beberapa penulis disebut "derajat kebebasan" (walaupun secara historis, derajat kebebasan disediakan untuk perbedaan antara ruang model dan ruang sampel). Untuk model non linier, mengukur kekayaan ruang kurang sepele. Derajat Kebebasan Umum (lihat jawaban ars) adalah ukuran yang demikian. Ini memang sangat umum dan dapat digunakan untuk ruang model "aneh" seperti pohon, KNN, dan sejenisnya. The Dimensi VC adalah ukuran lain.

Seperti disebutkan di atas, definisi "kompleksitas" ini adalah data yang independen. Jadi dua model dengan jumlah parameter yang sama biasanya akan memiliki "kompleksitas" yang sama.

JohnRos
sumber
1

Dari komentar Yaroslav hingga jawaban Henrik:

tetapi validasi silang tampaknya hanya menunda tugas menilai kompleksitas. Jika Anda menggunakan data untuk memilih parameter Anda dan model Anda seperti dalam cross-validation, pertanyaan yang relevan menjadi bagaimana memperkirakan jumlah data yang diperlukan untuk "meta" ini - pengolah untuk bekerja dengan baik

kkkCV(k)kk

Anda bahkan dapat memberikan rasa 'signifikansi' untuk ini karena hasil prosedur secara langsung dalam hal (unit) perbedaan keluar dari kesalahan peramalan sampel.

pengguna603
sumber
1
Saya setuju bahwa Cross Validation memecahkan masalah pengukuran kompleksitas model. Mungkin saya mengajukan pertanyaan yang salah, karena pertanyaan praktis adalah kompleksitas sampel dari prosedur pemasangan. Pelajar yang divalidasi silang akan mencoba model yang berbeda dan memilih yang memiliki kesalahan validasi silang terendah. Sekarang pertanyaannya adalah - apakah pelajar ini lebih cenderung untuk berpakaian lebih dari satu yang cocok dengan model tunggal dengan kemungkinan maksimum?
Yaroslav Bulatov
Yaroslav Bulatov:> ya, tetapi Anda hanya bisa menggunakan ML untuk membandingkan model bersarang. Sejauh yang Anda tentukan (dalam pertanyaan Anda) menyebutkan model dengan jumlah parameter yang sama, maka mereka tidak dapat disarangkan.
user603
Masalah lain adalah bahwa validasi silang tidak menambah pemahaman kita tentang kompleksitas model. Ukuran seperti AIC / BIC memperjelas bahwa banyak parameter mendorong overfitting. Sekarang pertanyaannya menjadi - aspek model apa selain dimensi yang meningkatkan kapasitas untuk berpakaian?
Yaroslav Bulatov
Yaroslav:> Sekali lagi, poin yang sangat bagus.
user603
Jika overfitting adalah kecenderungan prosedur pemasangan model yang sesuai dengan noise selain sinyal, maka kita dapat melihat prosedur yang diberikan untuk melihat di mana kecenderungan tersebut dapat muncul. Mungkin karena kurangnya imajinasi atau pengetahuan, sementara mempertimbangkan beberapa prosedur yang berbeda, saya tidak bisa merinci ini menjadi sesuatu yang tidak dapat dinyatakan kembali sebagai "jumlah parameter" (atau "jumlah parameter efektif"). Kita bisa membalikkan ini dan bertanya: semuanya sama, apa yang terjadi ketika kita memperkenalkan noise ke data kita? Kemudian kita sampai pada langkah-langkah seperti Ye's GDF.
ars
0

Bagaimana dengan kriteria informasi untuk perbandingan model? Lihat misalnya http://en.wikipedia.org/wiki/Akaike_information_criterion

Kompleksitas model di sini adalah jumlah parameter dari model.

Brause42
sumber
AIC bukan ukuran kompleksitas model.
Sven Hohenstein
@Venvenohenstein, dari kalimat terakhirnya, saya berpendapat bahwa dia tidak menyarankan bahwa AIC itu sendiri , adalah ukuran kompleksitas model. Brause42, perhatikan bahwa pertanyaan secara khusus menanyakan tentang model dengan jumlah parameter yang sama. Dengan demikian, AIC akan berkurang menjadi SSE atau penyimpangan, atau apa pun.
gung - Reinstate Monica