AIC regresi ridge: derajat kebebasan vs jumlah parameter

13

Saya ingin menghitung AICc dari model regresi ridge. Masalahnya adalah jumlah parameter. Untuk regresi linier, kebanyakan orang menyarankan bahwa jumlah parameter sama dengan jumlah koefisien estimasi ditambah sigma (varian kesalahan).

Ketika datang ke regresi ridge saya membaca bahwa jejak matriks topi - derajat kebebasan (df) - hanya digunakan sebagai jumlah parameter istilah dalam rumus AIC (misalnya di sini atau di sini ).

Apakah ini benar? Bisakah saya juga menggunakan df untuk menghitung AICc? Bisakah saya menambahkan +1 ke df ke akun untuk varians kesalahan?

Julian
sumber
2
Saya suka pertanyaan ini karena input umum untuk AICc adalah RSS, k, dan n - tetapi cenderung tidak memilih model yang kuat daripada model kesalahan paling sedikit untuk jumlah parameter yang sama. Jika Anda menggunakan pendekatan kecocokan yang sama untuk model kandidat, dan Anda cocok pada data yang sama, maka pemilihan model adalah pemilihan model. Saya suka pertanyaan tentang bagaimana Anda mengukur informasi-teori paling cocok dengan model dan data yang sama, tetapi menggunakan berbagai jenis kecocokan seperti kesalahan kuadrat terkecil dan kehilangan Huber.
EngrStudent
3
@ EngrStudent, hanya sebuah catatan kecil: RSS adalah kasus khusus dari kemungkinan normal. Ketika distribusi (nonnormal) yang berbeda diasumsikan, AIC tidak akan mengandung RSS tetapi kemungkinan log-model. Juga, jenis yang sesuai : apakah maksud Anda fungsi kerugian dengan mana model dievaluasi atau fungsi kerugian digunakan untuk menyesuaikan model, atau yang lainnya?
Richard Hardy
1
@ RichardHardy - Anda benar tentang kemungkinan normal! Dalam praktiknya, teorema limit pusat menjadi terlalu digunakan. Dalam hal ini artinya sama ketika saya mengatakan "fit function" dan Anda mengatakan "loss function". Saya memikirkan kuadrat terkecil dalam hal pseudo-invers pertama dan metrik kesalahan kedua. Ini adalah artefak "urutan pembelajaran" dalam proses pemikiran dan komunikasi saya.
EngrStudent
1
@ EngrStudent, terima kasih. Juga perhatikan bahwa saya menawarkan dua kegunaan untuk fungsi kerugian: fitting (fungsi tujuan empiris dari mana estimator diturunkan) dan evaluasi (fungsi tujuan teoritis yang ingin kami optimalkan).
Richard Hardy

Jawaban:

4

AIC dan regresi ridge dapat dibuat kompatibel ketika asumsi tertentu dibuat. Namun, tidak ada metode tunggal untuk memilih penyusutan untuk regresi ridge sehingga tidak ada metode umum untuk menerapkan AIC. Regresi Ridge adalah bagian dari regularisasi Tikhonov . Ada banyak kriteria yang dapat diterapkan untuk memilih faktor perataan untuk regularisasi Tikhonov, misalnya, lihat ini . Untuk menggunakan AIC dalam konteks itu, ada makalah yang membuat asumsi yang agak spesifik tentang bagaimana melakukan regularisasi itu, pemilihan parameter regularisasi berbasis kompleksitas informasi untuk solusi dari masalah inversi yang terkondisi dengan buruk . Secara khusus, ini mengasumsikan

σ2p(x)=

b[SD(b)b]

GD(t;a,b)=1tebt(bt)aΓ(a);t0,

[0,)[t1,tn]sampel waktu. Untuk lebih jelasnya, itu dilakukan karena AUC adalah integral yang tidak tepat, dan, jika tidak, misalnya, menggunakan ML, distribusi gamma yang cocok akan kurang kokoh. Jadi, untuk aplikasi khusus itu, kemungkinan maksimum, dengan demikian AIC, sebenarnya tidak relevan. (Dikatakan bahwa AIC digunakan untuk prediksi dan BIC untuk good-of-fit. Namun, prediksi dan good-of-fit keduanya hanya agak tidak langsung terkait dengan ukuran AUC yang kuat.)

dfλdf=pλ=0df=0λ=dfdfdf

dfridge=(λi/(λi+λλiXTXdf

Carl
sumber