Validasi silang (CV) dan statistik validasi silang umum (GCV)

23

Saya telah menemukan kemungkinan definisi yang bertentangan untuk statistik validasi silang (CV) dan untuk statistik validasi silang umum (GCV) yang terkait dengan model linier Y=Xβ+ε (dengan vektor kesalahan homoseksual yang normal ε ).

Di satu sisi, Golub, Heath & Wahba mendefinisikan estimasi GCV λ^ sebagai (hlm. 216)

minimizer dari V(λ) diberikan oleh

V(λ)=1n(IA(λ))y2(1ntr(IA(λ)))2
mana A(λ)=X(XTX+nλI)1XT

Di sisi lain, Efron mendefinisikan konsep yang sama dengan V(0) (hal. 24), namun ia menghubungkan pengenalan konsep ini dengan Craven & Wahba, di mana definisinya (hal. 377) pada dasarnya sama. seperti definisi Golub, Heath & Wahba yang disebutkan di atas.

Apakah ini berarti 0 meminimalkan V(λ) ?

Demikian pula, Golub, Heath & Wahba mendefinisikan estimasi CV λ (p. 217) sebagai minimizer dari

P(λ)=1nk=1n([Xβ(k)(λ)]kyk)2

di mana β(k)(λ) adalah taksiran

β^(λ)=(XTX+nλI)1XTy

dari β dengan titik data k y_i dihilangkan.kyi

Penulis menghubungkan pengenalan estimasi CV (juga disebut estimasi PRESS) ke Allen ("PRESS Allen", ibid.) Namun dalam makalah Allen, estimasi PRESS didefinisikan (hlm. 126) sebagai nP(0) (dalam artikel Efron didefinisikan sebagai P(0) (hlm. 24)).

Sekali lagi, apakah ini berarti 0 meminimalkan P(λ) ?


  1. Allen, David M. Hubungan Antara Seleksi Variabel dan Agumentasi Data dan Metode untuk Prediksi. Technometrics, Vol. 16, No. 1 (Februari, 1974), hlm. 125-127

  2. Craven, Peter dan Wahba, Grace. Menghaluskan Data Bising dengan Fungsi Spline. Numerische Mathematik 31, (1979), hlm. 377-403

  3. Efron, Bradley. Seberapa Bias Apakah Tingkat Kesalahan yang Jelas dari Regresi Logistik? Laporan teknis no. 232. Departemen Statistik, Universitas Stanford (April 1985)

  4. Golub, Gene H., Heath dan Grace Wahba. Validasi Lintas Umum sebagai Metode untuk Memilih Parameter Ridge yang Baik. Technometrics, Vol. 21, No. 2 (Mei, 1979), hlm. 215-223

Evan Aad
sumber
7
Apakah Anda lupa menyebutkan bahwa ini akan dilengkapi dengan regresi ridge dan kuadrat terkecil? Saya benar-benar bingung tentang apa itu sampai saya melihat judul kertas di bagian bawahλ
shadowtalker
1
Hapus Validasi Salib Umum dalam judul dan tambahkan Regresi Ridge pada judul. Berikut adalah default dari GridSearchCV () untuk RidgeCV ():
HoofarLotusX

Jawaban:

2

Saya percaya komentar menunjuk pada jawaban, tetapi tidak menyatakannya dengan terus terang. Jadi saya akan berterus terang.

Rumus V yang dikutip di sini khusus untuk regresi linear ridge. Mereka tidak mengatakan itu sama dengan PRESS, mereka mengatakan itu adalah versi PRESS rotasi-invarian. Bagian "rotasi-invarian" adalah apa yang membuat ini digeneralisasikan.

Makalah Efron adalah tentang regresi logistik, disesuaikan dengan konteks itu. Jika Anda ingin melihat terjemahan matematika antara dua konteks, buku yang tepat untuk dibaca adalah Elemen Pembelajaran Statistik, 2ed, oleh Hastie, Tibshirani, dan Freedman. Mereka menawarkan buku itu gratis, online: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Bacaan bermanfaat lainnya tentang GCV adalah Generalized Additive Models oleh Simon Wood. Perawatannya mengintegrasikan GCV secara umum dengan aplikasi dalam regresi dan regresi logistik.

Jika Anda melihat buku ESL, hal 244, pada dasarnya Anda melihat simbologi yang sama. Mereka merujuk pada produk matriks besar yang Anda miliki sebagai matriks Smoother (saya akan mengatakan itu adalah matriks Hat, atau sepupu dekat). Mereka menggambarkan Smoother sebagai pemetaan dari keSyyy^

y^=Sy

S dapat digunakan untuk menghitung meninggalkan satu nilai CV, satu untuk setiap baris dalam data. Untuk model linier , matriks berperan sebagai matriks Hat dalam diagnostik regresi. Namun, mereka mengatakan mungkin secara komputasi menantang atau tidak perlu untuk menyelesaikannya, dan pendekatan GCV adalah versi yang sedikit lebih umum dari ide yang sama.SS

Mereka menawarkan formula untuk perkiraan GCV:

GCV(f^)=1Ni=1N[yif^(xi)1trace(S)/N]2

Ini sangat mirip dalam perilaku dengan AIC di banyak model. The adalah jumlah efektif parameter.traceS

The sepotong Anda mengutip lebih umum jejak . Sejauh yang saya mengerti, dalam GCV abstrak adalah versi perkiraan meninggalkan satu crossvalidation, tetapi dalam beberapa kasus, (saya percaya regresi ridge), itu tepat. Itu poin utama dalam makalah Golub.nλS

Selamat mencoba, tulis kembali jika Anda tahu lebih banyak.

pauljohn32
sumber
Terima kasih. Saya telah memposting pertanyaan saya lebih dari 5 tahun yang lalu, dan sejak itu saya telah melupakan sebagian besar materi ini, jadi saya tidak dapat menilai jawaban Anda untuk mengetahui apakah itu baik (yang tampaknya) atau buruk, dan, karena alasan ini Saya juga tidak bisa menerimanya. Terima kasih sudah memposting. Semoga bermanfaat bagi orang lain yang mungkin menemukan halaman ini.
Evan Aad