Perhatikan tiga fenomena berikut.
Paradoks Stein: diberikan beberapa data dari distribusi normal multivariat dalam , rata-rata sampel bukan penaksir yang sangat baik dari rata-rata sebenarnya. Seseorang dapat memperoleh estimasi dengan kesalahan kuadrat rata-rata yang lebih rendah jika seseorang mengecilkan semua koordinat sampel rata-rata menuju nol [atau menuju rata-rata mereka, atau benar-benar menuju nilai apa pun, jika saya mengerti dengan benar].
NB: biasanya paradoks Stein dirumuskan dengan mempertimbangkan hanya satu titik data tunggal dari ; tolong perbaiki saya jika ini penting dan formulasi saya di atas tidak benar.
Regresi Ridge: diberikan beberapa variabel dependen dan beberapa variabel independen , regresi standar cenderung sesuai dengan data dan mengarah pada kinerja out-of-sampel yang buruk. Seseorang sering dapat mengurangi overfitting dengan mengecilkan ke nol: .
Efek acak dalam model bertingkat / campuran: diberi beberapa variabel dependen (misalnya tinggi siswa) yang tergantung pada beberapa prediktor kategori (misalnya id sekolah dan jenis kelamin siswa), orang sering disarankan untuk memperlakukan beberapa prediktor sebagai 'acak', yaitu menganggap bahwa tinggi rata-rata siswa di setiap sekolah berasal dari beberapa distribusi normal yang mendasarinya. Ini menghasilkan menyusut estimasi tinggi rata-rata per sekolah terhadap rata-rata global.
Saya merasa bahwa semua ini adalah berbagai aspek dari fenomena "penyusutan" yang sama, tetapi saya tidak yakin dan tentu saja tidak memiliki intuisi yang baik tentang hal itu. Jadi pertanyaan utama saya adalah: apakah memang ada kesamaan yang mendalam antara ketiga hal ini, atau apakah itu hanya kemiripan yang dangkal? Apa tema umum di sini? Apa intuisi yang benar tentang itu?
Selain itu, berikut adalah beberapa potongan puzzle yang tidak cocok untuk saya:
Dalam regresi ridge, tidak menyusut secara seragam; penyusutan ridge sebenarnya terkait dengan dekomposisi nilai singular , dengan arah varians rendah semakin menyusut (lihat misalnya Elemen Pembelajaran Statistik 3.4.1). Tetapi estimator James-Stein hanya mengambil mean sampel dan mengalikannya dengan satu faktor penskalaan. Bagaimana itu cocok?
Pembaruan: lihat Penaksir James-Stein dengan varians yang tidak sama dan misalnya di sini mengenai varian koefisien .
Sampel rata-rata optimal dalam dimensi di bawah 3. Apakah itu berarti bahwa ketika hanya ada satu atau dua prediktor dalam model regresi, regresi ridge akan selalu lebih buruk daripada kuadrat terkecil biasa? Sebenarnya, kalau dipikir-pikir, saya tidak bisa membayangkan situasi di 1D (yaitu sederhana, regresi non-multiple) di mana penyusutan ridge akan bermanfaat ...
Pembaruan: Tidak. Lihat Di bawah kondisi apa regresi ridge dapat memberikan peningkatan dibandingkan regresi kuadrat terkecil biasa?
Di sisi lain, mean sampel selalu suboptimal dalam dimensi di atas 3. Apakah itu berarti bahwa dengan lebih dari 3 prediktor, regresi ridge selalu lebih baik daripada OLS, bahkan jika semua prediktor tidak berkorelasi (ortogonal)? Biasanya regresi ridge dimotivasi oleh multikolinieritas dan kebutuhan untuk "menstabilkan" istilah.
Perbarui: Ya! Lihat utas yang sama seperti di atas.
Sering ada beberapa diskusi panas tentang apakah berbagai faktor dalam ANOVA harus dimasukkan sebagai efek tetap atau acak. Bukankah kita, dengan logika yang sama, selalu memperlakukan faktor sebagai acak jika memiliki lebih dari dua level (atau jika ada lebih dari dua faktor? Sekarang saya bingung)?
Memperbarui: ?
Pembaruan: Saya mendapat beberapa jawaban yang bagus, tetapi tidak ada yang memberikan gambaran besar, jadi saya akan membiarkan pertanyaan "terbuka". Saya bisa berjanji untuk memberikan hadiah setidaknya 100 poin untuk jawaban baru yang akan melampaui yang sudah ada. Saya kebanyakan mencari pandangan pemersatu yang bisa menjelaskan bagaimana fenomena umum susut memanifestasikan dirinya dalam berbagai konteks ini dan menunjukkan perbedaan utama di antara mereka.
sumber
Jawaban:
Koneksi antara estimator James-Stein dan regresi ridge
Mari menjadi vektor dari pengamatan panjang , , estimator James-Stein adalah, Dalam hal regresi ridge, kita dapat memperkirakan melalui mana solusinya adalah Mudah untuk melihat bahwa kedua estimator itu dalam bentuk yang sama, tetapi kita perlu memperkirakannyay θ m y∼N(θ,σ2I)
Koneksi antara penaksir James-Stein dan model efek acak
Mari kita bahas model efek campuran / acak dalam genetika terlebih dahulu. Modelnya adalah Jika tidak ada efek tetap dan , model menjadi yang setara dengan pengaturan estimator James-Stein, dengan beberapa Ide Bayesian.
Koneksi antara model efek acak dan regresi ridge
Jika kita fokus pada model efek acak di atas, Estimasi ini setara untuk menyelesaikan masalah ketika . Buktinya dapat ditemukan di Bab 3 Pengenalan Pola dan pembelajaran mesin .
Koneksi antara model efek acak (multilevel) dan genetika
Dalam model efek acak di atas, dimensi adalah dan adalah . Jika kita membuat vektor sebagai dan mengulangi bersamaan, maka kita memiliki struktur hierarkis / berkerumun, cluster dan masing-masing dengan unit . Jika kita mundur diulangi , maka kita dapat memperoleh efek acak pada untuk masing-masing cluster, meskipun itu seperti regresi terbalik.y m×1, Z m×p Z (mp)×1, y p m vec(Z) y Z y
Pengakuan : tiga poin pertama sebagian besar dipelajari dari dua artikel berbahasa Mandarin ini, 1 , 2 .
sumber
Saya akan meninggalkannya sebagai latihan bagi masyarakat untuk menyempurnakan jawaban ini, tetapi secara umum alasan mengapa estimator penyusutan akan * mendominasi * estimator yang tidak bias dalam sampel terbatas adalah karena Bayes estimator tidak dapat didominasi , dan banyak penaksir penyusutan dapat diturunkan sebagai Bayes.1 2 3 4
Semua ini berada di bawah naungan Teori Keputusan. Referensi lengkap, tetapi agak tidak ramah adalah "Teori estimasi titik" oleh Lehmann dan Casella. Mungkin orang lain bisa berpadu dengan referensi yang lebih ramah?
dan model efek acak muncul sebagai prosedur Bayesian empiris dalam kerangka kerja yang sama. Argumen-argumen ini diperumit oleh fakta bahwa versi vanilla dari teorema penerimaan Bayesian mengasumsikan bahwa setiap parameter memiliki hak sebelumnya yang ditempatkan di atasnya. Bahkan dalam regresi ridge, itu tidak benar, karena "prior" ditempatkan pada variancesumber
James-Stein mengasumsikan bahwa dimensi respons setidaknya 3. Dalam regresi ridge standar responsnya adalah satu dimensi. Anda mengacaukan jumlah prediktor dengan dimensi respons.
Yang sedang berkata, saya melihat kesamaan di antara situasi-situasi itu, tetapi apa yang harus dilakukan, misalnya apakah suatu faktor harus diperbaiki atau acak, berapa banyak penyusutan untuk diterapkan, jika sama sekali, tergantung pada dataset tertentu. Misalnya, semakin ortogonal prediktornya, semakin tidak masuk akal untuk memilih regresi Ridge daripada regresi standar. Semakin besar jumlah parameter, semakin masuk akal untuk mengekstrak sebelumnya dari dataset itu sendiri melalui Empirical Bayes dan kemudian menggunakannya untuk mengecilkan estimasi parameter. Semakin tinggi rasio signal-to-noise, semakin kecil manfaat penyusutan, dll.
sumber
Seperti yang dikatakan orang lain, hubungan antara ketiganya adalah bagaimana Anda memasukkan informasi sebelumnya ke dalam pengukuran.
Jadi singkatnya, jawabannya adalah Anda dapat mengecilkan ketidakpastian pengukuran jika Anda tahu apa yang diharapkan dan mengelompokkan data dengan beberapa data sebelumnya (informasi sebelumnya). Data sebelumnya inilah yang membatasi fungsi pemodelan Anda yang Anda gunakan agar sesuai dengan pengukuran. Dalam kasus-kasus sederhana, Anda dapat menuliskan model Anda dalam kerangka Bayesian, tetapi kadang-kadang tidak praktis, seperti dalam mengintegrasikan semua fungsi berkesinambungan yang mungkin untuk menemukan satu yang memiliki nilai Posterior Bayesian Maximal A Posterior.
sumber
Estimator James Stein dan regresi Ridge
Mempertimbangkan
Denganϵ∼N(0,σ2I)
Solusi kuadrat terkecil adalah dari bentuk
James Stein
Untuk kesederhanaan untuk Jame Stein kami akan menganggap . James dan Stein kemudian akan menambahkan prior pada , dari formulirS=I β
Dan akan mendapatkan posterior dari formulir , mereka kemudian akan memperkirakan dengan dan mendapatkan penduga bentuk James Steinaa+σ2β^=(1−σ2a+σ2)β^ 1a+σ2 p−2∥β^∥2
Regresi Punggung
Dalam regresi ridge biasanya standar (rata-rata 0, vairance 1 untuk setiap kolom ) sehingga parameter regresi dapat dibandingkan. Ketika ini adalah untuk .X X β=(β1,β2,…,βp) Sii=1 i=1,2,…,p
Perkiraan regresi ridge dari didefinisikan sebagai, , menjadiβ λ≥0
Bagaimana diturunkan ?? Penarikanβ^(λ)
Lalu kita dapatkan
Sama seperti estimasi regresi ridge . Jadi bentuk asli dari James Stein yang diberikan di sini mengambil dan .β^(λ) S=I a=σ2λ
sumber