Bagaimana validitas empiris Bayes?

24

Jadi saya baru saja selesai membaca buku besar Pengantar Empiris Bayes . Saya pikir buku itu hebat, tetapi membangun data dari data terasa salah. Saya dilatih bahwa Anda membuat rencana analisis lalu mengumpulkan data, lalu menguji hipotesis yang sebelumnya Anda tentukan dalam rencana analisis Anda. Ketika Anda melakukan analisis pada data yang telah dikumpulkan ini menempatkan Anda ke dalam inferensi selektif di mana Anda harus jauh lebih ketat pada apa yang Anda sebut "signifikan", lihat di sini . Saya pikir pembelajaran mesin memiliki sesuatu yang analog yang disebut "memetik ceri" yang berarti memilih prediktor sebelum membuat tes dan set pelatihan ( Pengantar Pembelajaran Statistik ).

Mengingat apa yang telah saya pelajari sebelumnya, bagi saya tampaknya bahwa Bayes empiris didasarkan pada fondasi yang lemah. Apakah orang menggunakannya hanya dalam pengaturan di mana data dihasilkan secara pasif? Jika demikian, ini mungkin dapat dibenarkan, tetapi tampaknya tidak benar untuk menggunakannya ketika melakukan desain eksperimental yang ketat, namun saya tahu bahwa Brad Efron menggunakan Bayes empiris khusus untuk Biostatistics, umumnya bidang yang sangat NHST.

Pertanyaan saya adalah:

  1. Bagaimana validitas empiris Bayes?
  2. Dalam situasi apa ini digunakan?
  3. Dalam situasi apa Anda harus menghindari menggunakan pendekatan Bayes empiris dan mengapa?
  4. Apakah orang menggunakannya di bidang selain Biostatistik dan jika demikian, dalam situasi apa mereka menggunakannya?
Alex
sumber
1
Apa yang dimaksud dengan "valid"? Menurut Bayesian, yang sudah meninggal, Bayesian, DV Lindley, “Tidak ada yang lebih rendah daripada Bayesian empiris”.
Mark L. Stone

Jawaban:

16

Saya pikir penting untuk diingat bahwa metode yang berbeda baik untuk hal yang berbeda, dan pengujian signifikansi tidak semua ada di dunia statistik.

1 dan 3) EB mungkin bukan prosedur pengujian hipotesis yang valid, tetapi juga tidak dimaksudkan.

Validitas bisa menjadi banyak hal, tetapi Anda berbicara tentang Desain Eksperimental yang Ketat sehingga kami mungkin mendiskusikan tes hipotesis yang seharusnya membantu Anda membuat keputusan yang tepat dengan frekuensi jangka panjang tertentu. Ini adalah rezim ya / tidak tipe dikotomis ketat yang sebagian besar berguna bagi orang-orang yang harus membuat keputusan ya / tidak-jenis. Ada banyak karya klasik tentang hal ini oleh orang-orang yang sangat pintar. Metode ini memiliki validitas teoretis yang bagus dalam batas dengan asumsi bahwa semua asumsi Anda berlaku, & c. Namun, EB tentu tidak dimaksudkan untuk ini. Jika Anda ingin mesin metode NHST klasik, tetap berpegang pada metode NHST klasik.


2) EB paling baik diterapkan dalam masalah di mana Anda memperkirakan banyak jumlah variabel yang serupa.

Efron sendiri membuka bukunya Inferensi Skala Besar yang mencantumkan tiga era yang berbeda dari sejarah statistik, menunjukkan bahwa kita saat ini sedang dalam

[era] produksi massal ilmiah, di mana teknologi baru yang ditandai oleh microarray memungkinkan satu tim ilmuwan untuk menghasilkan kumpulan data dengan ukuran yang akan membuat iri Queletelet. Tetapi sekarang banjir data disertai dengan banjir pertanyaan, mungkin ribuan perkiraan atau tes hipotesis yang dituntut ahli statistik untuk dijawab bersama; sama sekali tidak apa yang ada dalam pikiran para master klasik.

Dia melanjutkan:

Secara alami, argumen Bayes empiris menggabungkan elemen frequentist dan Bayesian dalam menganalisis masalah struktur berulang. Struktur berulang adalah keunggulan produksi massal ilmiah, misalnya, tingkat ekspresi yang membandingkan subjek yang sakit dan sehat untuk ribuan gen pada saat yang sama melalui microarray.

Mungkin aplikasi EB terbaru yang paling sukses adalah limma, tersedia di Bioconductor . Ini adalah paket-R dengan metode untuk menilai ekspresi diferensial (yaitu microarray) antara dua kelompok studi di puluhan ribu gen. Smyth menunjukkan metode EB mereka menghasilkan t-statistik dengan derajat kebebasan lebih banyak daripada jika Anda menghitung statistik t-gen biasa. Penggunaan EB di sini "sama dengan penyusutan dari varians sampel yang diestimasikan ke perkiraan yang dikumpulkan, menghasilkan inferensi yang jauh lebih stabil ketika jumlah array kecil," yang sering terjadi.

Seperti yang ditunjukkan Efron di atas, ini tidak seperti apa yang dikembangkan untuk NHST klasik, dan pengaturannya biasanya lebih bersifat eksplorasi daripada konfirmasi.


4) Secara umum Anda dapat melihat EB sebagai metode penyusutan, dan itu bisa berguna di mana-mana penyusutan berguna

The limmacontoh di atas menyebutkan penyusutan. Charles Stein memberi kami hasil yang menakjubkan bahwa ketika memperkirakan sarana untuk tiga hal atau lebih, ada estimator yang lebih baik daripada menggunakan sarana yang diamati, . Estimator James-Stein memiliki bentuk dengan dan sebuah konstanta. Estimator ini mengecilkan rata-rata yang diamati menuju nol, dan lebih baik daripada menggunakan dalam arti kuat risiko yang lebih rendah secara seragam.X1,...,Xkθ^sayaJS=(1-c/S2)Xsaya,S2=j=1kXj,cXsaya

Efron dan Morris menunjukkan hasil yang sama untuk menyusut ke arah rata-rata gabungan dan ini adalah perkiraan EB cenderung. Di bawah ini adalah contoh saya membuat penyusutan angka kejahatan di berbagai kota dengan metode EB. Seperti yang Anda lihat, perkiraan yang lebih ekstrem akan menyusut dari jarak yang cukup jauh ke tengah. Kota-kota kecil, di mana kita dapat mengharapkan lebih banyak varian, menerima penyusutan yang lebih berat. Titik hitam mewakili kota besar, yang pada dasarnya tidak mengalami penyusutan. Saya memiliki beberapa simulasi yang menunjukkan bahwa perkiraan ini memang memiliki risiko lebih rendah daripada menggunakan tingkat kejahatan MLE yang diamati.X¯,

penyusutan

Semakin mirip jumlah yang diestimasi, semakin besar kemungkinan penyusutan berguna. Buku yang Anda rujuk menggunakan hit rate dalam baseball. Morris (1983) menunjuk ke beberapa aplikasi lain:

  • Pembagian pendapatan --- biro sensus. Perkiraan pendapatan sensus per kapita untuk beberapa daerah.
  • Jaminan kualitas --- Bell Labs. Memperkirakan jumlah kegagalan untuk periode waktu yang berbeda.
  • Pembuatan tarif asuransi. Estimasi risiko per eksposur untuk kelompok tertanggung atau untuk wilayah yang berbeda.
  • Penerimaan sekolah hukum. Perkirakan bobot untuk skor LSAT relatif terhadap IPK untuk sekolah yang berbeda.
  • Alarm kebakaran --- NYC. Memperkirakan tingkat alarm palsu untuk lokasi kotak alarm yang berbeda.

Ini semua adalah masalah estimasi paralel dan sejauh yang saya tahu mereka lebih banyak tentang membuat prediksi yang baik tentang apa jumlah tertentu daripada tentang mencari tahu ya / tidak keputusan.


Beberapa referensi

  • Efron, B. (2012). Inferensi skala besar: metode Bayes empiris untuk estimasi, pengujian, dan prediksi (Vol. 1). Cambridge University Press. Chicago
  • Efron, B., & Morris, C. (1973). Aturan estimasi Stein dan kompetitornya — pendekatan Bayes empiris. Jurnal Asosiasi Statistik Amerika, 68 (341), 117-130. Chicago
  • James, W., & Stein, C. (1961, Juni). Estimasi dengan kerugian kuadratik. Dalam Prosiding simposium Berkeley keempat pada statistik matematika dan probabilitas (Vol. 1, No. 1961, hlm. 361-379). Chicago
  • Morris, CN (1983). Inferensi parametrik Bayes empiris: teori dan aplikasi. Jurnal Asosiasi Statistik Amerika, 78 (381), 47-55.
  • Smyth, GK (2004). Model linear dan metode Bayes empiris untuk menilai ekspresi diferensial dalam eksperimen microarray. Aplikasi Statistik dalam Genetika dan Biologi Molekuler Volume 3, Edisi 1, Pasal 3.
Einar
sumber