Berpikirlah seperti bayesian, periksa seperti yang sering: Apa artinya itu?

35

Saya sedang melihat beberapa slide kuliah tentang kursus ilmu data yang dapat ditemukan di sini:

https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf

Sayangnya, saya tidak dapat melihat video untuk ceramah ini dan pada satu titik di slide, presenter memiliki teks berikut:

Beberapa Prinsip Utama

Berpikir seperti orang Bayesian, periksa seperti seorang Frequentist (rekonsiliasi)

Adakah yang tahu apa artinya itu? Saya merasa ada wawasan yang baik tentang dua aliran pemikiran yang dikumpulkan dari ini.

bayesian data-mining frequentist Luca
sumber

2

Pikirkan itu mungkin berkaitan dengan pengecekan model: lihat Mengapa seorang Bayesian tidak diizinkan untuk melihat residunya? .

Scortchi

@Scortchi Dari apa yang saya kumpulkan, apakah ini tidak ada hubungannya dengan pemisahan pelatihan, validasi dan set data uji dengan cara atau mungkin Bayesian tidak diperbolehkan untuk menyesuaikan prior bahkan selama fase pelatihan model (untuk menggunakan istilah ML sini). Namun, saya masih bingung apa artinya dengan cek seperti orang yang sering ...

Luca

1

Bayesian yang "benar" tidak pernah menyesuaikan prior mereka, tetapi hanya memperbarui mereka berdasarkan informasi baru menggunakan Teorema Bayes. Tapi saya hanya menebak apa "prinsip utama" ini tentang.

Scortchi

4

Saya tidak dapat memuat tautan. Dugaan saya adalah bahwa itu berarti bahkan jika Anda menggunakan metode Bayesian, Anda harus peduli tentang karakteristik operasi Frequentist: jika Anda menghasilkan interval kredibel 95% yang sangat ketat, tetapi dalam praktiknya menutupi parameter bunga yang sebenarnya 20% dari waktu, haruskah kamu khawatir? Orang Bayesian yang terlalu kaku mungkin mengatakan "tidak" (tetapi sangat sedikit orang Bayesian yang memiliki kekakuan seperti itu).

Cliff AB

3

Melihat ke depan ke slide masa depan, mereka mendukung Bayes empiris. Ini dapat dilihat pada set slide

Cliff AB

32

Perbedaan utama antara aliran statistik Bayesian dan frequentist muncul karena perbedaan dalam interpretasi probabilitas. Probabilitas Bayesian adalah pernyataan tentang keyakinan pribadi bahwa suatu peristiwa akan (atau telah) terjadi. Probabilitas frequentist adalah pernyataan tentang proporsi peristiwa serupa yang terjadi dalam batas seiring dengan meningkatnya jumlah peristiwa tersebut.

Bagi saya, "berpikir seperti seorang Bayesian" berarti memperbarui kepercayaan pribadi Anda ketika informasi baru muncul dan "memeriksa [atau khawatir] seperti seorang yang sering" berarti peduli dengan kinerja prosedur statistik yang dikumpulkan sepanjang waktu prosedur tersebut digunakan, mis. apa cakupan interval yang kredibel, berapa tingkat kesalahan Tipe I / II, dll.

jaradniemi
sumber

1

Terima kasih atas jawaban Anda. Ringkas dan efektif bahkan untuk orang awam seperti saya!

Luca

2

Apakah tidak mungkin untuk memeriksa atau khawatir seperti orang Bayesian dengan menyelidiki pengaruh prior atau menggunakan yang tidak informatif? Apakah ini hanya berlaku untuk analisis berurutan? Ada banyak pekerjaan tentang di mana statistik Bayesian dan Frequentist bersinggungan dengan analisis sekuensial, "memperbarui kepercayaan" tidak penting, dan statistik seqeuensial dapat dibuat ketat dalam pengaturan yang sering terjadi.

AdamO

1

Ya, Anda bisa khawatir seperti orang Bayes, misalnya menyelidiki pengaruh yang Anda alami sebelumnya. Tidak, jawaban saya tidak hanya berlaku untuk analisis sekuensial, yaitu informasi baru dapat muncul sekaligus.

jaradniemi

15

Statistik Bayesian merangkum kepercayaan sedangkan statistik frequentist merangkum bukti. Orang Bayesian memandang probabilitas sebagai tingkat kepercayaan. Jenis penalaran inklusif dan generatif ini berguna untuk merumuskan hipotesis. Sebagai contoh, Bayesian mungkin dapat secara sewenang-wenang menetapkan beberapa kemungkinan pada anggapan bahwa bulan terbuat dari keju hijau, terlepas dari apakah para astronot benar-benar dapat melakukan perjalanan ke sana untuk memverifikasi ini. Hipotesis ini mungkin didukung oleh gagasan bahwa, dari jauh, bulan terlihatseperti keju hijau. Frequentists tidak dapat secara tunggal memahami hipotesis yang lebih dari sekedar kesalahan, dan mereka juga tidak bisa mengatakan bukti lebih mendukung satu hipotesis daripada hipotesis lainnya. Bahkan kemungkinan maksimum hanya menghasilkan statistik yang "paling konsisten dengan apa yang diamati". Secara formal, statistik Bayesian memungkinkan kita untuk berpikir di luar kotak dan mengusulkan ide-ide yang dapat dipertahankan dari data. Tapi ini sifatnya hipotesis murni.

Statistik Frequentist paling baik diterapkan untuk mengkonfirmasi hipotesis. Ketika percobaan dilakukan dengan baik, statistik frequentist memberikan konteks "pengamat independen" atau "empiris" untuk temuan dengan menghindari prior. Ini konsisten dengan filosofi sains Karl Popper. Poin bukti bukanlah untuk menyebarluaskan ide tertentu. Banyak bukti konsisten dengan hipotesis yang salah. Bukti hanya bisa memalsukan kepercayaan.

Pengaruh prior biasanya dianggap sebagai bias dalam penalaran statistik. Seperti yang Anda ketahui, kami dapat membuat sejumlah besar alasan mengapa hal-hal terjadi. Secara psikologis, banyak orang percaya bahwa bias pengamat kita adalah hasil dari prior di otak kita yang membuat kita tidak benar-benar menimbang apa yang kita lihat. "Harapan mengaburkan pengamatan" seperti yang dikatakan Bunda Suci di Dune. Popper membuat gagasan ini keras.

Ini memiliki sejarah penting dalam beberapa percobaan ilmiah terbesar di zaman kita. Misalnya, John Snow dengan cermat mengumpulkan bukti untuk epidemi Kolera dan menyimpulkan dengan tepat bahwa Kolera tidak disebabkan oleh perampasan moral, dan menunjukkan bahwa bukti tersebut sangat konsisten dengan kontaminasi limbah: perhatikan dia tidak menyimpulkanini, temuan Snow mendahului penemuan bakteri, dan tidak ada pemahaman mekanistik atau etiologis. Wacana serupa ditemukan dalam Origin of Species. Kami tidak benar-benar tahu apakah bulan terbuat dari keju hijau sampai para astronot benar-benar mendarat di permukaan dan mengumpulkan sampel. Pada saat itu, para pengrajin Bayesian telah menetapkan probabilitas yang sangat, sangat rendah untuk kemungkinan lain, dan Frequentists paling-paling dapat mengatakan bahwa sampel sangat tidak konsisten dengan apa pun kecuali debu bulan.

Singkatnya, statistik Bayes dapat menerima hipotesis dan statistik frequentist setuju dengan konfirmasi hipotesis. Memastikan bahwa data dikumpulkan secara independen dalam upaya ini adalah salah satu tantangan terbesar yang dihadapi oleh ahli statistik modern.

AdamO
sumber

1

Terima kasih atas jawabannya. Apa maksudmu saat mengatakannya Plenty of evidence is consistent with incorrect hypotheses?

Luca

2

@ Luca Contoh statistik umum dapat ditemukan dalam perancu. Sebagai contoh, saya bisa mengatakan, "Merokok memberi fungsi paru-paru yang lebih baik bagi remaja". Saya bisa melangkah lebih jauh untuk merasionalisasi ini dengan mengatakan bahwa merokok adalah stimulan yang mendorong aktivitas fisik yang lebih baik, nafsu makan yang lebih sehat, dan mendorong sosialisasi yang sehat. Jika saya mengumpulkan data, mereka akan menunjukkan bahwa remaja yang merokok memiliki fungsi paru-paru yang lebih baik. Kesimpulan asosiatif benar, tetapi kausal salah. Hubungannya dikacaukan oleh usia, karena anak-anak yang lebih besar cenderung merokok.

AdamO

Terima kasih! Saya telah belajar banyak dari jawaban yang ditulis dengan sangat baik ini.

Luca

5

Per Cliff ABkomentar pada OP, sepertinya mereka sedang menuju filosofi Bayesian Empiris. Ada tiga aliran pemikiran Bayesian utama, dan Empirical Bayes memperkirakan prior dari data, seringkali dengan metode frequentist. Itu tidak persis sesuai dengan kutipan (yang menyiratkan Bayes di muka, seperti kekhawatiran sering setelah itu), tetapi kita tidak boleh mengabaikan Cliff ABkomentar yang sangat baik.

Juga, ada, dan mungkin masih, sekolah Bayesian berpikir bahwa Anda tidak perlu memeriksa apa pun setelah prosedur Bayesian. Pemikiran yang lebih modern akan menggunakan pemeriksaan prediktif posterior, dan mungkin pendekatan periksa-jawaban-Anda semacam itulah yang dimaksud kutipan tersebut.

Juga, filosofi frequentist lebih mementingkan prosedur daripada kesimpulan dari data. Jadi mungkin itu juga petunjuk tentang arti kutipan.

Wayne
sumber

Saya pikir Anda merujuk pada komentar pertama saya, dan komentar kedua saya adalah bahwa setelah pemeriksaan lebih dekat, Anda benar bahwa mereka sangat spesifik merujuk ke Empiris Bayes. Saya benar-benar kecewa bahwa kutipan itu hanyalah sebuah dukungan dari Empirical Bayes daripada panggilan yang lebih umum untuk mempertimbangkan keuntungan dari kedua aliran pemikiran tersebut. Baiklah.

Cliff AB

2

Dalam konteks kelas ilmu data ini, interpretasi saya tentang "periksa seperti sering" adalah bahwa Anda mengevaluasi kinerja fungsi prediksi Anda atau fungsi keputusan pada data validasi yang diulurkan. Saran untuk "berpikir seperti seorang Bayesian" menyatakan pendapat bahwa fungsi prediksi yang berasal dari pendekatan Bayesian umumnya akan memberikan hasil yang baik.

DavidR
sumber

(bermain advokat Iblis :) Mengapa pendekatan Bayesian memberi "hasil yang baik" dan sering tidak?

Tim

Metode Bayesian bersifat preskriptif tentang pendekatan tersebut. Statistik Frequentist dapat dilihat sebagai bagian dari teori keputusan, dan memberikan kerangka kerja untuk mengevaluasi fungsi keputusan apa pun (baik berdasarkan Bayesian atau prinsip sering). Metode tertentu, seperti metode kemungkinan maksimum, sering digunakan dalam konteks frequentist karena mereka memiliki sifat frequentist yang baik (misalnya mereka melakukan hal yang benar, dan mereka sampai di sana lebih cepat daripada kebanyakan metode lain). Metode Bayesian tentu dapat digunakan oleh orang yang sering, tetapi mereka akan memiliki alasan yang berbeda untuk menggunakannya.

DavidR

Metode Bayesian juga memiliki banyak kesamaan dengan teori keputusan. Saya juga tidak berpikir bahwa metode Bayesian dapat digunakan dalam konteks frequentist (bagaimana Anda membayangkan menggunakan prior dalam konteks frequentist?) - itu agak sebaliknya: banyak metode frequentist memiliki interpretasi Bayesian. Saya tidak berpikir ada gunanya membahas ini, apa yang saya katakan bahwa pernyataan Anda sedikit terlalu menyederhanakan hal-hal.

Tim

Orang dapat membuktikan banyak sifat sering yang bagus tentang pendekatan Bayesian, jadi dalam hal itu, melakukan sesuatu Bayesian cukup aman, selama Anda memiliki cukup data.

DavidR

1

Misalkan saya ingin memperkirakan probabilitas p dari kepala dalam koin flip. Sebagai seorang Bayesian, saya akan mulai dengan sebelumnya pada probabilitas p, saya akan mengamati beberapa data, dan kemudian saya akan mendapatkan posterior pada p. Kita perlu membuat estimasi titik p, dan saya memilih untuk menggunakan rata-rata distribusi posterior saya sebagai estimasi titik saya. Semua mengatakan, ini menggambarkan metode untuk beralih dari data ke estimasi titik. Metode ini dapat dievaluasi dengan cara yang sering: misalnya apakah bias? konsisten? efisien asimptotik? Fakta bahwa yang terlibat sebelumnya seharusnya tidak, pada dasarnya, menyangkut yang sering terjadi.

DavidR

1

Kedengarannya seperti "berpikir seperti seorang Bayesian, periksa seperti sering" mengacu pada pendekatan seseorang dalam desain dan analisis statistik. Seperti yang saya pahami, pemikiran Bayesian melibatkan beberapa kepercayaan tentang situasi sebelumnya (secara eksperimen atau statistik), katakanlah misalnya bahwa nilai rata-rata bacaan untuk siswa kelas 4 adalah 80 kata per menit, dan bahwa beberapa intervensi mungkin meningkatkan ini hingga 90 kata per menit . Ini adalah keyakinan berdasarkan penelitian dan hipotesis sebelumnya. Pemikiran Frequentist memperkirakan temuan (intervensi) untuk mendapatkan interval kepercayaan atau statistik lain yang didasarkan pada frekuensi teoretis dan praktis atau probabilitas hasil ini terjadi lagi (yaitu, seberapa "sering"). Misalnya skor pembacaan pasca intervensi mungkin 91 kata per menit dengan interval kepercayaan 95% dari 85 hingga 97 kata per menit dan nilai-p terkait (nilai probabilitas) yang berbeda dari skor pra-intervensi. Jadi 95% dari waktu, skor bacaan baru akan antara 85 dan 97 kata per menit setelah intervensi. Oleh karena itu "berpikir seperti seorang Bayesian" --- yaitu, berteori, berhipotesis, lihat bukti sebelumnya, dan "periksa seperti yang sering" - yaitu, seberapa sering hasil eksperimen ini terjadi, dan seberapa besar kemungkinan mereka disebabkan oleh kesempatan daripada intervensi. skor bacaan baru akan antara 85 dan 97 kata per menit setelah intervensi. Oleh karena itu "berpikir seperti seorang Bayesian" --- yaitu, berteori, berhipotesis, lihat bukti sebelumnya, dan "periksa seperti yang sering" - yaitu, seberapa sering hasil eksperimen ini terjadi, dan seberapa besar kemungkinan mereka disebabkan oleh kesempatan daripada intervensi. skor bacaan baru akan antara 85 dan 97 kata per menit setelah intervensi. Oleh karena itu "berpikir seperti seorang Bayesian" --- yaitu, berteori, berhipotesis, lihat bukti sebelumnya, dan "periksa seperti yang sering" - yaitu, seberapa sering hasil eksperimen ini terjadi, dan seberapa besar kemungkinan mereka disebabkan oleh kesempatan daripada intervensi.

Jeremy
sumber

2

Kalimat terakhir Anda - bagian "check like a frequentist" - benar-benar tidak ada hubungannya dengan pengaturan frequentist: perkiraan Bayesian juga akan memberi tahu Anda "seberapa sering" kami mengharapkan sesuatu terjadi, atau "seberapa mungkin" itu ...

Tim

Berpikirlah seperti bayesian, periksa seperti yang sering: Apa artinya itu?

Jawaban: