Saya sedang melihat beberapa slide kuliah tentang kursus ilmu data yang dapat ditemukan di sini:
https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf
Sayangnya, saya tidak dapat melihat video untuk ceramah ini dan pada satu titik di slide, presenter memiliki teks berikut:
Beberapa Prinsip Utama
Berpikir seperti orang Bayesian, periksa seperti seorang Frequentist (rekonsiliasi)
Adakah yang tahu apa artinya itu? Saya merasa ada wawasan yang baik tentang dua aliran pemikiran yang dikumpulkan dari ini.
Jawaban:
Perbedaan utama antara aliran statistik Bayesian dan frequentist muncul karena perbedaan dalam interpretasi probabilitas. Probabilitas Bayesian adalah pernyataan tentang keyakinan pribadi bahwa suatu peristiwa akan (atau telah) terjadi. Probabilitas frequentist adalah pernyataan tentang proporsi peristiwa serupa yang terjadi dalam batas seiring dengan meningkatnya jumlah peristiwa tersebut.
Bagi saya, "berpikir seperti seorang Bayesian" berarti memperbarui kepercayaan pribadi Anda ketika informasi baru muncul dan "memeriksa [atau khawatir] seperti seorang yang sering" berarti peduli dengan kinerja prosedur statistik yang dikumpulkan sepanjang waktu prosedur tersebut digunakan, mis. apa cakupan interval yang kredibel, berapa tingkat kesalahan Tipe I / II, dll.
sumber
Statistik Bayesian merangkum kepercayaan sedangkan statistik frequentist merangkum bukti. Orang Bayesian memandang probabilitas sebagai tingkat kepercayaan. Jenis penalaran inklusif dan generatif ini berguna untuk merumuskan hipotesis. Sebagai contoh, Bayesian mungkin dapat secara sewenang-wenang menetapkan beberapa kemungkinan pada anggapan bahwa bulan terbuat dari keju hijau, terlepas dari apakah para astronot benar-benar dapat melakukan perjalanan ke sana untuk memverifikasi ini. Hipotesis ini mungkin didukung oleh gagasan bahwa, dari jauh, bulan terlihatseperti keju hijau. Frequentists tidak dapat secara tunggal memahami hipotesis yang lebih dari sekedar kesalahan, dan mereka juga tidak bisa mengatakan bukti lebih mendukung satu hipotesis daripada hipotesis lainnya. Bahkan kemungkinan maksimum hanya menghasilkan statistik yang "paling konsisten dengan apa yang diamati". Secara formal, statistik Bayesian memungkinkan kita untuk berpikir di luar kotak dan mengusulkan ide-ide yang dapat dipertahankan dari data. Tapi ini sifatnya hipotesis murni.
Statistik Frequentist paling baik diterapkan untuk mengkonfirmasi hipotesis. Ketika percobaan dilakukan dengan baik, statistik frequentist memberikan konteks "pengamat independen" atau "empiris" untuk temuan dengan menghindari prior. Ini konsisten dengan filosofi sains Karl Popper. Poin bukti bukanlah untuk menyebarluaskan ide tertentu. Banyak bukti konsisten dengan hipotesis yang salah. Bukti hanya bisa memalsukan kepercayaan.
Pengaruh prior biasanya dianggap sebagai bias dalam penalaran statistik. Seperti yang Anda ketahui, kami dapat membuat sejumlah besar alasan mengapa hal-hal terjadi. Secara psikologis, banyak orang percaya bahwa bias pengamat kita adalah hasil dari prior di otak kita yang membuat kita tidak benar-benar menimbang apa yang kita lihat. "Harapan mengaburkan pengamatan" seperti yang dikatakan Bunda Suci di Dune. Popper membuat gagasan ini keras.
Ini memiliki sejarah penting dalam beberapa percobaan ilmiah terbesar di zaman kita. Misalnya, John Snow dengan cermat mengumpulkan bukti untuk epidemi Kolera dan menyimpulkan dengan tepat bahwa Kolera tidak disebabkan oleh perampasan moral, dan menunjukkan bahwa bukti tersebut sangat konsisten dengan kontaminasi limbah: perhatikan dia tidak menyimpulkanini, temuan Snow mendahului penemuan bakteri, dan tidak ada pemahaman mekanistik atau etiologis. Wacana serupa ditemukan dalam Origin of Species. Kami tidak benar-benar tahu apakah bulan terbuat dari keju hijau sampai para astronot benar-benar mendarat di permukaan dan mengumpulkan sampel. Pada saat itu, para pengrajin Bayesian telah menetapkan probabilitas yang sangat, sangat rendah untuk kemungkinan lain, dan Frequentists paling-paling dapat mengatakan bahwa sampel sangat tidak konsisten dengan apa pun kecuali debu bulan.
Singkatnya, statistik Bayes dapat menerima hipotesis dan statistik frequentist setuju dengan konfirmasi hipotesis. Memastikan bahwa data dikumpulkan secara independen dalam upaya ini adalah salah satu tantangan terbesar yang dihadapi oleh ahli statistik modern.
sumber
Plenty of evidence is consistent with incorrect hypotheses
?Per
Cliff AB
komentar pada OP, sepertinya mereka sedang menuju filosofi Bayesian Empiris. Ada tiga aliran pemikiran Bayesian utama, dan Empirical Bayes memperkirakan prior dari data, seringkali dengan metode frequentist. Itu tidak persis sesuai dengan kutipan (yang menyiratkan Bayes di muka, seperti kekhawatiran sering setelah itu), tetapi kita tidak boleh mengabaikanCliff AB
komentar yang sangat baik.Juga, ada, dan mungkin masih, sekolah Bayesian berpikir bahwa Anda tidak perlu memeriksa apa pun setelah prosedur Bayesian. Pemikiran yang lebih modern akan menggunakan pemeriksaan prediktif posterior, dan mungkin pendekatan periksa-jawaban-Anda semacam itulah yang dimaksud kutipan tersebut.
Juga, filosofi frequentist lebih mementingkan prosedur daripada kesimpulan dari data. Jadi mungkin itu juga petunjuk tentang arti kutipan.
sumber
Dalam konteks kelas ilmu data ini, interpretasi saya tentang "periksa seperti sering" adalah bahwa Anda mengevaluasi kinerja fungsi prediksi Anda atau fungsi keputusan pada data validasi yang diulurkan. Saran untuk "berpikir seperti seorang Bayesian" menyatakan pendapat bahwa fungsi prediksi yang berasal dari pendekatan Bayesian umumnya akan memberikan hasil yang baik.
sumber
Kedengarannya seperti "berpikir seperti seorang Bayesian, periksa seperti sering" mengacu pada pendekatan seseorang dalam desain dan analisis statistik. Seperti yang saya pahami, pemikiran Bayesian melibatkan beberapa kepercayaan tentang situasi sebelumnya (secara eksperimen atau statistik), katakanlah misalnya bahwa nilai rata-rata bacaan untuk siswa kelas 4 adalah 80 kata per menit, dan bahwa beberapa intervensi mungkin meningkatkan ini hingga 90 kata per menit . Ini adalah keyakinan berdasarkan penelitian dan hipotesis sebelumnya. Pemikiran Frequentist memperkirakan temuan (intervensi) untuk mendapatkan interval kepercayaan atau statistik lain yang didasarkan pada frekuensi teoretis dan praktis atau probabilitas hasil ini terjadi lagi (yaitu, seberapa "sering"). Misalnya skor pembacaan pasca intervensi mungkin 91 kata per menit dengan interval kepercayaan 95% dari 85 hingga 97 kata per menit dan nilai-p terkait (nilai probabilitas) yang berbeda dari skor pra-intervensi. Jadi 95% dari waktu, skor bacaan baru akan antara 85 dan 97 kata per menit setelah intervensi. Oleh karena itu "berpikir seperti seorang Bayesian" --- yaitu, berteori, berhipotesis, lihat bukti sebelumnya, dan "periksa seperti yang sering" - yaitu, seberapa sering hasil eksperimen ini terjadi, dan seberapa besar kemungkinan mereka disebabkan oleh kesempatan daripada intervensi. skor bacaan baru akan antara 85 dan 97 kata per menit setelah intervensi. Oleh karena itu "berpikir seperti seorang Bayesian" --- yaitu, berteori, berhipotesis, lihat bukti sebelumnya, dan "periksa seperti yang sering" - yaitu, seberapa sering hasil eksperimen ini terjadi, dan seberapa besar kemungkinan mereka disebabkan oleh kesempatan daripada intervensi. skor bacaan baru akan antara 85 dan 97 kata per menit setelah intervensi. Oleh karena itu "berpikir seperti seorang Bayesian" --- yaitu, berteori, berhipotesis, lihat bukti sebelumnya, dan "periksa seperti yang sering" - yaitu, seberapa sering hasil eksperimen ini terjadi, dan seberapa besar kemungkinan mereka disebabkan oleh kesempatan daripada intervensi.
sumber