Latar belakang saya terutama dalam pembelajaran mesin dan saya mencoba mempelajari apa arti pengujian Hipotesis Bayesian. Saya setuju dengan interpretasi bayesian tentang probabilitas dan saya akrab dengannya dalam konteks model grafis probabilistik. Namun, yang membingungkan saya adalah apa arti kata "Hipotesis" dalam konteks inferensi statistik.
Saya pikir saya sebagian besar menjadi bingung tentang kosa kata yang saya terbiasa dengan pembelajaran mesin vs apa yang biasanya digunakan dalam statistik dan kesimpulan.
Dalam konteks pembelajaran terawasi , saya biasanya menganggap hipotesis sebagai fungsi prediktif yang memetakan contoh ke labelnya yaitu . Namun, bagi saya tampaknya istilah hipotesis, dalam bacaan yang saya lakukan tidak memiliki makna yang sama. Biarkan saya menempelkan ekstrak bacaan yang saya baca:
Jika Anda membaca dengan seksama, itu juga mengatakan:
ada model yang berbeda untuk data yang diamati ...
apakah mereka menggunakan model kata. Bagi saya model kata membuat saya berpikir tentang serangkaian fungsi jika kita memilih fungsi prediksi tertentu. yaitu kelas fungsi hipotesis. Sebagai contoh, bisa menjadi kelas hipotesis fungsi kuadratik (polinomial derajat 2). Namun, bagi saya tampaknya mereka menggunakan model kata dan hipotesis sebagai sinonim dalam ekstrak ini (di mana bagi saya mereka kata-kata yang sama sekali berbeda).
Kemudian disebutkan bahwa kita dapat menempatkan prior ke hipotesis (hal yang sepenuhnya masuk akal untuk dilakukan dalam pengaturan bayesian):
kami juga dapat mengkarakterisasi data dengan hipotesis saat ini:
dan memperbarui kepercayaan kami saat ini dengan diberikan beberapa data (dan aturan Baye):
Namun, saya kira saya lebih terbiasa menempatkan perkiraan bayesian ke parameter tertentu (katakanlah ) dari kelas hipotesis daripada ke seluruh kelas hipotesis. Pada dasarnya karena tampaknya "hipotesis" ini bukan hipotesis yang sama dari konteks pembelajaran mesin yang saya gunakan, tampaknya bagi saya bahwa hipotesis ini lebih mirip dengan parameter spesifik daripada dengan kelas hipotesis.
Pada titik ini saya yakin bahwa "hipotesis" memiliki arti yang sama seperti pada fungsi prediktif (parametrized oleh parameter , misalnya), tetapi saya pikir saya salah ...
Untuk membuat kebingungan saya lebih buruk, kemudian pembacaan yang sama ini dilakukan untuk menentukan "hipotesis" tertentu untuk setiap contoh pelatihan yang mereka amati. Biarkan saya menempelkan ekstrak yang saya maksud:
alasan mengapa hal ini membingungkan saya adalah bahwa, jika saya menafsirkan hipotesis sebagai parameter, maka bagi saya tidak masuk akal untuk menentukan parameter spesifik untuk setiap nilai sampel yang kita lihat. Pada titik ini saya menyimpulkan bahwa saya benar-benar tidak tahu apa yang mereka maksud dengan hipotesis, jadi saya memposting pertanyaan ini.
Namun, saya tidak sepenuhnya menyerah, saya meneliti hipotesis apa artinya dalam statistik sering dan menemukan video akademi khan berikut . Video itu benar-benar masuk akal bagi saya (mungkin Anda seorang yang sering! :) . Namun, tampaknya mereka mendapatkan banyak data (seperti beberapa "set sampel") dan berdasarkan pada properti set sampel, mereka memutuskan apakah akan menerima atau menolak hipotesis nol tentang data. Namun, dalam konteks Bayesian yang saya baca, menurut saya, untuk setiap vektor [titik] data yang diamati, mereka "memberi label" dengan hipotesis dengan "Uji rasio kemungkinan":
Cara mereka menetapkan hipotesis untuk setiap sampel data, bahkan sepertinya pengaturan pembelajaran yang diawasi adalah kita menempelkan label pada setiap rangkaian pelatihan. Namun, saya tidak berpikir itulah yang mereka lakukan dalam konteks ini. Apa yang mereka lakukan? Apa artinya menetapkan hipotesis untuk setiap sampel data? Apa arti dari sebuah hipotesis? Apa arti kata model?
Pada dasarnya, setelah penjelasan panjang tentang kebingungan saya, apakah ada yang tahu apa artinya pengujian hipotesis bayesian dalam konteks ini?
Jika Anda memerlukan klarifikasi atau apa pun untuk meningkatkan pertanyaan saya atau agar pertanyaan itu masuk akal, saya akan dengan senang hati membantu :)
Dalam pencarian saya untuk jawaban saya menemukan beberapa hal berguna yang berkaitan dengan pengujian hipotesis statistik:
Ini membahas pengantar yang bagus untuk topik ini jika Anda berasal dari latar belakang CS (seperti saya):
Apa pengantar yang baik untuk pengujian hipotesis statistik untuk para ilmuwan komputer?
Pada titik tertentu saya bertanya tentang "parameter default" (yang seharusnya saya mendefinisikan apa yang saya maksud. Saya pikir itu adalah istilah standar tetapi tidak, jadi di sini saya akan mengatasinya) dan saya pikir apa yang saya maksud sebenarnya adalah bagaimana Anda menentukan parameter untuk setiap hipotesis yang Anda miliki. Misalnya, bagaimana Anda memutuskan hipotesis nol dan parameternya. Ada pertanyaan terkait itu:
sumber
Jawaban:
Sebuah model statistik yang diberikan oleh keluarga dari distribusi probabilitas. Ketika model parametrik, keluarga ini diindeks oleh parameter yang tidak diketahui : F = { f ( ⋅ | θ ) ; θ ∈ Θ } Jika seseorang ingin menguji hipotesis pada θ seperti H 0 :θ
sumber
Excellent question. I think your confusion may result from some of the basic differences between the "frequentist" and "Bayesian" perspectives. I have a lot of experience with the former and am new to the later so attempting a few simple observations might help me too. I edited your question to make a few distinctions clear - at least, as I understand them. I hope you don't mind! If I got something wrong, you could re-edit your question or add a comment on this response.
1) At the risk of sounding somewhat too elementary: A model is any statement that attempts an explanation of reality like "If I had pancakes for breakfast, it must be Tuesday." As such, a model is an hypothesis. A famous quote by George Box: "All models are wrong, some models are useful." For a model to be useful there must be some way to test it. Enter the concept of competing hypotheses and the answer to one of your questions. I would suggest that "...in the context of statistical inference," an hypothesis is any model that may be useful and can be tested mathematically. So hypothesis testing is a means of making a decision about whether a model is useful of not. In summary, an hypothesis is a model under consideration. It could be different parameter values of the same function or different functions. I think your lecture notes are showing that different outcomes (measurements) in the sample space would make different hypotheses (Is the intercept parameter zero? Do I need a cube in that polynomial? Maybe it's really exponential?), more or less likely.
2) Your Kahn video is an example of what Bayesian's call the "Frequentist" approach to hypothesis testing so it may have confused you when trying to apply it to your lecture notes which are Bayesian. I have been trying to come up with a simple distinction between application of the two approaches (which may be dangerous). I think I understand the philosophical distinction reasonably well. From what I have seen, the "Frequentist" assumes a random component to the data and tests how likely the observed data are given non-random parameters. The "Bayesian" assumes the data are fixed and determines the most likely value of random parameters. This difference leads to different testing methods.
In "Frequentist" hypothesis testing, a model that may be useful is one which explains some effect so it is compared with the "null hypothesis" - the model of no effect. The attempt is made to set up a useful model that is mutually exclusive to the model of no effect. The test is then on the probability of observing the data under the assumption of no effect. If that probability is found to be low, the null hypothesis is rejected and the alternative is all that's left. (Note that a purist would never "accept" the null hypothesis, only "fail to reject" one. It may sound like angels dancing on the head of a pin but the distinction is a fundamental philosophical one) Intro statistics usually starts with what may be the simplest example: "Two groups are different." The null hypothesis that they are not different is tested by calculating how likely it would be to observe differences as great or greater as measured by a random experiment given that they are not different. This is usually a t-test where the null hypothesis is that the difference of the means is zero. So the parameter is the mean at a fixed value of zero.
The Bayesian mengatakan, "Tunggu sebentar, kami membuat pengukuran mereka dan mereka yang berbeda, jadi bagaimana mungkin adalah bahwa?" Mereka menghitung probabilitas untuk setiap nilai dari parameter acak (sekarang) dan memilih satu yang setinggi mungkin. Jadi dalam arti tertentu, setiap nilai yang mungkin dari parameter adalah model yang terpisah. Tetapi sekarang mereka membutuhkan cara untuk membuat keputusan tentang apakah model dengan probabilitas tertinggi cukup berbeda. Itu sebabnya catatan kuliah Anda memperkenalkan fungsi biaya. Untuk membuat keputusan yang baik, diperlukan asumsi konsekuensi dari pengambilan keputusan yang salah.
3) "Apa artinya menetapkan hipotesis untuk setiap sampel data?" Saya kira tidak. Hati-hati dengan apa yang dimaksud dengan "titik sampel". Saya percaya mereka mengacu pada vektor sampel tertentu dan ingin tahu seberapa besar kemungkinan masing-masing hipotesis untuk semua vektor sampel dalam ruang sampel. Persamaan (14) dan (15) menunjukkan bagaimana membandingkan dua hipotesis untuk vektor sampel tertentu. Jadi mereka menyederhanakan argumen umum membandingkan beberapa hipotesis dengan menunjukkan bagaimana membandingkan hanya dua.
sumber
Katakanlah Anda memiliki data dari sekumpulan kotak. Data terdiri dari Panjang (L), Lebar (W), Tinggi (H), dan Volume (V).
Jika kita tidak tahu banyak tentang kotak / geometri, kita dapat mencoba modelnya:
Model ini memiliki tiga parameter (a, b, c) yang dapat bervariasi, ditambah istilah kesalahan / biaya (e) yang menggambarkan seberapa baik hipotesis sesuai dengan data. Setiap kombinasi nilai parameter akan dianggap sebagai hipotesis yang berbeda. Nilai parameter "default" yang dipilih biasanya nol, yang dalam contoh di atas akan sesuai dengan "tidak ada hubungan" antara V dan L, W, H.
Apa yang dilakukan orang adalah menguji hipotesis "default" ini dengan memeriksa apakah e berada di luar beberapa nilai cutoff, biasanya dengan menghitung nilai-p dengan asumsi distribusi kesalahan normal di sekitar model fit. Jika hipotesis itu ditolak, maka mereka menemukan kombinasi parameter a, b, c yang memaksimalkan kemungkinan dan menyajikan ini adalah hipotesis yang paling mungkin. Jika mereka bayesian, mereka mengalikan kemungkinan dengan sebelumnya untuk setiap set nilai parameter dan memilih solusi yang memaksimalkan probabilitas posterior.
Jelas strategi ini tidak optimal karena model mengasumsikan aditivitas, dan akan kehilangan bahwa hipotesis yang benar adalah:
Edit: @Pinocchio
Mungkin seseorang tidak setuju dengan klaim bahwa pengujian hipotesis tidak optimal ketika tidak ada alasan rasional untuk memilih satu / beberapa fungsi (atau seperti yang Anda sebutkan: "kelas hipotesis") dari kemungkinan yang tak terhingga banyaknya. Tentu saja ini sepele benar, dan "optimal" dapat digunakan dalam arti terbatas "paling cocok mengingat fungsi biaya dan pilihan yang disediakan". Komentar itu membuatnya menjadi jawaban saya karena saya tidak suka bagaimana masalah spesifikasi model terpoles di catatan kelas Anda. Ini adalah masalah utama yang dihadapi sebagian besar pekerja ilmiah, yang afaik tidak ada algoritma.
Lebih jauh, saya tidak bisa memahami nilai-p, pengujian hipotesis, dll sampai saya mengerti sejarahnya, jadi mungkin itu akan membantu Anda juga. Ada banyak sumber kebingungan seputar pengujian hipotesis frequentist (saya tidak begitu akrab dengan sejarah varian bayesian).
Ada apa yang awalnya disebut "pengujian hipotesis" dalam pengertian Neyman-Pearson, "pengujian signifikansi" yang dikembangkan oleh Ronald Fisher, dan juga "hibrid" yang tidak terdefinisikan dengan tepat dari kedua strategi ini yang banyak digunakan di seluruh ilmu pengetahuan (yang dapat dengan mudah disebut menggunakan istilah di atas, atau "pengujian signifikansi nol hipotesis"). Meskipun saya tidak akan merekomendasikan mengambil halaman wikipedia sebagai otoritatif, banyak sumber yang membahas masalah ini dapat ditemukan di sini . Beberapa poin utama:
Penggunaan hipotesis "default" bukan bagian dari prosedur pengujian hipotesis asli, melainkan pengguna seharusnya menggunakan pengetahuan sebelumnya untuk menentukan model yang dipertimbangkan. Saya belum pernah melihat rekomendasi eksplisit oleh para pendukung model ini mengenai apa yang harus dilakukan jika kita tidak memiliki alasan khusus untuk memilih serangkaian hipotesis yang akan dibandingkan. Sering dikatakan bahwa pendekatan ini cocok untuk kontrol kualitas, ketika ada toleransi yang diketahui untuk membandingkan beberapa pengukuran.
Tidak ada hipotesis alternatif di bawah paradigma "pengujian signifikansi" Fisher, hanya hipotesis nol, yang dapat ditolak jika dianggap tidak mungkin diberikan data. Dari bacaan saya, Fisher sendiri tidak jelas tentang penggunaan hipotesis nol default. Saya tidak pernah bisa menemukan dia mengomentari masalah ini secara eksplisit, tetapi dia pasti tidak merekomendasikan bahwa ini adalah satu-satunya hipotesis nol.
Penggunaan hipotesis nol default kadang-kadang ditafsirkan sebagai "penyalahgunaan" pengujian hipotesis, tetapi merupakan pusat metode hybrid populer yang disebutkan. Argumennya adalah bahwa praktik ini sering merupakan "pendahuluan yang tidak berguna":
Hipotesis nol menguji kontroversi dalam psikologi. David H Krantz. Jurnal Asosiasi Statistik Amerika; Desember 1999; 94, 448; 1372-1381
Video akademi Khan adalah contoh metode hibrida ini, dan bersalah karena melakukan kesalahan yang disebutkan dalam kutipan itu. Dari informasi yang tersedia dalam video itu, kami hanya dapat menyimpulkan bahwa tikus yang disuntikkan berbeda dari yang tidak disuntik, sementara video mengklaim kami dapat menyimpulkan "obat pasti memiliki beberapa efek". Sedikit refleksi akan membuat kita mempertimbangkan bahwa mungkin tikus yang diuji lebih tua dari yang tidak disuntikkan, dll. Kita perlu mengesampingkan penjelasan alternatif yang masuk akal sebelum mengklaim bukti untuk teori kita. Semakin spesifik prediksi teori , semakin sulit untuk mencapai ini.
Edit 2:
Mungkin mengambil contoh dari catatan diagnosa medis Anda akan membantu. Katakanlah seorang pasien bisa "normal" atau dalam "krisis hipertensi".
Kami memiliki informasi sebelumnya bahwa hanya 1% orang yang mengalami krisis hipertensi. Orang yang mengalami krisis hipertensi memiliki tekanan darah sistolik yang mengikuti distribusi normal dengan rata-rata = 180 dan sd = 10. Sementara itu, orang normal memiliki tekanan darah dari distribusi normal dengan rata-rata = 120, sd = 10. Biaya menilai seseorang normal ketika mereka adalah nol, biaya melewatkan diagnosis adalah 1, dan biaya karena efek samping akibat pengobatan adalah 0,2 terlepas dari apakah mereka dalam krisis atau tidak. Kemudian kode R berikut menghitung ambang (eta) dan rasio kemungkinan. Jika rasio kemungkinan lebih besar dari ambang yang kami putuskan untuk diperlakukan, jika kurang dari yang tidak kami lakukan:
Dalam skenario di atas, ambang eta = 15,84. Jika kita mengambil tiga pengukuran tekanan darah dan mendapatkan 139,9237, 125,2278, 190,3765, maka rasio kemungkinannya adalah 27,6 yang mendukung H1: Pasien dalam krisis hipertensi. Karena 27,6 lebih besar dari ambang yang akan kami pilih untuk diobati. Grafik menunjukkan hipotesis normal dalam warna hijau dan hipertensi dalam warna merah. Garis hitam vertikal menunjukkan nilai pengamatan.
sumber