Bisakah nilai distribusi probabilitas melebihi 1 menjadi OK?

149

Pada halaman Wikipedia tentang pengklasifikasi naif Bayes , ada baris ini:

p(height|male)=1.5789 (Distribusi probabilitas lebih dari 1 adalah OK. Ini adalah area di bawah kurva lonceng yang sama dengan 1.)

Bagaimana nilai bisa OK? Saya pikir semua nilai probabilitas dinyatakan dalam kisaran . Lebih lanjut, mengingat bahwa dimungkinkan untuk memiliki nilai seperti itu, bagaimana nilai itu diperoleh dalam contoh yang ditunjukkan pada halaman?>10p1

babelproofreader
sumber
2
Ketika saya melihat bahwa saya pikir itu mungkin ketinggian fungsi kepadatan probabilitas yang dapat berupa angka positif selama terintegrasi pada interval apa pun, integralnya kurang dari atau sama dengan 1. Wikipedia harus memperbaiki entri itu.
Michael Chernick
16
Karena ini dapat membantu pembaca di masa depan, saya menawarkan terjemahan geometris dari bagian umum dari pertanyaan ini: "Bagaimana bentuk yang luasnya tidak melebihi mungkin dapat memperpanjang lebih dari ke segala arah?" Secara khusus, bentuknya adalah bahwa bagian dari bidang atas setengah dibatasi di atas oleh grafik PDF dan arah yang dimaksud adalah vertikal. Dalam pengaturan geometris (dicukur dari interpretasi probabilitas) mudah untuk memikirkan contoh-contoh, seperti persegi panjang dasar tidak lebih dari dan tinggi . 111/22
whuber
artikel Wikipedia sekarang menggunakan huruf kecil puntuk kepadatan probabilitas dan huruf besar Puntuk probabilitas
Aprillion
Saya hanya akan meninggalkan ini di sini untuk orang berikutnya: en.wikipedia.org/wiki/Dirac_delta_function
Joshua
Perlu dicatat bahwa Fungsi Distribusi Kumulatif (integral dari PDF) tidak dapat melampaui 1. CDF jauh lebih intuitif untuk digunakan dalam banyak kasus.
nucky101

Jawaban:

167

Halaman Wiki itu menyalahgunakan bahasa dengan merujuk pada angka ini sebagai suatu probabilitas. Anda benar bahwa itu tidak benar. Ini sebenarnya adalah probabilitas per kaki . Secara khusus, nilai 1,5789 (untuk ketinggian 6 kaki) menyiratkan bahwa probabilitas ketinggian antara, katakanlah, 5,99 dan 6,01 kaki dekat dengan nilai unitless berikut:

1.5789[1/foot]×(6.015.99)[feet]=0.0316

Ini nilai harus tidak melebihi 1, seperti yang Anda tahu. (Kisaran ketinggian kecil (0,02 dalam contoh ini) adalah bagian penting dari peralatan probabilitas. Ini adalah "diferensial" tinggi, yang akan saya singkatkan .) Probabilitas per unit sesuatu adalah disebut densitas secara analogi dengan densitas lain, seperti massa per satuan volume.d(height)

Kepadatan probabilitas bonafide dapat memiliki nilai besar yang sewenang-wenang, bahkan yang tak terbatas.

Distribusi gamma

Contoh ini menunjukkan fungsi kepadatan probabilitas untuk distribusi Gamma (dengan parameter bentuk dan skala ). Karena sebagian besar kepadatan kurang dari , kurva harus naik lebih tinggi dari agar memiliki luas total seperti yang diperlukan untuk semua distribusi probabilitas.3/21/5111

Distribusi beta

Kepadatan ini (untuk distribusi beta dengan parameter ) menjadi tak terbatas pada dan . Total area masih terbatas (dan sama dengan )!1/2,1/10011


Nilai 1,5789 / kaki diperoleh dalam contoh itu dengan memperkirakan bahwa ketinggian laki-laki memiliki distribusi normal dengan rata-rata 5,855 kaki dan varian 3,50e-2 kaki persegi. (Ini dapat ditemukan dalam tabel sebelumnya.) Akar kuadrat dari varian itu adalah standar deviasi, 0,18717 kaki. Kami menyatakan kembali 6 kaki sebagai jumlah SD dari rata-rata:

z=(65.855)/0.18717=0.7747

Pembagian dengan standar deviasi menghasilkan hubungan

dz=d(height)/0.18717

Kepadatan probabilitas normal, menurut definisi, sama dengan

12πexp(z2/2)dz=0.29544 d(height)/0.18717=1.5789 d(height).

(Sebenarnya, saya curang: Saya hanya meminta Excel untuk menghitung NORMDIST (6, 5.855, 0.18717, FALSE). Tetapi kemudian saya benar-benar mengeceknya dengan rumus, hanya untuk memastikan.) Ketika kita menghapus diferensial esensial dari rumus hanya angka tersisa, seperti senyum Cheshire Cat. Kami, para pembaca, perlu memahami bahwa jumlahnya harus dikalikan dengan perbedaan kecil dalam ketinggian untuk menghasilkan probabilitas.d(height)1.5789

whuber
sumber
Saya perhatikan bahwa contoh yang diberikan pada halaman wiki menggunakan densitas probabilitas sebagai pengganti probabilitas aktual untuk perhitungan posterior, mungkin karena aspek per unit tidak diperlukan untuk tujuan perbandingan jika unit yang dibandingkan adalah sama. Memperluas ini, jika seseorang tidak ingin menganggap normalitas tetapi sebaliknya ia memiliki data empiris dari mana kepadatan dapat diperkirakan, misalnya estimasi kepadatan kernel, apakah akan valid untuk menggunakan pembacaan pada nilai yang diberikan pada sumbu x dari ini kde sebagai input untuk menghitung posterior dalam classifier naif bayes, dengan asumsi sama per unit?
babelproofreader
1
@ Babelproofreader Saya yakin posisinya adalah pembaruan Bayesian, melalui data pelatihan, dari prior. Tidak jelas bagaimana KDE dapat ditafsirkan sama, tapi saya bukan ahli di bidang ini. Pertanyaan Anda cukup menarik sehingga Anda dapat mempertimbangkan untuk mempostingnya secara terpisah.
whuber
Bagaimana Anda menentukan apa itu diferensial yang baik? Bagaimana Jika Anda memilih diferensial 1? probabilitasnya kemudian akan lebih besar dari 1? Maaf atas kebingungan saya di sini. Bisakah Anda jelaskan?
fiacobelli
3
@ pohon Luas segitiga adalah setengah produk dari panjang alas dan tingginya.
Whuber
1
@ user929304 Anda dapat merujuk ke buku teks teoretis yang menarik bagi Anda: ini adalah bagian dari dasar-dasar probabilitas dan statistik. Konsep kerapatan probabilitas khusus ini dibahas dengan baik dalam buku teks pengantar yang lebih baik, seperti Freedman, Pisani, & Purves .
whuber
43

Ini adalah kesalahan umum karena tidak memahami perbedaan antara fungsi massa probabilitas, di mana variabelnya terpisah, dan fungsi kepadatan probabilitas, di mana variabel tersebut kontinu. Lihat Apa itu distribusi probabilitas :

fungsi probabilitas kontinu didefinisikan untuk jumlah poin yang tak terbatas selama interval kontinu, probabilitas pada satu titik selalu nol. Probabilitas diukur dengan interval, bukan titik tunggal. Yaitu, area di bawah kurva antara dua titik yang berbeda menentukan probabilitas untuk interval itu. Ini berarti bahwa ketinggian fungsi probabilitas sebenarnya bisa lebih besar dari satu. Properti yang integral harus sama dengan yang setara dengan properti untuk distribusi diskrit yang jumlah semua probabilitas harus sama dengan.

Tristan
sumber
14
NIST biasanya otoritatif, tetapi di sini secara teknis tidak benar (dan tidak sesuai untuk mem-boot): memiliki probabilitas yang ditentukan pada "jumlah poin tak terbatas" tidak menyiratkan "probabilitas pada satu titik selalu nol." Tentu saja mereka hanya menghindari gangguan tentang kardinalitas tanpa batas, tetapi alasan di sini menyesatkan. Akan lebih baik bagi mereka untuk menghilangkan kalimat pertama dalam kutipan.
whuber
23

Saya berpikir bahwa distribusi seragam kontinu selama interval memberikan contoh langsung untuk pertanyaan ini: Dalam distribusi seragam kontinu, kepadatan di setiap titik adalah sama di setiap titik (distribusi seragam). Selain itu, karena area di bawah persegi panjang harus satu (sama seperti area di bawah kurva normal harus satu), nilai kerapatan harus karena setiap persegi panjang dengan basis dan area harus memiliki tinggi .[a,b]1/(ba)ba11/(ba)

Jadi nilai kerapatan seragam pada interval adalah , pada interval itu adalah , ...[0,0.5]1/(0.50)=2[0,0.1]10


sumber
4

Saya tidak tahu apakah artikel Wikipedia telah diedit setelah posting awal di utas ini, tetapi sekarang tertulis "Perhatikan bahwa nilai yang lebih besar dari 1 OK di sini - ini adalah kepadatan probabilitas daripada probabilitas, karena tinggi adalah variabel kontinu. ", dan setidaknya dalam konteks langsung ini, P digunakan untuk probabilitas dan p digunakan untuk kepadatan probabilitas. Ya, sangat ceroboh karena artikel menggunakan p di beberapa tempat untuk berarti probabilitas, dan di tempat lain sebagai kepadatan probabilitas.

Kembali ke pertanyaan awal "Bisakah nilai distribusi probabilitas melebihi 1 menjadi OK?" Tidak, tapi saya sudah melihatnya selesai (lihat paragraf terakhir saya di bawah).

Berikut ini cara menginterpretasikan probabilitas> 1. Pertama-tama, perhatikan bahwa orang dapat dan memang memberikan upaya 150%, seperti yang sering kita dengar dalam olahraga dan kadang-kadang berfungsi https://www.youtube.com/watch?v=br_vSdAOHQQ . Jika Anda yakin sesuatu akan terjadi, itu adalah probabilitas 1. Probabilitas 1,5 dapat diartikan sebagai Anda 150% yakin peristiwa itu akan terjadi - semacam memberi upaya 150%.

Dan jika Anda dapat memiliki probabilitas> 1, saya kira Anda dapat memiliki probabilitas <0. Probabilitas negatif dapat diartikan sebagai berikut. Probabilitas 0,001 berarti hampir tidak ada peluang peristiwa itu terjadi. Probabilitas = 0 berarti "tidak mungkin". Peluang negatif, seperti -1.2, sesuai dengan "Anda pasti bercanda".

Ketika saya masih remaja baru keluar dari sekolah 3 dekade yang lalu, saya menyaksikan sebuah peristiwa yang lebih mengejutkan daripada memecahkan hambatan suara dalam penerbangan, yaitu, memecahkan hambatan kesatuan dalam probabilitas. Analis dengan gelar Ph.D. dalam Fisika telah menghabiskan 2 tahun penuh waktu (mungkin memberi 150%) mengembangkan model untuk menghitung probabilitas mendeteksi objek X, pada akhirnya model dan analisisnya berhasil menyelesaikan tinjauan sejawat oleh beberapa ilmuwan dan insinyur yang berafiliasi erat dengan AS. pemerintah. Saya tidak akan memberi tahu Anda apa objek X, tetapi objek X, dan probabilitas untuk mendeteksinya, adalah dan masih menarik bagi pemerintah AS. Model menyertakan rumus untuk = Prob (peristiwa y terjadi). PyPydan beberapa istilah lain semuanya digabungkan ke dalam formula akhir, yang merupakan Prob (objek X terdeteksi). Memang, nilai dihitung Prob (objek X terdeteksi) berada dalam kisaran [0,1], seperti probabilitas "tradisional" dalam tradisi Kolmogorov. dalam bentuk aslinya selalu dalam [0,1] dan melibatkan fungsi transendental "variasi kebun" yang tersedia dalam Fortran standar atau kalkulator ilmiah apa pun. Namun, untuk alasan yang hanya diketahui oleh analis dan Tuhan (mungkin karena ia melihatnya dilakukan di kelas Fisika dan buku-bukunya, tetapi tidak tahu bahwa ia ditunjukkan beberapa kasus di mana ia bekerja, tidak lebih banyak di mana ia melakukannya. tidak, dan nama orang ini serta penilaian ilmiah / matematisnya tidak sama dengan Dirac),PyPy(dan abaikan istilah sisanya), yang selanjutnya akan disebut sebagai . Itu adalah ekspansi Taylor dua istilah yang dimasukkan ke dalam ekspresi akhir untuk Prob (objek X terdeteksi). Apa yang tidak disadarinya, sampai saya tunjukkan padanya, adalah bahwa sama dengan sekitar 1,2 menggunakan nilai kasus dasar untuk semua parameter. Memang itu mungkin untukPyPyPyPynaik sekitar 1,8. Dan itulah cara penghalang kesatuan rusak dalam probabilitas. Tetapi lelaki itu tidak tahu bahwa dia telah mencapai prestasi perintis ini sampai saya menunjukkannya kepadanya, setelah baru saja melakukan perhitungan cepat pada kalkulator kartu kredit ukuran Casio yang bertenaga baterai di ruang konferensi yang gelap (tidak mungkin melakukannya dengan kalkulator bertenaga surya). Itu akan seperti Chuck Yeager keluar untuk putaran hari Minggu di pesawatnya, dan hanya diberi tahu berbulan-bulan kemudian bahwa dia telah memecahkan penghalang suara.

Mark L. Stone
sumber
Cerita keren. Apakah Anda memiliki informasi lebih lanjut tentang ini, seperti kutipan?
Jay Schyler Raadt
1
@ Jay Schyler Raadt Ini didokumentasikan di stats.stackexchange.com/questions/4220/… , ha ha.
Mark L. Stone
0

Ketika variabel acak kontinu dan fungsi kerapatan probabilitasnya adalah , adalah probabilitas, tetapi bukan merupakan probabilitas dan dapat lebih besar dari satu. dilaporkan bukan merupakan probabilitas, tetapi adalah.Xf(x)f(x)dxf(x)f(height|male)f(height|male)dheight

Dengan kata lain, untuk variabel acak kontinu , , , dan . Hal yang sama berlaku untuk probabilitas bersyarat.XP(X[x,x+dx))=f(x)dxP(X[a,b])=abf(x)dxP(X=x)=P(X[x,x])=0

Orang Esma
sumber
-1

Nilai titik pada nilai parameter tertentu dari plot kerapatan probabilitas adalah kemungkinan, bukan? Jika demikian, maka pernyataan tersebut dapat dikoreksi dengan hanya mengubah P (tinggi | jantan) menjadi L (tinggi | jantan).

Michael Lew
sumber