Pada halaman Wikipedia tentang pengklasifikasi naif Bayes , ada baris ini:
(Distribusi probabilitas lebih dari 1 adalah OK. Ini adalah area di bawah kurva lonceng yang sama dengan 1.)
Bagaimana nilai bisa OK? Saya pikir semua nilai probabilitas dinyatakan dalam kisaran . Lebih lanjut, mengingat bahwa dimungkinkan untuk memiliki nilai seperti itu, bagaimana nilai itu diperoleh dalam contoh yang ditunjukkan pada halaman?
distributions
probability
normal-distribution
pdf
babelproofreader
sumber
sumber
p
untuk kepadatan probabilitas dan huruf besarP
untuk probabilitasJawaban:
Halaman Wiki itu menyalahgunakan bahasa dengan merujuk pada angka ini sebagai suatu probabilitas. Anda benar bahwa itu tidak benar. Ini sebenarnya adalah probabilitas per kaki . Secara khusus, nilai 1,5789 (untuk ketinggian 6 kaki) menyiratkan bahwa probabilitas ketinggian antara, katakanlah, 5,99 dan 6,01 kaki dekat dengan nilai unitless berikut:
Ini nilai harus tidak melebihi 1, seperti yang Anda tahu. (Kisaran ketinggian kecil (0,02 dalam contoh ini) adalah bagian penting dari peralatan probabilitas. Ini adalah "diferensial" tinggi, yang akan saya singkatkan .) Probabilitas per unit sesuatu adalah disebut densitas secara analogi dengan densitas lain, seperti massa per satuan volume.d(height)
Kepadatan probabilitas bonafide dapat memiliki nilai besar yang sewenang-wenang, bahkan yang tak terbatas.
Contoh ini menunjukkan fungsi kepadatan probabilitas untuk distribusi Gamma (dengan parameter bentuk dan skala ). Karena sebagian besar kepadatan kurang dari , kurva harus naik lebih tinggi dari agar memiliki luas total seperti yang diperlukan untuk semua distribusi probabilitas.3/2 1/5 1 1 1
Kepadatan ini (untuk distribusi beta dengan parameter ) menjadi tak terbatas pada dan . Total area masih terbatas (dan sama dengan )!1/2,1/10 0 1 1
Nilai 1,5789 / kaki diperoleh dalam contoh itu dengan memperkirakan bahwa ketinggian laki-laki memiliki distribusi normal dengan rata-rata 5,855 kaki dan varian 3,50e-2 kaki persegi. (Ini dapat ditemukan dalam tabel sebelumnya.) Akar kuadrat dari varian itu adalah standar deviasi, 0,18717 kaki. Kami menyatakan kembali 6 kaki sebagai jumlah SD dari rata-rata:
Pembagian dengan standar deviasi menghasilkan hubungan
Kepadatan probabilitas normal, menurut definisi, sama dengan
(Sebenarnya, saya curang: Saya hanya meminta Excel untuk menghitung NORMDIST (6, 5.855, 0.18717, FALSE). Tetapi kemudian saya benar-benar mengeceknya dengan rumus, hanya untuk memastikan.) Ketika kita menghapus diferensial esensial dari rumus hanya angka tersisa, seperti senyum Cheshire Cat. Kami, para pembaca, perlu memahami bahwa jumlahnya harus dikalikan dengan perbedaan kecil dalam ketinggian untuk menghasilkan probabilitas.d(height) 1.5789
sumber
Ini adalah kesalahan umum karena tidak memahami perbedaan antara fungsi massa probabilitas, di mana variabelnya terpisah, dan fungsi kepadatan probabilitas, di mana variabel tersebut kontinu. Lihat Apa itu distribusi probabilitas :
sumber
Saya berpikir bahwa distribusi seragam kontinu selama interval memberikan contoh langsung untuk pertanyaan ini: Dalam distribusi seragam kontinu, kepadatan di setiap titik adalah sama di setiap titik (distribusi seragam). Selain itu, karena area di bawah persegi panjang harus satu (sama seperti area di bawah kurva normal harus satu), nilai kerapatan harus karena setiap persegi panjang dengan basis dan area harus memiliki tinggi .[a,b] 1/(b−a) b−a 1 1/(b−a)
Jadi nilai kerapatan seragam pada interval adalah , pada interval itu adalah , ...[0,0.5] 1/(0.5−0)=2 [0,0.1] 10
sumber
Saya tidak tahu apakah artikel Wikipedia telah diedit setelah posting awal di utas ini, tetapi sekarang tertulis "Perhatikan bahwa nilai yang lebih besar dari 1 OK di sini - ini adalah kepadatan probabilitas daripada probabilitas, karena tinggi adalah variabel kontinu. ", dan setidaknya dalam konteks langsung ini, P digunakan untuk probabilitas dan p digunakan untuk kepadatan probabilitas. Ya, sangat ceroboh karena artikel menggunakan p di beberapa tempat untuk berarti probabilitas, dan di tempat lain sebagai kepadatan probabilitas.
Kembali ke pertanyaan awal "Bisakah nilai distribusi probabilitas melebihi 1 menjadi OK?" Tidak, tapi saya sudah melihatnya selesai (lihat paragraf terakhir saya di bawah).
Berikut ini cara menginterpretasikan probabilitas> 1. Pertama-tama, perhatikan bahwa orang dapat dan memang memberikan upaya 150%, seperti yang sering kita dengar dalam olahraga dan kadang-kadang berfungsi https://www.youtube.com/watch?v=br_vSdAOHQQ . Jika Anda yakin sesuatu akan terjadi, itu adalah probabilitas 1. Probabilitas 1,5 dapat diartikan sebagai Anda 150% yakin peristiwa itu akan terjadi - semacam memberi upaya 150%.
Dan jika Anda dapat memiliki probabilitas> 1, saya kira Anda dapat memiliki probabilitas <0. Probabilitas negatif dapat diartikan sebagai berikut. Probabilitas 0,001 berarti hampir tidak ada peluang peristiwa itu terjadi. Probabilitas = 0 berarti "tidak mungkin". Peluang negatif, seperti -1.2, sesuai dengan "Anda pasti bercanda".
Ketika saya masih remaja baru keluar dari sekolah 3 dekade yang lalu, saya menyaksikan sebuah peristiwa yang lebih mengejutkan daripada memecahkan hambatan suara dalam penerbangan, yaitu, memecahkan hambatan kesatuan dalam probabilitas. Analis dengan gelar Ph.D. dalam Fisika telah menghabiskan 2 tahun penuh waktu (mungkin memberi 150%) mengembangkan model untuk menghitung probabilitas mendeteksi objek X, pada akhirnya model dan analisisnya berhasil menyelesaikan tinjauan sejawat oleh beberapa ilmuwan dan insinyur yang berafiliasi erat dengan AS. pemerintah. Saya tidak akan memberi tahu Anda apa objek X, tetapi objek X, dan probabilitas untuk mendeteksinya, adalah dan masih menarik bagi pemerintah AS. Model menyertakan rumus untuk = Prob (peristiwa y terjadi).Py Py dan beberapa istilah lain semuanya digabungkan ke dalam formula akhir, yang merupakan Prob (objek X terdeteksi). Memang, nilai dihitung Prob (objek X terdeteksi) berada dalam kisaran [0,1], seperti probabilitas "tradisional" dalam tradisi Kolmogorov. dalam bentuk aslinya selalu dalam [0,1] dan melibatkan fungsi transendental "variasi kebun" yang tersedia dalam Fortran standar atau kalkulator ilmiah apa pun. Namun, untuk alasan yang hanya diketahui oleh analis dan Tuhan (mungkin karena ia melihatnya dilakukan di kelas Fisika dan buku-bukunya, tetapi tidak tahu bahwa ia ditunjukkan beberapa kasus di mana ia bekerja, tidak lebih banyak di mana ia melakukannya. tidak, dan nama orang ini serta penilaian ilmiah / matematisnya tidak sama dengan Dirac),Py Py (dan abaikan istilah sisanya), yang selanjutnya akan disebut sebagai . Itu adalah ekspansi Taylor dua istilah yang dimasukkan ke dalam ekspresi akhir untuk Prob (objek X terdeteksi). Apa yang tidak disadarinya, sampai saya tunjukkan padanya, adalah bahwa sama dengan sekitar 1,2 menggunakan nilai kasus dasar untuk semua parameter. Memang itu mungkin untukPy Py Py Py naik sekitar 1,8. Dan itulah cara penghalang kesatuan rusak dalam probabilitas. Tetapi lelaki itu tidak tahu bahwa dia telah mencapai prestasi perintis ini sampai saya menunjukkannya kepadanya, setelah baru saja melakukan perhitungan cepat pada kalkulator kartu kredit ukuran Casio yang bertenaga baterai di ruang konferensi yang gelap (tidak mungkin melakukannya dengan kalkulator bertenaga surya). Itu akan seperti Chuck Yeager keluar untuk putaran hari Minggu di pesawatnya, dan hanya diberi tahu berbulan-bulan kemudian bahwa dia telah memecahkan penghalang suara.
sumber
Ketika variabel acak kontinu dan fungsi kerapatan probabilitasnya adalah , adalah probabilitas, tetapi bukan merupakan probabilitas dan dapat lebih besar dari satu. dilaporkan bukan merupakan probabilitas, tetapi adalah.X f(x) f(x)dx f(x) f(height|male) f(height|male)dheight
Dengan kata lain, untuk variabel acak kontinu , , , dan . Hal yang sama berlaku untuk probabilitas bersyarat.X P(X∈[x,x+dx))=f(x)dx P(X∈[a,b])=∫baf(x)dx P(X=x)=P(X∈[x,x])=0
sumber
Nilai titik pada nilai parameter tertentu dari plot kerapatan probabilitas adalah kemungkinan, bukan? Jika demikian, maka pernyataan tersebut dapat dikoreksi dengan hanya mengubah P (tinggi | jantan) menjadi L (tinggi | jantan).
sumber