Apa perbedaan antara "kemungkinan" dan "probabilitas"?

474

The halaman wikipedia mengklaim bahwa kemungkinan dan probabilitas adalah konsep-konsep yang berbeda.

Dalam bahasa non-teknis, "kemungkinan" biasanya merupakan sinonim untuk "probabilitas," tetapi dalam penggunaan statistik ada perbedaan yang jelas dalam perspektif: jumlah yang merupakan probabilitas dari beberapa hasil yang diamati mengingat seperangkat nilai parameter dianggap sebagai kemungkinan himpunan nilai parameter mengingat hasil yang diamati.

Dapatkah seseorang memberikan deskripsi yang lebih sederhana tentang apa artinya ini? Selain itu, beberapa contoh bagaimana "probabilitas" dan "kemungkinan" tidak setuju akan menyenangkan.

Douglas S. Stones
sumber
9
Pertanyaan bagus Saya akan menambahkan "peluang" dan "peluang" di sana juga :)
Neil McGuigan
5
Saya pikir Anda harus melihat stats.stackexchange.com/questions/665/… pertanyaan ini karena kemungkinan untuk tujuan statistik dan probabilitas untuk probabilitas.
robin girard
3
Wow, ini beberapa jawaban yang sangat bagus. Terima kasih banyak untuk itu! Beberapa poin segera, saya akan memilih yang saya sukai sebagai jawaban "diterima" (meskipun ada beberapa yang saya pikir sama-sama layak).
Douglas S. Stones
1
Perhatikan juga bahwa "rasio kemungkinan" sebenarnya merupakan "rasio probabilitas" karena merupakan fungsi dari pengamatan.
JohnRos

Jawaban:

321

Jawabannya tergantung pada apakah Anda berurusan dengan variabel acak diskrit atau kontinu. Jadi, saya akan membagi jawaban saya sesuai. Saya akan berasumsi bahwa Anda menginginkan detail teknis dan belum tentu penjelasan dalam bahasa Inggris.

Variabel Acak Terpisah

Misalkan Anda memiliki proses stokastik yang mengambil nilai diskrit (misalnya, hasil melempar koin 10 kali, jumlah pelanggan yang tiba di toko dalam 10 menit dll). Dalam kasus seperti itu, kita dapat menghitung probabilitas mengamati serangkaian hasil tertentu dengan membuat asumsi yang sesuai tentang proses stokastik yang mendasari (misalnya, probabilitas kepala pendaratan koin adalah dan bahwa pelemparan koin independen).p

Nyatakan hasil yang diamati oleh dan himpunan parameter yang menggambarkan proses stokastik sebagai . Jadi, ketika kita berbicara tentang probabilitas, kita ingin menghitung . Dengan kata lain, diberikan nilai-nilai tertentu untuk , adalah probabilitas bahwa kita akan mengamati hasil diwakili oleh .OθP(O|θ)θP(O|θ)O

Namun, ketika kita memodelkan proses stokastik kehidupan nyata, kita sering tidak tahu . Kami hanya mengamati dan tujuannya kemudian adalah untuk sampai pada perkiraan untuk yang akan menjadi pilihan yang masuk akal mengingat hasil yang diamati . Kita tahu bahwa diberi nilai , probabilitas mengamati adalah . Dengan demikian, proses estimasi 'alami' adalah memilih yang nilai yang akan memaksimalkan probabilitas bahwa kita benar-benar akan mengamati . Dengan kata lain, kami menemukan nilai parameter yang memaksimalkan fungsi berikut:θOθOθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O) disebut fungsi kemungkinan. Perhatikan bahwa menurut definisi fungsi kemungkinan dikondisikan pada diamati dan bahwa itu adalah fungsi dari parameter yang tidak diketahui .Oθ

Variabel Acak Kontinu

Dalam kasus terus menerus situasinya mirip dengan satu perbedaan penting. Kita tidak bisa lagi berbicara tentang probabilitas yang kita amati diberikan karena dalam kasus kontinu . Tanpa masuk ke masalah teknis, ide dasarnya adalah sebagai berikut:OθP(O|θ)=0

Nyatakan fungsi densitas probabilitas (pdf) yang terkait dengan hasil sebagai: . Jadi, dalam kasus kontinu kami memperkirakan memberikan hasil yang diamati dengan memaksimalkan fungsi berikut:Of(O|θ)θO

L(θ|O)=f(O|θ)

Dalam situasi ini, kita tidak bisa secara teknis menegaskan bahwa kita menemukan nilai parameter yang memaksimalkan probabilitas yang kita amati seperti yang kita memaksimalkan PDF dikaitkan dengan hasil yang diamati .OO

nbro
sumber
35
Perbedaan antara variabel diskrit dan kontinu menghilang dari sudut pandang teori ukuran.
whuber
24
@whuber ya tapi jawaban menggunakan teori ukuran tidak dapat diakses oleh semua orang.
16
@Srikant: Setuju. Komentar itu untuk kepentingan OP, yang merupakan ahli matematika (tapi mungkin bukan ahli statistik) untuk menghindari disesatkan untuk berpikir ada sesuatu yang mendasar tentang perbedaan tersebut.
whuber
6
Anda dapat mengartikan kepadatan kontinu sama dengan kasus diskrit jika digantikan oleh , dalam arti bahwa jika kita meminta (yaitu probabilitas bahwa data terkandung dalam wilayah infinintesimal tentang ) dan jawabannya adalah (the memperjelas bahwa kita sedang menghitung luas "tempat sampah" tipis sangat kecil dari histogram ). d O P r ( O ( O , O + d O ) | θ ) O O f ( O | θ ) d O d O OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdO
probabilityislogic
9
Saya terlambat lebih dari 5 tahun ke pesta, tapi saya pikir tindak lanjut yang sangat penting untuk jawaban ini adalah stats.stackexchange.com/questions/31238/... yang menekankan pada fakta bahwa kemungkinan fungsi adalah bukan pdf sehubungan dengan . ) memang merupakan pdf dari data yang diberikan nilai parameter, tetapi karena adalah fungsi dari saja (dengan data yang disimpan sebagai konstanta), tidak relevan bahwa adalah pdf dari data yang diberikan . θ L ( θ L θ L ( θ ) θL(θ)θL(θLθL(θ)θ
Shobhit
136

Ini adalah jenis pertanyaan yang akan dijawab oleh hampir semua orang dan saya berharap semua jawaban itu baik. Tapi Anda seorang ahli matematika, Douglas, jadi izinkan saya menawarkan jawaban matematika.

Model statistik harus menghubungkan dua entitas konseptual yang berbeda: data , yang merupakan elemen dari beberapa set (seperti ruang vektor), dan model kuantitatif yang mungkin dari perilaku data. Model biasanya diwakili oleh titik pada manifold dimensi terbatas, manifold dengan batas, atau ruang fungsi (yang terakhir disebut sebagai masalah "non-parametrik").xθθ

Data terhubung ke model yang mungkin melalui fungsi . Untuk setiap diberikan , dimaksudkan sebagai probabilitas (atau kepadatan probabilitas) dari . Untuk setiap diberikan , di sisi lain, dapat dilihat sebagai fungsi dari dan biasanya diasumsikan memiliki sifat-sifat bagus tertentu, seperti menjadi terdiferensiasi kedua secara terus-menerus. Niat untuk melihat dengan cara ini dan memohon asumsi ini diumumkan dengan menyebut "kemungkinan."xθΛ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛΛ

Ini seperti perbedaan antara variabel dan parameter dalam persamaan diferensial: kadang-kadang kita ingin mempelajari solusinya (yaitu, kita fokus pada variabel sebagai argumen) dan kadang-kadang kita ingin mempelajari bagaimana solusinya bervariasi dengan parameter. Perbedaan utama adalah bahwa dalam statistik kita jarang perlu mempelajari variasi simultan dari kedua set argumen; tidak ada objek statistik yang secara alami berhubungan dengan mengubah data dan parameter model . Itu sebabnya Anda mendengar lebih banyak tentang dikotomi ini daripada di pengaturan matematika analog.xθ

whuber
sumber
6
+1, jawaban yang keren. Analogi dengan persamaan diferensial tampaknya sangat tepat.
mpiktas
3
Sebagai seorang ekonom, meskipun jawaban ini tidak berhubungan sedekat yang sebelumnya dengan konsep yang saya pelajari, itu adalah yang paling informatif dalam arti intuitif. Terimakasih banyak.
Robson
1
Sebenarnya, pernyataan ini tidak sepenuhnya benar "tidak ada objek statistik yang secara alami berhubungan dengan mengubah data x dan parameter model θ.". Ada, ini disebut "smoothing, filtering, and prediction", dalam model liniernya filter Kalman, dalam model nonlinier, mereka memiliki filter nonlinier penuh, en.wikipedia.org/wiki/Kushner_equation dll
crow
1
Ya, jawaban yang bagus! Separah ini kedengarannya, dengan memilih alih-alih notasi standar , itu memudahkan saya untuk melihat bahwa kami dimulai dengan probabilitas gabungan yang dapat didefinisikan sebagai kemungkinan atau probabilitas kondisional. Plus, komentar "properti bagus tertentu" membantu. Terima kasih! P ( x , θ )Λ(x,θ)P(x,θ)
Mike Williamson
2
@whuber Ya, saya tahu bukan notasi yang biasa. Itulah mengapa itu membantu! Saya berhenti berpikir bahwa itu pasti memiliki makna tertentu dan sebagai gantinya hanya mengikuti logika. ;-pΛ
Mike Williamson
111

Saya akan mencoba dan meminimalkan matematika dalam penjelasan saya karena sudah ada beberapa penjelasan matematika yang baik.

Sebagaimana Robin Girand tunjukkan perbedaan antara probabilitas dan kemungkinan terkait erat dengan perbedaan antara probabilitas dan statistik . Dalam arti, probabilitas dan statistik berkaitan dengan masalah-masalah yang bertolak belakang atau berlawanan satu sama lain.

Pertimbangkan lemparan koin. (Jawaban saya akan mirip dengan Contoh 1 di Wikipedia .) Jika kita tahu koin itu adil ( ) pertanyaan probabilitas yang umum adalah: Berapakah probabilitas mendapatkan dua kepala berturut-turut. Jawabannya adalah .P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

Pertanyaan statistik yang umum adalah: Apakah koin itu adil? Untuk menjawab ini kita perlu bertanya: Sejauh mana sampel kami mendukung hipotesis kami bahwa ?P(H)=P(T)=0.5

Poin pertama yang perlu diperhatikan adalah bahwa arah pertanyaan telah terbalik. Dalam probabilitas kita mulai dengan parameter yang diasumsikan ( ) dan memperkirakan probabilitas sampel yang diberikan (dua kepala berturut-turut). Dalam statistik kami mulai dengan pengamatan (dua kepala berturut-turut) dan membuat INFERENSI tentang parameter kami ( ).P(head)p=P(H)=1P(T)=1q

Contoh 1 di Wikipedia menunjukkan kepada kita bahwa perkiraan kemungkinan maksimum setelah 2 kepala berturut-turut adalah . Tetapi data sama sekali tidak mengesampingkan nilai parameter yang benar (jangan khawatirkan diri kita dengan detail saat ini). Memang hanya nilai sangat kecil dan khususnya dapat dihilangkan secara wajar setelah (dua lemparan koin). Setelah lemparan ketiga muncul, kita sekarang dapat menghilangkan kemungkinan bahwa (yaitu itu bukan koin berkepala dua), tetapi sebagian besar nilai di antaranya dapat didukung secara wajar oleh dataP(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2P(H)=1.0. (Interval kepercayaan 95% binomial yang tepat untuk adalah 0,094 hingga 0,992.p(H)

Setelah 100 lemparan koin dan (katakanlah) 70 kepala, kita sekarang memiliki dasar yang masuk akal untuk kecurigaan bahwa koin itu sebenarnya tidak adil. Tepatnya 95% CI pada sekarang 0,600 hingga 0,787 dan probabilitas untuk mengamati suatu hasil sama ekstrimnya dengan 70 atau lebih kepala (atau ekor) dari 100 kali lemparan yang diberikan adalah 0,0000785.p(H)p(H)=0.5

Meskipun saya belum secara eksplisit menggunakan perhitungan kemungkinan, contoh ini menangkap konsep kemungkinan: Kemungkinan adalah ukuran sejauh mana sampel memberikan dukungan untuk nilai-nilai tertentu dari suatu parameter dalam model parametrik .

Thylacoleo
sumber
3
Jawaban bagus! Terutama tiga paragraf terakhir sangat berguna. Bagaimana Anda akan memperpanjang ini untuk menggambarkan kasus terus menerus?
Demetris
8
Bagi saya, jawaban terbaik. Saya sama sekali tidak keberatan matematika, tetapi bagi saya matematika adalah alat yang diperintah oleh apa yang saya inginkan (saya tidak menikmati matematika untuk kepentingannya sendiri, tetapi untuk apa itu membantu saya lakukan). Hanya dengan jawaban ini saya tahu yang terakhir.
Mörre
73

Saya akan memberikan Anda perspektif dari sudut pandang Likelihood Theory yang berasal dari Fisher - dan merupakan dasar definisi statistik dalam artikel Wikipedia yang dikutip.

Misalkan Anda memiliki acak variates yang timbul dari distribusi parameter , di mana adalah parameter karakteristik . Maka probabilitas adalah: , dengan dikenal . F ( X ; θ ) θ F X = x P ( X = x ) = F ( x ; θ ) θXF(X;θ)θFX=xP(X=x)=F(x;θ)θ

Lebih sering, Anda memiliki data dan tidak diketahui. Dengan mengasumsikan model , kemungkinan didefinisikan sebagai probabilitas data yang diamati sebagai fungsi : . Perhatikan bahwa diketahui, tetapi tidak diketahui; sebenarnya motivasi untuk menentukan kemungkinan adalah untuk menentukan parameter distribusi.θ F θ L ( θ ) = P ( θ ; X = x ) X θXθFθL(θ)=P(θ;X=x)Xθ

Meskipun sepertinya kita baru saja menulis ulang fungsi probabilitas, konsekuensi utama dari ini adalah bahwa fungsi kemungkinan tidak mematuhi hukum probabilitas (misalnya, itu tidak terikat pada interval [0, 1]). Namun, fungsi kemungkinan sebanding dengan probabilitas data yang diamati.

Konsep kemungkinan ini benar-benar mengarah ke aliran pemikiran yang berbeda, "ahli kemungkinan" (berbeda dari frequentist dan bayesian) dan Anda dapat google untuk mencari semua berbagai debat sejarah. Landasannya adalah Prinsip Likelihood yang pada dasarnya mengatakan bahwa kita dapat melakukan inferensi langsung dari fungsi likelihood (baik orang Bayesia maupun yang sering menerima ini karena ini bukan inferensi berbasis probabilitas). Saat ini banyak dari apa yang diajarkan sebagai "sering" di sekolah sebenarnya adalah campuran dari pemikiran sering dan kemungkinan.

Untuk wawasan yang lebih dalam, awal yang baik dan referensi sejarah adalah Kemungkinan Edwards . Untuk pandangan modern, saya akan merekomendasikan monograf Richard Royall yang luar biasa, Bukti Statistik: Paradigma Kemungkinan .

ars
sumber
3
Jawaban yang menarik, saya benar-benar berpikir bahwa "sekolah kemungkinan" pada dasarnya adalah "frequentist yang tidak merancang sekolah sampel", sedangkan "sekolah desain" adalah yang lainnya. Saya sendiri sebenarnya kesulitan mengatakan "sekolah" mana saya, karena saya memiliki sedikit pengetahuan dari setiap sekolah. Sekolah "Probability as extended logic" adalah favorit saya (duh), tetapi saya tidak memiliki pengalaman praktis yang cukup dalam menerapkannya pada masalah nyata untuk menjadi dogmatis tentang hal itu.
probabilityislogic
5
+1 untuk "fungsi kemungkinan tidak mematuhi hukum probabilitas (misalnya, itu tidak terikat pada interval [0, 1]). Namun, fungsi kemungkinan sebanding dengan probabilitas dari data yang diamati."
Walrus the Cat
10
"fungsi kemungkinan tidak mematuhi hukum probabilitas" dapat menggunakan beberapa klarifikasi lebih lanjut, terutama karena ditulis sebagai θ: L (θ) = P (θ; X = x), yaitu disamakan dengan probabilitas!
redcalx
Terima kasih atas jawaban anda. Bisakah Anda menjawab komentar yang dibuat @ locster?
Vivek Subramanian
2
Bagi saya sebagai bukan ahli matematika, ini berbunyi seperti matematika agama, dengan keyakinan yang berbeda menghasilkan nilai yang berbeda untuk peluang peristiwa terjadi. Dapatkah Anda memformulasikannya, sehingga lebih mudah untuk memahami apa perbedaan kepercayaan itu dan mengapa semuanya masuk akal, alih-alih yang salah benar dan sekolah / keyakinan lain benar? (asumsi bahwa ada satu cara yang benar untuk menghitung peluang terjadinya peristiwa)
Zelphir Kaltstahl
57

Mengingat semua jawaban teknis yang bagus di atas, izinkan saya membawanya kembali ke bahasa: Probabilitas mengukur antisipasi (hasil), kemungkinan mengukur kuantifikasi kepercayaan (dalam model).

Misalkan seseorang menantang kita untuk 'permainan judi yang menguntungkan'. Kemudian, probabilitas akan melayani kami untuk menghitung hal-hal seperti profil yang diharapkan dari untung dan rugi Anda (rata-rata, mode, median, varians, rasio informasi, nilai pada risiko, kehancuran penjudi, dan sebagainya). Sebaliknya, kemungkinan akan membantu kita untuk mengukur apakah kita memercayai probabilitas tersebut di tempat pertama; atau apakah kita 'mencium bau tikus'.


Secara kebetulan - karena seseorang di atas menyebutkan agama-agama statistik - saya percaya rasio kemungkinan menjadi bagian integral dari dunia Bayesian dan juga yang sering terjadi: Di ​​dunia Bayesian, formula Bayes hanya bergabung sebelumnya dengan kemungkinan untuk menghasilkan posterior.

Gipsi
sumber
Jawaban ini meringkaskannya untuk saya. Saya harus memikirkan apa artinya ketika saya membaca bahwa kemungkinan bukanlah probabilitas, tetapi kasus berikut terjadi pada saya. Apa kemungkinan koin itu adil, mengingat kita melihat empat kepala berturut-turut? Kita tidak bisa mengatakan apa-apa tentang probabilitas di sini, tetapi kata "kepercayaan" tampaknya tepat. Apakah kita merasa bisa mempercayai koin itu?
dnuttle
Awalnya ini mungkin tujuan yang dimaksudkan secara historis dari kemungkinan, tetapi saat ini kemungkinan adalah setiap perhitungan bayesian, dan diketahui bahwa probabilitas dapat menggabungkan keyakinan dan kemungkinan, yang mengapa teori Dempster-Shafer diciptakan, untuk mengacaukan kedua interpretasi.
gaborous
50

p(1p)x=1x=0f

f(x,p)=px(1p)1x

f(x,2/3)p=2/3f(1,p)px=1

Yaroslav Bulatov
sumber
Pelengkap yang bagus untuk definisi teoritis yang digunakan di atas!
Frank Meulenaar
Cknpn(1p)knnkpx(1p)1xkx=n/k
41

Jika saya memiliki koin yang adil (nilai parameter) maka kemungkinannya bahwa itu akan muncul kepala adalah 0,5. Jika saya melempar koin 100 kali dan muncul di kepala 52 kali maka kemungkinannya besar adalah adil (nilai numerik kemungkinan berpotensi mengambil sejumlah bentuk).

John
sumber
4
Ini dan jawaban Gypsy harus di atas! Intuisi dan kejelasan di atas kekakuan matematika kering, tidak untuk mengatakan sesuatu yang lebih merendahkan.
Nemanja Radojković
24

P(x|θ)

  • xθθP(x|θ)xP ( x ; θ ) P θ ( x ) θ P ( x | θ )θP(x;θ)Pθ(x)θP(x|θ)P(xθ)/P(θ)
  • θxθ^θP(x|θ)P(x|θ^)θxL(θ^|x)P(x|θ)xθθ

Seringkali, ungkapan ini masih merupakan fungsi dari kedua argumennya, sehingga ini lebih merupakan masalah penekanan.

Lenar Hoyt
sumber
Untuk kasus kedua, saya pikir orang biasanya menulis P (theta | x).
yuqian
Awalnya secara intuitif saya sudah berpikir mereka berdua kata-kata yang sama dengan perbedaan dalam perspektif atau formulasi bahasa alami, jadi saya merasa seperti "Apa? Aku benar selama ini ?!" Tetapi jika ini masalahnya, mengapa membedakan mereka begitu penting? Bahasa Inggris bukan bahasa ibu saya, saya tumbuh dengan hanya satu kata untuk kedua istilah yang tampaknya (atau apakah saya tidak pernah mendapat masalah di mana saya perlu membedakan istilah-istilah itu?) Dan tidak pernah tahu ada perbedaan. Baru sekarang, saya tahu dua istilah bahasa Inggris, saya mulai meragukan pemahaman saya tentang hal-hal ini.
Zelphir Kaltstahl
3
Jawaban Anda tampaknya sangat rumit dan mudah dimengerti. Saya bertanya-tanya, mengapa hanya ada sedikit upvotes.
Julian
4
θθθθ
Saya pikir ini adalah jawaban terbaik di antara semuanya
Aaron
4

θ

P(X|θ)θP(X|θ)dθθθ

Response777
sumber
1
Seperti jawaban dari @Lenar Hoyt menunjukkan, jika theta adalah variabel acak (yang bisa), maka kemungkinan adalah probabilitas. Jadi jawaban sebenarnya adalah bahwa kemungkinan itu bisa menjadi probabilitas, tetapi kadang-kadang tidak.
Mike Wise
@ MikeWise, saya pikir theta selalu dapat dilihat sebagai variabel "acak", sementara kemungkinannya adalah itu tidak begitu "acak" ...
Response777
4

Tahukah Anda pilot ke serial tv "num3ers" di mana FBI mencoba untuk menemukan pangkalan dari seorang kriminal berantai yang tampaknya memilih korbannya secara acak?

p(x|θ)xθxθpθ(x)=p(x|θ)xθ

xθ

θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^

lx(θ)θpθ(x)xp(x|θ)xθ

schotti
sumber