Rasio probabilitas vs rasio PDF

12

Saya menggunakan Bayes untuk memecahkan masalah pengelompokan. Setelah melakukan beberapa perhitungan saya berakhir dengan kebutuhan untuk mendapatkan rasio dua probabilitas:

P(A)/P(B)

untuk dapat memperoleh . Probabilitas ini diperoleh dengan mengintegrasikan dua KDE multivarian 2D berbeda seperti yang dijelaskan dalam jawaban ini :P(H|D)

P(A)=x,y:f^(x,y)<f^(ra,sa)f^(x,y)dxdy
P(B)=x,y:g^(x,y)<g^(rb,sb)g^(x,y)dxdy

di mana f^(x,y) dan g^(x,y) adalah KDE dan integrasi dilakukan untuk semua titik di bawah ambang batas f^(ra,sa) dan g^(rb,sb) . Kedua KDE menggunakan kernel Gaussian . Gambar representatif dari KDE yang mirip dengan yang saya kerjakan dapat dilihat di sini: Mengintegrasikan penduga kepadatan kernel dalam 2D .

Saya menghitung KDE dengan menggunakan pythonfungsi stats.gaussian_kde , jadi saya menganggap bentuk umum sebagai berikut:

KDE(x,y)=1ni=1n12h2e(xxi)2+(yyi)22h2

di mana npanjang array poin saya dan hbandwidth yang digunakan.

Integral di atas dihitung menggunakan proses Monte Carlo yang secara komputasi cukup mahal. Saya telah membaca di suatu tempat (lupa di mana, maaf) bahwa dalam kasus seperti ini dimungkinkan untuk mengganti rasio probabilitas dengan rasio PDF (KDE) yang dievaluasi pada titik ambang untuk mendapatkan hasil yang sama-sama valid. Saya tertarik dengan ini karena menghitung rasio KDEs adalah urutan besarnya lebih cepat daripada menghitung rasio integral dengan MC.

Jadi pertanyaannya direduksi menjadi validitas ungkapan ini:

P(A)P(B)=f^(ra,sa)g^(rb,sb)

Dalam keadaan apa, jika ada, dapatkah saya mengatakan bahwa hubungan ini benar?

[kesalahan ketik tetap (EDIT)]


Tambahkan :

Ini pada dasarnya pertanyaan yang sama tetapi dibuat dalam bentuk yang lebih matematis .

Gabriel
sumber
1
Perhatikan bahwa keberadaan yang sesuai dipastikan oleh teorema bernilai rata-rata untuk integral. ra,b,sa,b
Dave
1
Saya percaya Mills Ratio mungkin relevan.
whuber
@whuber bahwa rasio tampaknya mengharuskan saya tahu nilai P(X)yang saya coba hindari menghitung. Bisakah Anda memperluas sedikit pada relevansi parameter itu?
Gabriel

Jawaban:

3

KDE adalah campuran dari distribusi Normal. Mari kita lihat satu pun dari mereka.

Definisi dan menunjukkan nilainya invarian di bawah terjemahan dan skala di pesawat, sehingga cukup untuk mempertimbangkan distribusi Normal standar dengan PDF . KetimpanganP ( B ) fP(A)P(B)f

f(x,y)f(r,s)

setara dengan

x2+y2r2+s2.

Memperkenalkan koordinat kutub memungkinkan integral untuk ditulis ulangρ,θ

P(r,s)=12π02πr2+s2ρexp(ρ2/2)dρdθ=exp((r2+s2)/2)=2πf(r,s).

Sekarang perhatikan campurannya. Karena itu linear,

P(r,s)=1ni2πf((rxi)/h,(syi)/h)=2πh2(1ni1h2f((rxi)/h,(syi)/h))=2πh2KDE(r,s).

Memang, dan adalah proporsional. Konstanta proporsionalitas adalah .fP2πh2


Bahwa hubungan proporsionalitas antara dan adalah istimewaPf dapat dihargai dengan merenungkan contoh tandingan sederhana. Biarkan memiliki distribusi seragam pada set terukur dari unit unit dan memiliki distribusi seragam pada set terukur yang terpisah dari dan memiliki area . Kemudian campuran dengan PDF memiliki nilai konstan pada , pada , dan nol di tempat lain. Ada tiga kasus yang perlu dipertimbangkan:f1A1f2A2A1μ>1f=f1/2+f2/21/2A11/(2μ)A2

  1. (r,s)A1 . Di sini mencapai maksimum, di mana . Rasio .f(r,s)=1/2P(r,s)=1f(r,s)/P(r,s)=1/2

  2. (r,s)A2 . Di sini benar-benar kurang dari tetapi lebih besar dari . Dengan demikian wilayah integrasi adalah pelengkap dan integral yang dihasilkan harus sama dengan . Rasio .f(r,s)1/20A11/2f(r,s)/P(r,s)=(1/(2μ))/(1/2)=1/μ

  3. Di tempat lain, adalah nol dan integral adalah nol.fP

Jelas rasio (di mana itu didefinisikan) tidak konstan dan bervariasi antara dan . Meskipun distribusi ini tidak kontinu, itu dapat dilakukan dengan menambahkan distribusi Normal ke dalamnya. Dengan membuat kedua nilai eigen dari kecil, ini akan mengubah distribusi sangat sedikit dan menghasilkan hasil yang sama secara kualitatif - hanya sekarang nilai rasio akan mencakup semua angka dalam interval .1 / μ 1 ( 0 , Σ ) Σ f / P [ 1 , 1 / μ ]11/μ1(0,Σ)Σf/P[1,1/μ]


Hasil ini juga tidak menggeneralisasi ke dimensi lain. Pada dasarnya perhitungan yang sama yang memulai jawaban ini menunjukkan bahwa adalah fungsi Gamma yang tidak lengkap dan yang jelas tidak sama dengan . Bahwa dua dimensi khusus dapat dihargai dengan mencatat bahwa integrasi dalam pada dasarnya menyangkut jarak dan ketika mereka terdistribusi secara normal, fungsi jarak memiliki - yang merupakan distribusi eksponensial. Fungsi eksponensial adalah unik karena sebanding dengan turunan sendiri - mana integran dan integral harus proporsional.f P χ 2 ( 2 ) f PPfPχ2(2)fP

whuber
sumber
Ini adalah jawaban yang luar biasa, terima kasih banyak. Butuh beberapa saat untuk memproses sepenuhnya semua yang Anda tulis di sini, tetapi saya sepenuhnya percaya pada Anda perhitungan yang berarti saya telah menandai pertanyaan sebagai terselesaikan. Bersulang.
Gabriel