Saya menggunakan Bayes untuk memecahkan masalah pengelompokan. Setelah melakukan beberapa perhitungan saya berakhir dengan kebutuhan untuk mendapatkan rasio dua probabilitas:
untuk dapat memperoleh . Probabilitas ini diperoleh dengan mengintegrasikan dua KDE multivarian 2D berbeda seperti yang dijelaskan dalam jawaban ini :
di mana dan adalah KDE dan integrasi dilakukan untuk semua titik di bawah ambang batas dan . Kedua KDE menggunakan kernel Gaussian . Gambar representatif dari KDE yang mirip dengan yang saya kerjakan dapat dilihat di sini: Mengintegrasikan penduga kepadatan kernel dalam 2D .
Saya menghitung KDE dengan menggunakan python
fungsi stats.gaussian_kde , jadi saya menganggap bentuk umum sebagai berikut:
di mana n
panjang array poin saya dan h
bandwidth yang digunakan.
Integral di atas dihitung menggunakan proses Monte Carlo yang secara komputasi cukup mahal. Saya telah membaca di suatu tempat (lupa di mana, maaf) bahwa dalam kasus seperti ini dimungkinkan untuk mengganti rasio probabilitas dengan rasio PDF (KDE) yang dievaluasi pada titik ambang untuk mendapatkan hasil yang sama-sama valid. Saya tertarik dengan ini karena menghitung rasio KDEs adalah urutan besarnya lebih cepat daripada menghitung rasio integral dengan MC.
Jadi pertanyaannya direduksi menjadi validitas ungkapan ini:
Dalam keadaan apa, jika ada, dapatkah saya mengatakan bahwa hubungan ini benar?
[kesalahan ketik tetap (EDIT)]
Tambahkan :
Ini pada dasarnya pertanyaan yang sama tetapi dibuat dalam bentuk yang lebih matematis .
P(X)
yang saya coba hindari menghitung. Bisakah Anda memperluas sedikit pada relevansi parameter itu?Jawaban:
KDE adalah campuran dari distribusi Normal. Mari kita lihat satu pun dari mereka.
Definisi dan menunjukkan nilainya invarian di bawah terjemahan dan skala di pesawat, sehingga cukup untuk mempertimbangkan distribusi Normal standar dengan PDF . KetimpanganP ( B ) fP(A) P(B) f
setara dengan
Memperkenalkan koordinat kutub memungkinkan integral untuk ditulis ulangρ,θ
Sekarang perhatikan campurannya. Karena itu linear,
Memang, dan adalah proporsional. Konstanta proporsionalitas adalah .f P 2πh2
Bahwa hubungan proporsionalitas antara dan adalah istimewaP f dapat dihargai dengan merenungkan contoh tandingan sederhana. Biarkan memiliki distribusi seragam pada set terukur dari unit unit dan memiliki distribusi seragam pada set terukur yang terpisah dari dan memiliki area . Kemudian campuran dengan PDF memiliki nilai konstan pada , pada , dan nol di tempat lain. Ada tiga kasus yang perlu dipertimbangkan:f1 A1 f2 A2 A1 μ>1 f=f1/2+f2/2 1/2 A1 1/(2μ) A2
Di tempat lain, adalah nol dan integral adalah nol.f P
Jelas rasio (di mana itu didefinisikan) tidak konstan dan bervariasi antara dan . Meskipun distribusi ini tidak kontinu, itu dapat dilakukan dengan menambahkan distribusi Normal ke dalamnya. Dengan membuat kedua nilai eigen dari kecil, ini akan mengubah distribusi sangat sedikit dan menghasilkan hasil yang sama secara kualitatif - hanya sekarang nilai rasio akan mencakup semua angka dalam interval .1 / μ ≠ 1 ( 0 , Σ ) Σ f / P [ 1 , 1 / μ ]1 1/μ≠1 (0,Σ) Σ f/P [1,1/μ]
Hasil ini juga tidak menggeneralisasi ke dimensi lain. Pada dasarnya perhitungan yang sama yang memulai jawaban ini menunjukkan bahwa adalah fungsi Gamma yang tidak lengkap dan yang jelas tidak sama dengan . Bahwa dua dimensi khusus dapat dihargai dengan mencatat bahwa integrasi dalam pada dasarnya menyangkut jarak dan ketika mereka terdistribusi secara normal, fungsi jarak memiliki - yang merupakan distribusi eksponensial. Fungsi eksponensial adalah unik karena sebanding dengan turunan sendiri - mana integran dan integral harus proporsional.f P χ 2 ( 2 ) f PP f P χ2(2) f P
sumber