Metode non-parametrik yang berbeda untuk memperkirakan distribusi probabilitas data

10

Saya punya beberapa data dan berusaha menyesuaikan kurva yang halus dengannya. Namun, saya tidak ingin menegakkan terlalu banyak kepercayaan sebelumnya atau pra-konsepsi yang terlalu kuat (kecuali yang tersirat oleh sisa pertanyaan saya) di atasnya, atau distribusi tertentu.

Saya hanya ingin mencocokkannya dengan beberapa kurva yang halus (atau memiliki perkiraan yang baik dari distribusi probabilitas yang mungkin berasal dari). Satu-satunya metode yang saya tahu untuk melakukan ini adalah estimasi kepadatan kernel (KDE). Saya bertanya-tanya, apakah orang tahu metode lain untuk memperkirakan hal seperti itu. Saya hanya ingin daftar mereka dan dari sana saya bisa melakukan penelitian sendiri untuk mencari tahu mana yang ingin saya gunakan.

Memberikan tautan atau referensi bagus (atau intuisi yang bagus) selalu diterima (dan dianjurkan)!

Pinokio
sumber
3
" Saya tidak ingin menegakkan kepercayaan sebelumnya tentang hal itu " - maka Anda tidak dapat menganggap itu mulus, atau bahkan berkelanjutan (itu akan menjadi kepercayaan sebelumnya). Dalam hal ini, ecdf adalah satu-satunya jalan Anda.
Glen_b -Reinstate Monica
1
Untuk yang kuat percaya saya menjadi cara yang lebih baik untuk mengungkapkan pertanyaan saya. Maksud saya, saya tidak ingin menganggap kata itu, Bernoulli atau sesuatu yang mungkin membatasi. Saya tidak tahu apa itu bdf. Jika Anda memiliki saran atau daftar saran yang bagus, jangan ragu untuk mempostingnya.
Pinocchio
Saya telah memperbarui pertanyaan saya. Apakah itu lebih baik? Lebih jelas? Ngomong-ngomong, tidak ada jawaban yang tepat untuk pertanyaan saya, hanya yang baik dan kurang bermanfaat. :)
Pinocchio
2
ecdf = empiris cdf , maaf. Kami hanya dapat menjawab pertanyaan yang Anda ajukan, bukan pertanyaan yang ingin Anda tanyakan, jadi Anda harus berhati-hati untuk menjelaskan ketika Anda mengungkapkan asumsi Anda.
Glen_b -Reinstate Monica
Histogram yang dinormalisasi dapat dilihat sebagai estimasi kepadatan
Dason

Jawaban:

5

Anda tidak menentukan bahwa Anda sedang berbicara tentang variabel acak kontinu, tetapi saya akan berasumsi, karena Anda menyebutkan KDE, bahwa Anda menginginkannya.

Dua metode lain untuk memasang kerapatan halus:

1) estimasi kepadatan log-spline. Di sini kurva spline dipasang ke kepadatan log.

Contoh makalah:

Kooperberg dan Stone (1991),
"Sebuah studi estimasi kepadatan logspline,"
Statistik Komputasi & Analisis Data , 12 , 327-347

Kooperberg menyediakan tautan ke pdf makalahnya di sini , di bawah "1991".

Jika Anda menggunakan R, ada paket untuk ini. Contoh kecocokan yang dihasilkan olehnya ada di sini . Di bawah ini adalah histogram dari log data yang ditetapkan di sana, dan reproduksi perkiraan logspline dan kepadatan kernel dari jawabannya:

histogram data log

Perkiraan kepadatan logspline:

plot logspline

Perkiraan kepadatan kernel:

estimasi kepadatan kernel

2) model campuran hingga . Di sini beberapa keluarga distribusi yang nyaman dipilih (dalam banyak kasus, normal), dan kepadatan diasumsikan merupakan campuran dari beberapa anggota keluarga yang berbeda. Perhatikan bahwa perkiraan kepadatan kernel dapat dilihat sebagai campuran seperti itu (dengan kernel Gaussian, mereka adalah campuran dari Gaussians).

Lebih umum ini mungkin dipasang melalui ML, atau algoritma EM, atau dalam beberapa kasus melalui pencocokan momen, meskipun dalam keadaan tertentu pendekatan lain mungkin layak.

(Ada banyak paket R yang melakukan berbagai bentuk pemodelan campuran.)

Ditambahkan di edit:

3) Histogram bergeser rata-rata
(yang secara harfiah tidak mulus, tetapi mungkin cukup mulus untuk kriteria Anda yang tidak disebutkan):

Bayangkan menghitung urutan histogram pada beberapa binwidth tetap ( ), melintasi asal-bin yang bergeser dengan untuk beberapa integer setiap kali, dan kemudian dirata-ratakan. Sekilas ini tampak seperti histogram yang dilakukan pada binwidth , tetapi jauh lebih lancar.bb/kkb/k

Misalnya, hitung 4 histogram masing-masing pada binwidth 1, tetapi diimbangi dengan + 0, + 0,25, + 0,5, + 0,75 dan kemudian rata-rata ketinggian pada setiap diberikan . Anda berakhir dengan sesuatu seperti:x

Rata-rata bergeser histogram

Diagram diambil dari jawaban ini . Seperti yang saya katakan di sana, jika Anda pergi ke tingkat upaya itu, Anda mungkin juga melakukan estimasi kepadatan kernel.

Glen_b -Reinstate Monica
sumber
Untuk menambah ini. Untuk model campuran - saya kira Anda bisa memasukkan campuran 2, lalu 3, lalu 4 distribusi dan berhenti setelah tidak ada peningkatan yang signifikan dalam kemungkinan log atau semacamnya ...
waferthin
4

Tunduk pada komentar di atas tentang asumsi seperti kehalusan dll. Anda dapat melakukan estimasi kepadatan nonparametrik Bayesian menggunakan model campuran dengan proses Dirichlet sebelumnya.

Gambar di bawah ini menunjukkan kontur kerapatan probabilitas yang diperoleh dari estimasi MCMC untuk model campuran DP normal bivariat untuk data 'setia lama'. Poin-poin diwarnai IIRC sesuai dengan pengelompokan yang diperoleh pada langkah MCMC terakhir.

masukkan deskripsi gambar di sini

Teh 2010 memberikan latar belakang yang bagus.

dugaan
sumber