Gaussian multivariat yang tangguh dalam R

11

Saya perlu menyesuaikan distribusi Gaussian umum ke cloud 7-redup poin yang mengandung cukup banyak outlier dengan leverage tinggi. Apakah Anda tahu paket R yang bagus untuk pekerjaan ini?

kjetil b halvorsen
sumber
3
Anda akan menemukan tautan ke setidaknya empat paket R untuk mengidentifikasi pencilan multivarian dalam balasan untuk pertanyaan serupa di stats.stackexchange.com/questions/213/… . Itu mungkin awal yang baik.
whuber
Mungkin pertanyaannya adalah menghindari saya, tetapi sejauh pas distribusi Gaussian multivariat, mengapa tidak hanya menggunakan mean empiris dan SD sebagai MLE? Anda kemudian dapat fokus pada statistik diagnostik jika ada poin pengaruh / leverage yang tinggi.
AdamO

Jawaban:

1

Ada juga mclust: http://www.stat.washington.edu/research/reports/2012/tr597.pdf http://cran.r-project.org/web/packages/mclust/index.html

Namun satu peringatan: pemodelan campuran dalam ruang dimensi tinggi dapat membuat CPU dan memori cukup intensif jika awan poin Anda besar. Sekitar empat tahun yang lalu saya melakukan batch 11-dimensi, data titik 50-200K, dan itu cenderung berjalan ke 4-11GB RAM dan membutuhkan waktu hingga satu minggu untuk menghitung untuk setiap kasus (dan saya punya 400). Ini tentu saja mungkin, tetapi dapat menjadi sakit kepala jika Anda menggunakan cluster komputasi bersama atau memiliki sumber daya yang terbatas.

Kieran O'Neill
sumber
1

Ini terdengar seperti Model Campuran Gaussian multivariat klasik. Saya pikir paket BayesM mungkin berfungsi.

Berikut adalah beberapa paket Campuran Gaussian multivarian

  • bayesm: cran.r-project.org/web/packages/bayesm/index.html
  • mixtools: www.jstatsoft.org/v32/i06/paper
EngrStudent
sumber