Saya mencoba menerapkan algoritma EM untuk model analisis faktor berikut;
di mana adalah vektor acak p-dimensional, adalah vektor q-dimensi dari variabel laten dan adalah matriks parameter pxq.a j B
Sebagai hasil dari asumsi lain yang digunakan untuk model, saya tahu bahwa mana adalah matriks varians kovarians dari istilah kesalahan , = diag ( , , ..., ).D e j D σ 2 1 σ 2 2 σ 2 p
Untuk algoritma EM bekerja, aku melakukan iterasi kubah yang melibatkan estimasi dan matriks dan selama iterasi ini aku menghitung kebalikan dari pada setiap iterasi menggunakan perkiraan baru dari dan . Sayangnya selama iterasi, kehilangan kepastian positifnya (tetapi seharusnya tidak karena itu adalah matriks varians-kovarians) dan situasi ini merusak konvergensi algoritma. Pertanyaan saya adalah:DB D B B ′ + D
Apakah situasi ini menunjukkan bahwa ada yang salah dengan algoritma saya karena kemungkinan harus meningkat pada setiap langkah EM?
Apa cara praktis untuk membuat matriks positif pasti?
Sunting: Saya menghitung inversinya dengan menggunakan lemma inversi matriks yang menyatakan bahwa:
di mana sisi kanan hanya melibatkan invers dari matriks .
sumber
Jawaban:
OK, karena Anda melakukan FA, saya mengasumsikan bahwa adalah peringkat kolom penuh dan . Kami membutuhkan beberapa detail lagi. Ini mungkin masalah numerik; mungkin juga ada masalah dengan data Anda.q q < pB q q<p
Bagaimana Anda menghitung invers? Apakah Anda memerlukan invers secara eksplisit, atau dapat menyatakan kembali perhitungan sebagai solusi untuk sistem linear? (Yaitu untuk mendapatkan memecahkan untuk x, yang biasanya lebih cepat dan lebih stabil)A x = bA−1b Ax=b
Apa yang terjadi pada ? Apakah perkiraannya benar-benar kecil / 0 / negatif? Dalam beberapa hal itu adalah tautan kritis, karena tentu saja kekurangan peringkat dan mendefinisikan matriks kovarian singular sebelum menambahkan , sehingga Anda tidak dapat membalikkannya. Menambahkan matriks diagonal positif teknis membuatnya peringkat penuh tetapi masih bisa terkondisi dengan buruk jika kecil.B B ′ D D B B ′ + D DD BB′ D D BB′+D D
Seringkali estimasi untuk varian istimewa ( , elemen diagonal ) mendekati nol atau bahkan negatif; ini disebut kasus Heywood. Lihat misalnya http://www.technion.ac.il/docs/sas/stat/chap26/sect21.htm (teks FA apa pun harus membahas hal ini juga, ini adalah masalah yang sangat lama dan terkenal). Ini dapat diakibatkan oleh kesalahan spesifikasi model, pencilan, nasib buruk, semburan matahari ... MLE sangat rentan terhadap masalah ini, jadi jika algoritma EM Anda dirancang untuk membuat MLE melihat keluar. Dσ2i D
Jika algoritma EM Anda mendekati mode dengan perkiraan seperti itu mungkin untuk kehilangan kepastian positifnya, saya pikir. Ada berbagai solusi; secara pribadi saya lebih suka pendekatan Bayesian tetapi bahkan kemudian Anda harus berhati-hati dengan prior Anda (prior yang tidak tepat atau bahkan tepat prior dengan massa terlalu dekat 0 dapat memiliki masalah yang sama karena pada dasarnya alasan yang sama)BB′+D
sumber