Kemungkinan maksimum terbatas dengan pangkat

Pertanyaan ini berkaitan dengan estimasi kemungkinan maksimum terbatas (REML) dalam versi tertentu dari model linier, yaitu:

Y = X (α) β + ϵ, ϵ \sim N_{n} (0, Σ (α)),

$Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)),$

di mana adalah matriks ( ) yang diparameterisasi oleh , seperti . adalah vektor yang tidak diketahui dari parameter gangguan; minatnya adalah dalam mengestimasi , dan kami memiliki . Memperkirakan model dengan kemungkinan maksimum tidak ada masalah, tapi saya ingin menggunakan REML. Sudah diketahui secara luas, lihat misalnya LaMotte , bahwa kemungkinan , di mana adalah matriks semi-ortogonal sehingga dapat ditulis $X(\alpha)$ $n \times p$ $\alpha \in \mathbb R^k$ $\Sigma(\alpha)$ $\beta$ $\alpha$ $k\leq p\ll n$ $A'Y$ $A$ $A'X=0$

L_{REML} (α ∣ Y) \propto | X^{'} X |^{1 / 2} | Σ |^{- 1 / 2} | X^{'} Σ^{- 1} X |^{- 1 / 2} \exp {- \frac{1}{2} r^{'} Σ^{- 1} r}, r = (I - X (X^{'} Σ^{- 1} X)^{+} X^{'} Σ^{- 1}) Y,

$L_{\text{REML}}(\alpha\mid Y) \propto\vert X'X\vert^{1/2} \vert \Sigma\vert^{-1/2}\vert X'\Sigma^{-1}X\vert^{-1/2}\exp\left\{-\frac{1}{2} r'\Sigma^{-1}r \right\}, \\ r = (I - X(X'\Sigma^{-1}X)^+X'\Sigma^{-1})Y,$

ketika adalah peringkat kolom penuh . $X$

Masalah saya adalah bahwa untuk beberapa yang masuk akal, dan secara ilmiah menarik, matriks bukan dari peringkat kolom penuh. Semua derivasi saya telah melihat dari kemungkinan terbatas atas merek penggunaan kesamaan-kesamaan determinan yang tidak berlaku ketika , yaitu mereka menganggap kolom rank penuh . Ini berarti bahwa kemungkinan terbatas di atas hanya benar untuk pengaturan saya pada bagian ruang parameter, dan dengan demikian bukan yang ingin saya optimalkan. $\alpha$ $X(\alpha)$ $\vert X'X\vert=0$ $X$

Pertanyaan: Apakah ada kemungkinan terbatas yang lebih umum, diturunkan, dalam literatur statistik atau di tempat lain, tanpa asumsi bahwa $X$ adalah peringkat kolom penuh? Jika demikian, seperti apa bentuknya?

Beberapa pengamatan:

Turunkan bagian eksponensial tidak ada masalah untuk dan dapat ditulis dalam istilah invers Moore-Penrose seperti di atas $X(\alpha)$
Kolom adalah basis ortonormal (apa saja) untuk $A$ $C(X)^\bot$
Untuk diketahui , kemungkinan untuk dapat dengan mudah dituliskan untuk setiap , tetapi tentu saja jumlah vektor basis, yaitu kolom, dalam tergantung pada peringkat kolom $A$ $A'Y$ $\alpha$ $A$ $X$

Jika ada yang tertarik dengan pertanyaan ini percaya parameterisasi yang tepat dari akan membantu, beri tahu saya dan saya akan menuliskannya. Pada titik ini, saya lebih tertarik pada REML untuk umum dari dimensi yang benar. $X,\Sigma$ $X$

Deskripsi model yang lebih rinci berikut ini. Biarkan menjadi -dimensi orde pertama Vector Autoregression [VAR (1)] di mana . Misalkan proses dimulai dalam beberapa nilai tetap pada waktu . $y_t = \mu + Ay_{t - 1} + v_t, t = 1, \dots, T$ $r$ $v_t \overset{iid}{\sim}N(0, \Omega)$ $y_0$ $t = 0$

Tentukan . Model dapat ditulis dalam bentuk model linier menggunakan definisi dan notasi berikut: $Y = [y_1', \dots, y_T']'$ $Y = X\beta + \varepsilon$

\begin{aligned} X & = [1_{T} \otimes I_{r}, C^{- 1} B] \\ β & = [μ^{'}, y_{0}^{'} - μ^{'}]^{'} \\ v a r (ε)^{- 1} & = C^{'} (I_{T} \otimes Ω^{- 1}) C \\ C & = [\begin{matrix} I_{r} & 0 & 0 & \dots \\ - A & I_{r} & 0 & \dots \\ 0 & - A & I_{r} & \dots \\ ⋮ & ⋮ & ⋮ & ⋱ \end{matrix}] \\ B & = e_{1, T} \otimes A, \end{aligned}

$\begin{align} X &= [1_T \otimes I_r, C^{-1}B] \\ \beta &= [\mu', y_0' - \mu']' \\ \mathrm{var}(\varepsilon)^{-1} &= C'(I_T \otimes \Omega^{-1})C \\ C &= \begin{bmatrix} I_r & 0 & 0 & \cdots \\ -A & I_r & 0 & \cdots \\ 0 & -A & I_r & \cdots \\ \vdots & \vdots & \vdots & \ddots \end{bmatrix} \\ B &= e_{1, T} \otimes A, \end{align}$

di mana menandakan vektor dimensi dari satu dan pertama standar dasar vektor . $1_T$ $T-$ $e_{1,T}$ $\mathbb R^T$

Nyatakan . Perhatikan bahwa jika tidak peringkat penuh maka bukan peringkat kolom penuh. Ini termasuk, misalnya, kasus di mana salah satu komponen tidak bergantung pada masa lalu. $\alpha = \mathrm{vec}(A)$ $A$ $X(\alpha)$ $y_t$

Gagasan memperkirakan VAR menggunakan REML sudah dikenal di, misalnya, literatur regresi regresi prediktif (lihat misalnya Phillips dan Chen dan referensi di dalamnya.)

Mungkin bermanfaat untuk memperjelas bahwa matriks bukan matriks desain dalam arti biasa, itu hanya jatuh dari model dan kecuali ada pengetahuan apriori tentang , sejauh yang saya tahu, tidak ada cara untuk mengulangi itu menjadi peringkat penuh. $X$ $A$

Saya telah memposting pertanyaan di math.stackexchange yang terkait dengan yang satu ini dalam arti bahwa jawaban untuk pertanyaan matematika dapat membantu menurunkan kemungkinan yang akan menjawab pertanyaan ini.

mixed-model maximum-likelihood linear-model optimization reml ekvall
sumber

Mungkin salah satu cara untuk menjawab pertanyaan ini adalah dengan bertanya, apa yang terjadi dalam model campuran linier ketika matriks model tidak peringkat kolom penuh?

Greenparker

Terima kasih atas karunia @Greenparker. Dan, ya, jika kemungkinan terbatas dapat dituliskan untuk model campuran linier, dengan matriks desain efek peringkat kurang dari peringkat kolom penuh, itu akan membantu.

ekvall

Turunkan bagian eksponensial tidak ada masalah untuk X (α) X (α) dan dapat ditulis dalam istilah invers Moore-Penrose seperti di atas

Saya ragu bahwa pengamatan ini benar. Inversi yang digeneralisasi sebenarnya menempatkan batasan linier tambahan pada estimator Anda [Rao & Mitra], oleh karena itu kami harus mempertimbangkan kemungkinan gabungan sebagai keseluruhan alih-alih menebak "Inversi Moore-Penrose akan bekerja untuk bagian eksponensial". Ini tampaknya benar secara formal namun Anda mungkin tidak mengerti model campuran dengan benar.

$\blacksquare$ (1) Bagaimana cara berpikir model efek campuran dengan benar?

Anda harus memikirkan model efek campuran dengan cara yang berbeda sebelum Anda mencoba memasukkan invers g (OR Moore-Penrose inverse, yang merupakan jenis khusus dari invers g-inversif [Rao & Mitra]) secara mekanis ke dalam formula yang diberikan oleh RMLE (Restricted Estimator Kemungkinan Maksimum, sama di bawah.).

X = (\begin{array}{cc} f i x e d e f f e c t \\ r a n d o m e f f e c t \end{array})

$\boldsymbol{X}=\left(\begin{array}{cc} fixed\quad effect\\ & random\quad effect \end{array}\right)$

Cara umum berpikir efek campuran adalah bahwa bagian efek acak dalam matriks desain diperkenalkan oleh kesalahan pengukuran, yang menyandang nama lain "prediktor stokastik" jika kita lebih peduli tentang prediksi daripada estimasi. Ini juga merupakan salah satu motivasi historis studi matriks stokastik dalam pengaturan statistik.

Masalah saya adalah bahwa untuk beberapa yang masuk akal, dan secara ilmiah menarik, αα matriks X (α) X (α) bukan dari peringkat kolom penuh.

Mengingat cara berpikir seperti ini, probabilitas bahwa bukan dari peringkat penuh adalah nol. Ini karena fungsi penentu adalah kontinu dalam entri matriks dan distribusi normal adalah distribusi kontinu yang menetapkan probabilitas nol ke satu titik. Probabilitas cacat peringkat adalah positif jika Anda parameterkan dengan cara patologis seperti . $X(\alpha)$ $X(\alpha)$ $\left(\begin{array}{ccc} \alpha & \alpha\\ \alpha & \alpha\\ & & random\quad effect \end{array}\right)$

Jadi solusi untuk pertanyaan Anda juga agak lurus ke depan, Anda cukup mengganggu matriks desain Anda (perturb hanya bagian efek tetap), dan gunakan matriks perturbed (yang merupakan peringkat penuh) untuk melakukan semua derivasi. Kecuali jika model Anda memiliki hierarki yang rumit atau itu sendiri hampir tunggal, saya tidak melihat ada masalah serius ketika Anda mengambil pada hasil akhir karena fungsi determinan kontinu dan kita dapat mengambil batas di dalam fungsi determinan. . Dan dalam gangguan membentuk kebalikan dari $X_\epsilon(\alpha)=X(\alpha)+\epsilon\left(\begin{array}{cc} I & 0\\ 0 & 0 \end{array}\right)$ $X$ $\epsilon\rightarrow 0$ $lim_{\epsilon\rightarrow 0}|X_\epsilon|=|lim_{\epsilon\rightarrow 0}X_\epsilon|$ $X_\epsilon$ dapat diperoleh oleh Sherman-Morrision-Woodbury Theorem. Dan penentu matriks diberikan dalam buku aljabar linier standar seperti [Horn & Johnson]. Tentu saja kita dapat menulis determinan dalam hal setiap entri matriks, tetapi gangguan selalu lebih disukai [Horn & Johnson]. $I+X$

$\blacksquare$ (2) Bagaimana seharusnya kita menangani parameter gangguan dalam suatu model?

Seperti yang Anda lihat, untuk menangani bagian efek acak dalam model, kita harus menganggapnya sebagai semacam "parameter gangguan". Masalahnya adalah: Apakah RMLE cara yang paling tepat untuk menghilangkan parameter gangguan? Bahkan di GLM dan model efek campuran, RMLE jauh dari pilihan satu-satunya. [Basu] menunjukkan bahwa banyak cara lain untuk menghilangkan parameter dalam menetapkan estimasi. Saat ini orang cenderung memilih antara pemodelan RMLE dan Bayesian karena mereka sesuai dengan dua solusi berbasis komputer yang populer: EM dan MCMC masing-masing.

Menurut pendapat saya sudah pasti lebih cocok untuk memperkenalkan prior dalam situasi peringkat cacat di bagian efek tetap. Atau Anda dapat merekam kembali model Anda untuk membuatnya menjadi peringkat satu penuh.

Lebih lanjut, jika efek tetap Anda tidak dari peringkat penuh, Anda mungkin khawatir di atas struktur kovarian yang tidak ditentukan karena derajat kebebasan dalam efek tetap seharusnya masuk ke bagian kesalahan. Untuk melihat hal ini dengan lebih jelas, Anda mungkin ingin mempertimbangkan MLE (juga LSE) untuk GLS (General least squre) mana adalah struktur kovarians dari istilah kesalahan, untuk kasus di mana tidak peringkat penuh. $\hat{\beta}=(X\Sigma^{-1} X')^{-1}\Sigma^{-1}y$ $\Sigma$ $X(\alpha)$

$\blacksquare$ (3) Komentar lebih lanjut

Masalahnya bukanlah bagaimana Anda memodifikasi RMLE untuk membuatnya bekerja dalam hal bagian efek tetap dari matriks bukan dari peringkat penuh; masalahnya adalah bahwa dalam kasus itu model Anda sendiri mungkin bermasalah jika kasus non-peringkat penuh memiliki probabilitas positif.

Satu kasus yang relevan yang saya temui adalah bahwa dalam kasus spasial orang mungkin ingin mengurangi peringkat bagian efek tetap karena pertimbangan komputasi [Wikle].

Saya belum melihat kasus "menarik secara ilmiah" dalam situasi seperti itu, dapatkah Anda menunjukkan beberapa literatur di mana kasus non-peringkat penuh menjadi perhatian utama? Saya ingin tahu dan membahas lebih lanjut, terima kasih.

$\blacksquare$ Referensi

[Rao & Mitra] Rao, Calyampudi Radhakrishna, dan Sujit Kumar Mitra. Kebalikan dari matriks dan aplikasinya. Vol. 7. New York: Wiley, 1971.

[Basu] Basu, Debabrata. "Tentang penghapusan parameter gangguan." Jurnal Asosiasi Statistik Amerika 72.358 (1977): 355-366.

[Horn & Johnson] Horn, Roger A., dan Charles R. Johnson. Analisis matriks. Pers universitas Cambridge, 2012.

[Wikle] Wikle, Christopher K. "Representasi tingkat rendah untuk proses spasial." Handbook of Spatial Statistics (2010): 107-118.

Henry
sumber

X

$X$

α

$\alpha$

@ Student001 Ya, jangan ragu untuk membuat klarifikasi apa pun karena saya juga merasa lebih seperti GLM daripada model campuran. Saya akan mencoba menjawab lagi jika saya bisa :)

Henry.L

@ Student001 Jika Anda bisa, tuliskan seluruh model dan saya ingin mempelajari kasus seperti itu, mungkin AR (1) dalam pengaturan spasial kurasa.

Henry.L

X (α)

$X(\alpha)$

@ MarkL.Stone Saya sudah memberikan perturbasi sebagai solusi jika Anda membaca baris dengan cermat, yang merupakan solusi standar untuk singularitas numerik. Dan OP mengatakan dia akan memperbarui deskripsi, jadi saya kira kita akan mencapai beberapa konssesus pada masalah yang dirumuskan dengan benar.

Henry.L

Kemungkinan maksimum terbatas dengan pangkat

Jawaban: