Saya sedang membaca dokumentasi Stan yang dapat diunduh dari sini . Saya sangat tertarik dengan implementasi diagnostik Gelman-Rubin. Makalah asli Gelman & Rubin (1992) mendefinisikan faktor skala pengurangan potensial (PSRF) sebagai berikut:
Biarkan menjadi rantai Markov ke- i sampel, dan biarkan ada rantai M independen keseluruhan sampel. Biarkan ˉ X i ⋅ menjadi rata-rata dari rantai ke- i , dan ˉ X ⋅ ⋅ menjadi rata-rata keseluruhan. Tentukan, W = 1 mana s 2 m =1
Tentukan V = ( N - 1 PSRF diperkirakan dengan √
Dokumentasi Stan pada halaman 349 abaikan istilah dengan dan juga menghilangkan ( M + 1 ) / M jangka perkalian. Ini formula mereka,
Penaksir varians adalah Akhirnya, statistik pengurangan skala potensial didefinisikan oleh R = √
Dari apa yang saya lihat, mereka tidak memberikan referensi untuk perubahan formula ini, dan mereka juga tidak membahasnya. Biasanya tidak terlalu besar, dan seringkali bisa serendah 2 , jadi tidak boleh diabaikan, bahkan jika d f jangka dapat didekati dengan 1.
Jadi dari mana formula ini berasal?
EDIT: Saya telah menemukan jawaban parsial untuk pertanyaan "dari mana formula ini berasal? ", Dalam buku Analisis Data Bayesian oleh Gelman, Carlin, Stern, dan Rubin (edisi kedua) memiliki formula yang persis sama. Namun, buku itu tidak menjelaskan bagaimana / mengapa dibenarkan untuk mengabaikan istilah-istilah itu?
sumber
Jawaban:
Saya mengikuti tautan khusus yang diberikan untuk Gelman & Rubin (1992) dan sudah
BDA2 and BDA3 (couldn't check now BDA1) have an exercise with hints to show thatvarˆ+ is unbiased estimate of the desired quantity.
Gelman & Brooks (1998) has equation 1.1
Gelman & Rubin (1992) also had the term with df as df/(df-2). Brooks & Gelman (1998) have a section describing why this df corretion is incorrect and define (df+3)/(df+1). The paragraph before Section 3.1 in Brooks & Gelman (1998) explains why (d+3)/(d+1) can be dropped.
It seems your source for the equations was something post Brooks & Gelman (1998) as you had (d+3)/(d+1) there and Gelman & Rubin (1992) had df/df(-2). Otherwise Gelman & Rubin (1992) and Brooks & Gelman (1998) have equivalent equations (with slightly different notations and some terms are arranged differently). BDA2 (Gelman, et al., 2003) doesn't have anymore termsσ^+Wm−n−1mn . BDA3 (Gelman et al., 2003) and Stan introduced split chains version.
My interpretation of the papers and experiences using different versions ofR^ is that the terms which have been eventually dropped can be ignored when n is large, even when m is not. I also vaguely remember discussing this with Andrew Gelman years ago, but if you want to be certain of the history, you should ask him.
I really do hope that this is not often the case. In cases where you want to use split-R^ convergence diagnostic, you should use at least 4 chains split and thus have M=8. You may use less chains, if you already know that in your specific cases the convergence and mixing is fast.
Additional reference:
sumber