Periksa properti tanpa memori dari rantai Markov

17

Saya menduga bahwa serangkaian urutan yang diamati adalah rantai Markov ...

X = (\begin{array}{ccccccc} A & C & D & D & B & A & C \\ B & A & A & C & A & D & A \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋮ & ⋮ & ⋮ \\ B & C & A & D & A & B & E \end{array})

$X=\left(\begin{array}{c c c c c c c} A& C& D&D & B & A &C\\ B& A& A&C & A&D &A\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ B& C& A&D & A & B & E\\ \end{array}\right)$

Namun bagaimana saya bisa mengecek bahwa mereka benar-benar menghargai properti tanpa memori

P (X_{i} = x_{i} | X_{j} = x_{j}) ?

$P(X_i=x_i|X_j=x_j)?$

Atau paling tidak membuktikan bahwa mereka adalah Markov di alam? Perhatikan ini adalah urutan yang diamati secara empiris. Adakah pikiran?

EDIT

Hanya untuk menambahkan, tujuannya adalah untuk membandingkan serangkaian urutan yang diprediksi dari yang diamati. Jadi kami sangat menghargai komentar tentang bagaimana cara terbaik untuk membandingkan ini.

Matriks Transisi Pesanan Pertama

M_{i j} = \frac{x_{i} j}{\sum^{m} x_{i k}}

$M_{ij}=\displaystyle \frac{x_ij}{\sum^mx_{ik}}$ mana m = A..E menyatakan

M = (\begin{array}{ccccccc} 0.1834 & 0.3077 & 0.0769 & 0.1479 & 0.2840 \\ 0.4697 & 0.1136 & 0.0076 & 0.2500 & 0.1591 \\ 0.1827 & 0.2404 & 0.2212 & 0.1923 & 0.1635 \\ 0.2378 & 0.1818 & 0.0629 & 0.3357 & 0.1818 \\ 0.2458 & 0.1788 & 0.1173 & 0.1788 & 0.2793 \end{array})

$M=\left(\begin{array}{c c c c c c c} 0.1834& 0.3077 & 0.0769& 0.1479 & 0.2840\\ 0.4697& 0.1136 & 0.0076 & 0.2500 & 0.1591\\ 0.1827& 0.2404& 0.2212 & 0.1923 & 0.1635\\ 0.2378 & 0.1818& 0.0629& 0.3357 & 0.1818\\ 0.2458 & 0.1788& 0.1173 & 0.1788 & 0.2793\end{array}\right)$

Nilai eigen dari M

E = (\begin{array}{ccccccc} 1.0000 & 0 & 0 & 0 & 0 \\ 0 & - 0.2283 & 0 & 0 & 0 \\ 0 & 0 & 0.1344 & 0 & 0 \\ 0 & 0 & 0 & 0.1136 - 0.0430 i & 0 \\ 0 & 0 & 0 & 0 & 0.1136 + 0.0430 i \end{array})

$E =\left(\begin{array}{c c c c c c c} 1.0000 & 0 & 0 & 0 & 0 \\ 0 & -0.2283 & 0 & 0 & 0 \\ 0 & 0 & 0.1344 & 0 & 0\\ 0 & 0 & 0 & 0.1136 - 0.0430i & 0 \\ 0 & 0 & 0 & 0 & 0.1136 + 0.0430i\\ \end{array}\right)$

Vektor eigen dari M

V = (\begin{array}{ccccccc} 0.4472 & - 0.5852 & - 0.4219 & - 0.2343 - 0.0421 i & - 0.2343 + 0.0421 i \\ 0.4472 & 0.7838 & - 0.4211 & - 0.4479 - 0.2723 i & - 0.4479 + 0.2723 i \\ 0.4472 & - 0.2006 & 0.3725 & 0.6323 & 0.6323 \\ 0.4472 & - 0.0010 & 0.7089 & 0.2123 - 0.0908 i & 0.2123 + 0.0908 i \\ 0.4472 & 0.0540 & 0.0589 & 0.2546 + 0.3881 i & 0.2546 - 0.3881 i \end{array})

$V =\left(\begin{array}{c c c c c c c} 0.4472& -0.5852 & -0.4219 & -0.2343 - 0.0421i & -0.2343 + 0.0421i\\ 0.4472 & 0.7838 & -0.4211 & -0.4479 - 0.2723i & -0.4479 + 0.2723i\\ 0.4472 & -0.2006 & 0.3725 & 0.6323 & 0.6323 \\ 0.4472 & -0.0010 & 0.7089 & 0.2123 - 0.0908i & 0.2123 + 0.0908i\\ 0.4472 & 0.0540 & 0.0589 & 0.2546 + 0.3881i & 0.2546 - 0.3881i\\ \end{array}\right)$

markov-process HCAI
sumber

Kolom berisi seri, dan baris elemen dari rangkaian? Berapa jumlah baris dan kolom yang diamati?

mpiktas

2

Kemungkinan rangkap: stats.stackexchange.com/questions/29490/…

mpiktas

@mpiktas Baris mewakili urutan transisi yang diamati secara independen melalui status AD. Ada sekitar 400 urutan ... Ingatlah bahwa urutan yang diamati tidak semuanya sama panjang. Bahkan matriks di atas dalam banyak kasus ditambah dengan nol. Omong-omong, terima kasih atas tautannya. Tampaknya masih ada ruang yang cukup untuk bekerja di bidang ini. Apakah Anda memiliki pemikiran lebih lanjut? Salam,

HCAI

1

Regresi linier adalah contoh untuk memperkuat titik argumen saya. Yaitu bahwa Anda mungkin tidak perlu menguji properti Markov secara langsung, Anda hanya perlu memasukkan beberapa modem yang mengasumsikan properti Markov dan kemudian memeriksa validitas model.

mpiktas

1

Samar-samar saya ingat saya telah melihat suatu tempat tes hipotesis untuk H0 = {Markov} vs H1 = {Markov order 2}. Ini bisa membantu.

Stéphane Laurent

5

Saya ingin tahu apakah yang berikut akan memberikan tes Pearson valid untuk proporsi sebagai berikut. $\chi^2$

Perkirakan probabilitas transisi satu langkah - Anda telah melakukannya.
Mendapatkan model probabilitas dua ${\hat{p}}_{U, V} = P r o b [X_{i + 2} = U | X_{i} = V] = \sum_{W \in {A, B, C, D}} P r o b [X_{i + 2} = U | X_{i + 1} = W] P r o b [X_{i + 1} = W | X_{i} = V]$ $\hat p_{U,V} = {\rm Prob}[X_{i+2}=U|X_i=V] = \sum_{W\in\{A,B,C,D\}} {\rm Prob}[X_{i+2}=U|X_{i+1}=W]{\rm Prob}[X_{i+1}=W|X_i=V]$
Dapatkan probabilitas empiris dua langkah ${\tilde{p}}_{U, V} = \frac{\sum_{i} # X_{i} = V, X_{i + 2} = U}{\sum_{i} # X_{i} = V}$ $\tilde p_{U,V} = \frac{\sum_i \# X_i = V, X_{i+2} = U}{\sum_i \# X_i = V}$
Form Pearson uji statistik $T_{V} = # {X_{i} = V} \sum_{U} \frac{({\hat{p}}_{U, V} - {\tilde{p}}_{U, V})^{2}}{{\hat{p}}_{U, V}}, T = T_{A} + T_{B} + T_{C} + T_{D}$ $T_V = \# \{X_i = V\} \sum_U \frac{(\hat p_{U,V} - \tilde p_{U,V})^2}{\hat p_{U,V}}, \quad T=T_A + T_B + T_C + T_D$

Hal ini menggoda bagi saya untuk berpikir bahwa setiap , sehingga total . Namun, saya tidak sepenuhnya yakin akan hal itu, dan akan menghargai pemikiran Anda tentang ini. Saya tidak juga tidak co sertain tentang apakah salah satu kebutuhan untuk menjadi paranoid tentang kemerdekaan, dan ingin membagi sampel di bagian untuk memperkirakan dan . $T_U \sim \chi^2_3$ $T\sim \chi^2_{12}$ $\hat p$ $\bar p$

Tugas
sumber

Tidakkah probabilitas harus memiliki distribusi normal dengan rata-rata 0 dan varians = 1 untuk dapat bertahan? Saya akan sangat tertarik untuk mengetahui apa yang dipikirkan orang di sini.

HCAI

Seharusnya istilah-istilah dalam penjumlahan itu asimtotik dengan jumlah besar.

Tugas

6

Properti Markov mungkin sulit untuk diuji secara langsung. Tetapi mungkin cukup untuk mencocokkan model yang mengasumsikan properti Markov dan kemudian menguji apakah model itu berlaku. Mungkin ternyata model yang cocok adalah pendekatan yang baik yang berguna untuk Anda dalam praktik, dan Anda tidak perlu khawatir apakah properti Markov benar-benar dimiliki atau tidak.

Paralel dapat ditarik ke regresi linier. Praktik yang biasa bukan untuk menguji apakah linearitas berlaku, tetapi apakah model linier adalah pendekatan yang berguna.

mpiktas
sumber

Ini sepertinya pilihan terbaik dalam kenyataan, hanya saja saya tidak bisa benar-benar membandingkan model linear dengan data eksperimental yang sebenarnya. Atau apakah Anda memikirkan hal lain?

HCAI

6

Untuk mengkonkretkan saran dari jawaban sebelumnya, Anda pertama-tama ingin memperkirakan probabilitas Markov - dengan asumsi itu Markov. Lihat balasannya di sini Memperkirakan Kemungkinan Rantai Markov

Anda harus mendapatkan 4 x 4 matriks berdasarkan proporsi transisi dari negara A ke A, A ke B, dll Panggil matriks ini . kemudian harus menjadi matriks transisi dua langkah: A ke A dalam 2 langkah, dan seterusnya. Anda kemudian dapat menguji apakah matriks transisi 2 langkah yang diamati Anda mirip dengan . $M$ $M^2$ $M^2$

Karena Anda memiliki banyak data untuk jumlah status, Anda dapat memperkirakan dari satu setengah data dan menguji menggunakan setengah lainnya - Anda menguji frekuensi yang diamati terhadap probabilitas teoritis multinomial. Itu seharusnya memberi Anda gambaran tentang seberapa jauh Anda. $M$ $M^2$

Kemungkinan lain adalah untuk melihat apakah proporsi kondisi dasar: proporsi waktu yang dihabiskan dalam A, waktu yang dihabiskan dalam B, cocok dengan vektor eigen dari nilai eigen unit M. Jika seri Anda telah mencapai semacam kondisi mapan, proporsi waktu di masing-masing negara harus cenderung ke batas itu.

Placidia
sumber

Ada sedikit untuk diterima di sana. Saya telah menghitung matriks Transisi

, tapi saya tidak yakin bagaimana Anda akan menghitung

secara empiris. Bisakah Anda mengklarifikasi hal itu? Salam,

M

$M$

M^{2}

$M^2$

HCAI

Juga, komentar terakhir ini sangat menarik, walaupun saya tidak punya waktu dihabiskan di setiap negara bagian dari urutan yang saya amati. Saya hanya punya waktu total untuk setiap baris. Sehingga dapat membatasi penerapan metode itu. Apa yang kamu pikirkan?

HCAI

1

Lakukan dengan cara yang sama Anda lakukan M, hanya alih-alih melihat transisi tetangga terdekat, (katakanlah, urutan AB), lihat pasangan yang terpisah 2. Jadi, jika subjek beranjak ACB, itu diperhitungkan dalam transisi AB Anda. Begitu juga ABB. Buat matriks di mana item dalam baris i, kolom j berisi transisi i ke j. Kemudian bagi dengan jumlah kolom. Anda ingin jumlah kolom menjadi 1. Di bawah properti Markov, matriks ini harus dekat dengan

M^{2}

$M^2$

Placidia

RE: keseimbangan. Saya berasumsi bahwa transisi terjadi pada saat yang ditetapkan - katakan setiap detik, Anda transisi dari keadaan saat ini ke keadaan berikutnya. Anda bisa mengambil frekuensi status A, B, C, dan D di dekat ujung urutan, atau melintasi urutan untuk memperkirakan perilaku batas.

Placidia

Dalam R, jika Anda melakukan eigen (M), Anda harus mendapatkan nilai eigen dan vektor eigen dari M. Satu nilai eigen akan menjadi 1. Vektor eigen yang sesuai harus proporsional dengan proporsi kondisi stabil Anda .... jika Markov.

Placidia

2

Di luar Markov Property (MP), properti lebih lanjut Waktu Homogenitas (TH): dapat Markov tetapi dengan matriks transisi tergantung pada waktu . Misalnya, mungkin tergantung pada hari kerja di jika pengamatan harian, dan kemudian ketergantungan pada syarat dapat didiagnosis jika TH adalah terlalu diasumsikan. $X_t$ $\mathbf{P}(t)$ $t$ $t$ $X_t$ $X_{t-7}$ $X_{t-1}$

Dengan asumsi TH memegang, cek mungkin bagi MP adalah pengujian yang independen dari tergantung pada , sebagai Michael Chernick dan StasK disarankan. Ini dapat dilakukan dengan menggunakan tes untuk tabel kontingensi. Kita dapat membangun tabel kontingensi dan bersyarat pada untuk kemungkinan nilai $X_t$ $X_{t-2}$ $X_{t-1}$ $n$ $X_t$ $X_{t-2}$ $\{X_{t-1} = x_j\}$ $n$ $x_j$ , dan menguji independensi. Ini juga dapat dilakukan dengan menggunakan dengan sebagai pengganti . $X_{t-\ell}$ $\ell > 1$ $X_{t-2}$

Dalam R, kontingensi tabel atau array mudah diproduksi berkat faktor fasilitas dan fungsi apply, sweep. Gagasan di atas juga dapat dieksploitasi secara grafis. Paket ggplot2 atau kisi dengan mudah menyediakan plot bersyarat untuk membandingkan distribusi kondisional . Misalnya pengaturan sebagai indeks baris dan $p(X_t \vert X_{t-1}=x_j, X_{t-2} = x_i)$ $i$ $j$ sebagai indeks kolom dalam terali harus di bawah MP mengarah ke distribusi serupa dalam kolom.

Chap. 5 buku Analisis statistik proses stokastik dalam waktu oleh JK Lindsey berisi ide-ide lain untuk memeriksa asumsi.

enter image description here

[## simulates a MC with transition matrix in 'trans', starting from 'ini'
simMC <- function(trans, ini = 1, N) {
  X <- rep(NA, N)
  Pcum <- t(apply(trans, 1, cumsum))
  X[1] <- ini 
  for (t in 2:N) {
    U <- runif(1)
    X[t] <- findInterval(U, Pcum[X[t-1], ]) + 1
  }
  X
}
set.seed(1234)
## transition matrix
P <- matrix(c(0.1, 0.1, 0.1, 0.7,
              0.1, 0.1, 0.6, 0.2,
              0.1, 0.3, 0.2, 0.4,
              0.2, 0.2, 0.3, 0.3),
            nrow = 4, ncol = 4, byrow = TRUE)
N <- 2000
X <- simMC(trans = P, ini = 1, N = N)
## it is better to work with factors
X <- as.factor(X)
levels(X) <- LETTERS[1:4]
## table transitions and normalize each row
Phat <- table(X[1:(N-1)], X[2:N])
Phat <- sweep(x = Phat, MARGIN = 1, STATS = apply(Phat, 1, sum), FUN = "/")
## explicit dimnames
dimnames(Phat) <- lapply(list("X(t-1)=" ,"X(t)="),
                         paste, sep = "", levels(as.factor(X)))
## transition 3-fold contingency array
P3 <- table(X[1:(N-2)], X[2:(N-1)], X[3:N])
dimnames(P3) <- lapply(list("X(t-2)=", "X(t-1)=" ,"X(t)="),
                       paste, sep = "", levels(as.factor(X)))
## apply ONE indendence test 
fisher.test(P3[ , 1, ], simulate.p.value = TRUE)
## plot conditional distr.
library(lattice)
X3 <- data.frame(X = X[3:N], lag1X =  X[2:(N-1)], lag2X = X[1:(N-2)])
histogram( ~ X | lag1X + lag2X, data = X3, col = "SteelBlue3")

]

Yves
sumber

2

Saya pikir placida dan mpikta telah memberikan pendekatan yang sangat bijaksana dan sangat baik.

$P(X_i=x|X_{i-1}=y)$ $P(X_i=x|X_{i-1}=y \text{ and } X_{i-2}=z)$

$x$ $y$ $z$ $z$ $y$ $x$ $z$ $y$ $x$ transisi dan semua transisi dua tahap ke $x$ karena kegagalan mewakili serangkaian uji coba Bernoulli independen berdasarkan hipotesis nol. Hal yang sama akan berfungsi untuk mendefinisikan semua $y$ untuk $x$ transisi sebagai keberhasilan dan transisi satu tahap ke $x$ sebagai kegagalan.

Maka statistik uji akan menjadi perbedaan antara estimasi proporsi ini. Komplikasi untuk perbandingan standar dari urutan Bernoulli adalah bahwa mereka berkorelasi. Tetapi Anda bisa melakukan tes bootstrap proporsi binomial dalam kasus ini.

Kemungkinan lainnya adalah membangun dua dua tabel dari dua tahap dan tiga tahap hasil berpasangan di mana $0$ adalah kegagalan dan $1$ sukses dan frekuensi sel dihitung untuk pasangan $(0,0)$ , $(0,1)$ , $(1,0)$ dan $(1,1)$ di mana komponen pertama adalah hasil dua tahap dan yang kedua adalah hasil tiga tahap yang sesuai. Anda kemudian dapat menerapkan tes McNemar ke tabel.

Michael R. Chernick
sumber

Saya melihat apa yang Anda maksudkan di sini meskipun saya menemukan paragraf pertama sangat singkat. Misalnya "Hitung taksiran sampel [...], lalu uji perbedaan proporsi". Apa yang Anda maksud dengan perkiraan sampel? Tentunya tidak akan ada perbedaan dalam

P (X_{saya} | X_{saya - 1} = y)

$P(X_i|X_{i-1}=y)$ or am I misunderstanding your train of thought?

HCAI

@user1134241 You mentioned "empirically observed", I assumed that you have data from this stochastic sequence. If you want to estimate P(X

_{i}

$_i$ =x|X

_{i}

$_i$

_{-}

$_-$

_{1}

$_1$ =y) for each index i-1 where X

_{i}

$_i$

_{-}

$_-$

_{1}

$_1$ =y, count the number of times X

_{i}

$_i$ = x and divide it by the number of times X

_{i}

$_i$

_{-}

$_-$

_{1}

$_1$ = y (regardless of what X

_{i}

$_i$ equals). That is an estimate because the observed finite sequence is just a sample of a portion of a sequence of the stochastic process.

Michael R. Chernick

In your last paragraph, let me ask what constitute a success and exactly? In the case where you say a two-step transition: are you saying

i \to j \to i

$i\rightarrow j\rightarrow i$ and a 3-step would be

i \to j \to k \to i

$i\rightarrow j\rightarrow k\rightarrow i$ ?

HCAI

1

You could bin the data into evenly spaced intervals, then compute the unbiased sample variances of subsets $\{X_{n+1}:X_n=x_1,X_{n-k}=x_2\}$ . By the law of total variance,

V a r [E (X_{n + 1} | X_{n}, X_{n - k}) | X_{n}] = V a r [X_{n + 1} | X_{n}] - E (V a r [X_{n + 1} | X_{n}])

$\mathrm{Var}[E(X_{n+1}|X_n,X_{n-k})|X_n] = \mathrm{Var}[X_{n+1}|X_n]-E(\mathrm{Var}[X_{n+1}|X_n])$

The LHS, if it is almost zero, provides evidence that the transition probabilities do not depend on $X_{n-k}$ , though it is clearly a weaker statement: e.g., let $X_{n+1}\sim N(X_n,X_{n-1})$ . Taking the expected value of both sides of the above equation, the RHS can be computed from the sample variances (i.e., replacing expected values with averages). If the expected value of the variance is zero then the variance is 0 almost always.

Luke O'Connor
sumber

Periksa properti tanpa memori dari rantai Markov

Jawaban: