Apakah MLE memerlukan data iid? Atau hanya parameter independen?

16

Memperkirakan parameter menggunakan estimasi likelihood maksimum (MLE) melibatkan mengevaluasi fungsi likelihood, yang memetakan probabilitas sampel (X) yang terjadi pada nilai (x) pada ruang parameter (family) yang diberikan keluarga distribusi (P (X = x | θ ) lebih dari nilai yang mungkin dari θ (catatan: apakah saya benar tentang ini?). Semua contoh yang saya lihat melibatkan perhitungan P (X = x | θ) dengan mengambil produk dari F (X) di mana F adalah distribusi dengan lokal nilai untuk θ dan X adalah sampel (vektor).

Karena kita hanya mengalikan data, apakah ini berarti data itu independen? Misalnya, bisakah kita tidak menggunakan MLE agar sesuai dengan data deret waktu? Atau apakah parameter hanya harus independen?

Felix
sumber

Jawaban:

14

Fungsi kemungkinan didefinisikan sebagai probabilitas suatu peristiwa E (kumpulan data ) sebagai fungsi dari parameter modelxθ

L(θ;x)P(Event E;θ)=P(observing x;θ).

Karena itu, tidak ada asumsi independensi pengamatan. Dalam pendekatan klasik tidak ada definisi untuk independensi parameter karena mereka bukan variabel acak; beberapa konsep terkait dapat berupa pengidentifikasian , ortogonalitas parameter , dan independensi Pengukur Kemungkinan Maksimum (yang merupakan variabel acak).

Beberapa contoh,

(1) Kasus diskrit . adalah contoh dari pengamatan terpisah (independen) dengan , laluP ( mengamati  x j ; θ ) > 0x=(x1,...,xn)P(observing xj;θ)>0

L(θ;x)j=1nP(observing xj;θ).

Khususnya, jika , dengan diketahui, kita memiliki ituxjBinomial(N,θ)N

L(θ;x)j=1nθxj(1θ)Nxj.

(2) Perkiraan terus menerus . Biarkan menjadi sampel dari variabel acak kontinu , dengan distribusi dan kepadatan , dengan kesalahan pengukuran , ini, Anda mengamati set . KemudianX F f ε ( x j - ε , x j + ε )x=(x1,...,xn)XFfϵ(xj-ϵ,xj+ϵ)

L(θ;x)j=1nP[observing (xjϵ,xj+ϵ);θ]=j=1n[F(xj+ϵ;θ)F(xjϵ;θ)]

Ketika kecil, ini dapat diperkirakan (menggunakan Teorema Nilai Rata-Rata) olehϵ

L(θ;x)j=1nf(xj;θ)

Untuk contoh dengan case normal, lihat ini .

(3) Model Dependent dan Markov . Misalkan adalah seperangkat pengamatan yang mungkin bergantung dan biarkan menjadi densitas gabungan dari , makax=(x1,...,xn)fx

L(θ;x)f(x;θ).

Jika tambahan properti Markov terpenuhi, maka

L(θ;x)f(x;θ)=f(x1;θ)j=1n1f(xj+1|xj;θ).

Lihatlah juga ini .

Komunitas
sumber
3
Dari Anda menulis fungsi kemungkinan sebagai produk, Anda secara implisit mengasumsikan struktur ketergantungan di antara pengamatan. Jadi untuk MLE satu membutuhkan dua asumsi (a) satu pada distribusi setiap hasil individu dan (b) satu pada ketergantungan di antara hasil.
10

(+1) Pertanyaan yang sangat bagus.

Hal kecil, MLE berarti estimasi kemungkinan maksimum (bukan multipel), yang berarti Anda hanya memaksimalkan kemungkinan. Ini tidak menentukan bahwa kemungkinan harus dihasilkan oleh IID sampling.

Jika ketergantungan pengambilan sampel dapat ditulis dalam model statistik, Anda cukup menuliskan kemungkinannya dan memaksimalkannya seperti biasa.

Satu kasus yang layak disebutkan ketika Anda tidak menganggap ketergantungan adalah bahwa dari pengambilan sampel Gaussian multivarian (dalam analisis deret waktu misalnya). Ketergantungan antara dua variabel Gaussian dapat dimodelkan dengan istilah kovariannya, yang Anda masukkan ke dalam kemungkinan.

Untuk memberikan contoh sederhana, asumsikan bahwa Anda mengambil sampel ukuran dari variabel Gaussian berkorelasi dengan mean dan varians yang sama. Anda akan menuliskan kemungkinan sebagai2

12πσ21ρ2exp(z2σ2(1ρ2)),

dimana adalahz

z=(x1μ)22ρ(x1μ)(x2μ)+(x2μ)2.

Ini bukan produk dari kemungkinan individu. Namun, Anda akan memaksimalkan ini dengan parameter untuk mendapatkan MLE mereka.(μ,σ,ρ)

gui11aume
sumber
2
Ini adalah jawaban dan contoh yang bagus. Satu-satunya hal yang saya tambahkan untuk melihat ini dalam istilah sederhana adalah bahwa estimasi kemungkinan hanya mensyaratkan bahwa model untuk generasi data ditentukan dalam beberapa parameter yang tidak diketahui dijelaskan dalam bentuk fungsional.
Michael R. Chernick
(+1) Benar sekali! Apakah Anda memiliki contoh model yang tidak dapat ditentukan dalam istilah itu?
gui11aume
@ gu11aume saya pikir Anda mengacu pada komentar saya. Saya akan mengatakan bahwa saya tidak memberikan jawaban langsung untuk pertanyaan itu. Jawaban atas pertanyaannya adalah ya karena ada contoh yang dapat ditunjukkan di mana fungsi kemungkinan dapat diekspresikan ketika data dibuat oleh variabel acak dependen.
Michael R. Chernick
2
Contoh di mana hal ini tidak dapat dilakukan adalah ketika data diberikan tanpa deskripsi mekanisme penghasil data atau model tidak disajikan dalam bentuk parametrik seperti ketika Anda diberi dua set data id dan diminta untuk menguji apakah data tersebut berasal dari distribusi yang sama di mana Anda hanya menentukan bahwa distribusinya benar-benar kontinu.
Michael R. Chernick
4

Tentu saja, model Gaussian ARMA memiliki kemungkinan, karena fungsi kovariansnya dapat diturunkan secara eksplisit. Ini pada dasarnya adalah perpanjangan dari jawaban guiame untuk lebih dari 2 pengamatan. Googling minimal menghasilkan kertas seperti ini di mana kemungkinan diberikan dalam bentuk umum.

Kelas contoh lain, sampai batas tertentu, lebih menarik, diberikan oleh model efek acak bertingkat . Jika Anda memiliki data formulir mana indeks bersarang di (pikirkan siswa di ruang kelas , katakanlah, untuk aplikasi klasik model bertingkat), kemudian, dengan asumsi , kemungkinannya adalah

yij=xijβ+ui+ϵij,
jijiϵijui
lnLilnjf(yij|β,ui)dF(ui)
dan merupakan jumlah dari kontribusi kemungkinan yang ditetapkan pada tingkat kelompok, bukan pengamatan individu. (Tentu saja, dalam kasus Gaussian, Anda dapat mendorong integral sekitar untuk menghasilkan solusi analitik ANOVA. Namun, jika Anda telah mengatakan model logit untuk respons Anda , maka tidak ada jalan keluar dari integrasi numerik .)yij
Tugas
sumber
2
Stask dan @ gui11aume, ketiga jawaban ini bagus tapi saya pikir mereka kehilangan satu poin: bagaimana dengan konsistensi MLE untuk data dependen?
Stéphane Laurent