Teorema batas pusat teorema informasi

11

Bentuk paling sederhana dari teori informasi CLT adalah sebagai berikut:

Biarkan menjadi iid dengan mean dan varians . Biarkan menjadi kepadatan jumlah normal dan menjadi kepadatan Gaussian standar. Maka teori informasi CLT menyatakan bahwa, jika terbatas untuk beberapa , maka sebagai . $X_1, X_2,\dots$ $0$ $1$ $f_n$ $\frac{\sum_{i=1}^n X_i}{\sqrt{n}}$ $\phi$ $D(f_n\|\phi)=\int f_n \log(f_n/\phi) dx$ $n$ $D(f_n\|\phi)\to 0$ $n\to \infty$

Tentu saja konvergensi ini, dalam arti tertentu, "lebih kuat" daripada konvergensi yang baik dalam literatur, konvergensi dalam distribusi dan konvergensi dalam $L_1$ metrik, berkat ketidaksetaraan Pinsker $\left(\int |f_n-\phi|\right)^2\le 2\cdot \int f_n \log(f_n/\phi)$ . Artinya, konvergensi dalam KL-divergence menyiratkan konvergensi dalam distribusi dan konvergensi dalam jarak $L_1$ .

Saya ingin tahu dua hal.

Apa yang hebat tentang hasil $D(f_n\|\phi)\to 0$ ?
Apakah hanya karena alasan yang disebutkan dalam paragraf ketiga kita mengatakan konvergensi dalam KL-divergence ( yaitu , $D(f_n\|\phi)\to 0$ ) lebih kuat?

NB: Saya menanyakan pertanyaan ini beberapa waktu lalu di math.stackexchange di mana saya tidak mendapatkan jawaban.

mathematical-statistics information-theory central-limit-theorem Ashok
sumber

Harap berikan tautan ke pertanyaan math.SE rangkap.

kardinal

6

Pernyataan Anda tampaknya secara implisit mengasumsikan adanya kepadatan (sehubungan dengan ukuran Lebesgue). Anda mungkin tertarik pada makalah pendek dan menyenangkan ini : AR Barron (1986), Entropy dan Central Limit Theorem Ann. Mungkin. , vol 14, tidak. 1, 336-342. ( akses terbuka ).

kardinal

2

Saya sudah melihat kertas itu. Dia telah memberikan motivasi dalam perspektif teori informasi di paragraf kedua halaman 1. Tidak begitu jelas bagi saya saat itu. Sekarang terlihat ok. Namun, jika seseorang dapat menjelaskan yang berikut dengan jelas dan memposting sebagai jawaban, itu akan bagus. "Dari teori informasi, entropi relatif adalah batas paling atas untuk redundansi (panjang deskripsi rata-rata berlebih) dari kode Shannon berdasarkan distribusi normal ketika menggambarkan kuantisasi sampel dari ." Saya telah menghapus pertanyaan itu dalam math.SE karena tidak menarik siapa pun di sana

D_{n}

$D_n$

f_{n}

$f_n$

Ashok

@ kardinal: tks untuk kertas yang bagus.

Zen

5

Satu hal yang hebat dengan teorema ini adalah ia menyarankan teorema limit dalam beberapa pengaturan di mana teorema limit pusat biasa tidak berlaku. Misalnya, dalam situasi di mana distribusi entropi maksimum adalah beberapa distribusi nonnormal, seperti untuk distribusi pada lingkaran, ini menunjukkan konvergensi ke distribusi yang seragam.

kjetil b halvorsen
sumber

Saya tidak mengerti. Seperti yang telah saya sebutkan, konvergensi dalam divergensi KL menyiratkan konvergensi dalam distribusi, tahu? Jadi, dimanapun informasi teori CLT berlaku, CLT biasa juga berlaku. Selain itu, teori informasi CLT juga mengasumsikan varian yang terbatas. Atau apakah saya melewatkan sesuatu?

Ashok

2

Apa yang saya maksudkan adalah bahwa metode entropi menunjukkan batas apa yang bisa dalam situasi di mana batas itu bukan distribusi normal. Batasnya adalah distribusi yang memaksimalkan entropi.

kjetil b halvorsen

3

Setelah melihat sekeliling, saya tidak dapat menemukan contoh konvergensi dalam distribusi tanpa konvergensi dalam entropi relatif, jadi ini sulit untuk mengukur "kebesaran" hasil itu.

Bagi saya, sepertinya hasil ini hanya menggambarkan entropi relatif produk konvolusi. Ini sering dipandang sebagai interpretasi alternatif dan kerangka kerja bukti dari Teorema Limit Sentral, dan saya tidak yakin itu memiliki implikasi langsung dalam teori probabilitas (meskipun dalam teori informasi).

Dari Teori Informasi dan Teorema Limit Pusat (halaman 19).

Hukum Kedua Termodinamika menyatakan bahwa entropi termodinamika selalu meningkat seiring waktu, menyiratkan semacam konvergensi dengan keadaan Gibbs. Konservasi energi berarti bahwa tetap konstan selama evolusi waktu ini, sehingga kita dapat mengetahui dari awal negara Gibbs mana yang akan menjadi batasnya. Kami akan menganggap Teorema Limit Pusat dengan cara yang sama, dengan menunjukkan bahwa entropi informasi-teoretis meningkat secara maksimal ketika kita mengambil konvolusi, menyiratkan konvergensi ke Gaussian. Normalisasi dengan tepat berarti bahwa varians tetap konstan selama konvolusi sehingga kita dapat mengetahui dari awal Gaussian mana yang akan menjadi batasnya. $E$

gui11aume
sumber

2

Ada banyak contoh konvergensi dalam distribusi tanpa konvergensi dalam entropi relatif - setiap saat memiliki distribusi diskrit dan CLT berlaku.

X_{i}

$X_i$

Mark Meckes

1

$D(f_n\|\phi)\rightarrow 0$ memastikan bahwa tidak ada "jarak" antara distribusi jumlah variabel acak dan kepadatan gaussian sebagai hanya karena definisi KL divergence, jadi itu buktinya diri. Mungkin saya salah mengerti pertanyaan Anda. $n\rightarrow\infty$

Tentang poin kedua saat Anda menunjuk, itu merespons dalam paragraf Anda.

pengguna lain
sumber

1

CLT normal (Lindberg) menyatakan bahwa mean sampel konvergen dalam distribusi ke RV normal. Itu berarti bahwa CDF konvergen menunjuk ke . Ada perbedaan teoretis ukuran halus antara itu dan hasil OP yang tidak tercermin dalam jawaban Anda di sini.

Φ

$\Phi$

AdamO

Teorema batas pusat teorema informasi

Jawaban: