Kapan lebih suka fungsi pembangkit momen daripada fungsi karakteristik?

Biarkan menjadi ruang probabilitas, dan biarkan menjadi vektor acak. Biarkan menjadi distribusi , ukuran Borel pada . $(\Omega, \mathcal{F}, P)$ $X : \Omega \to \mathbb{R}^n$ $P_X = X_* P$ $X$ $\mathbb{R}^n$

The fungsi karakteristik dari $X$ adalah fungsi $φ_{X} (t) = E [e^{i t \cdot X}] = \int_{Ω} e^{i t \cdot X} d P,$ $\varphi_X(t) = E[e^{i t \cdot X}] = \int_\Omega e^{i t \cdot X} \, dP,$ didefinisikan untuk $t \in \mathbb{R}^n$ (variabel acak $e^{i t \cdot X}$ dibatasi karenanya dalam $L^1(P)$ untuk semua $t$ ). Ini adalah transformasi Fourier dari $P_X$ .
The fungsi pembangkit momen ( MGF ) dari $X$ adalah fungsi $M_{X} (t) = E [e^{t \cdot X}] = \int_{Ω} e^{t \cdot X} d P,$ $M_X(t) = E[e^{t \cdot X}] = \int_\Omega e^{t \cdot X} \, dP,$ didefinisikan untuk semua $t \in \mathbb{R}^n$ yang memiliki integral di atas . Ini adalah transformasi Laplace dari $P_X$ .

Sudah, kita dapat melihat bahwa fungsi karakteristik didefinisikan di mana-mana di $\mathbb{R}^n$ , tetapi mgf memiliki domain yang bergantung pada $X$ , dan domain ini mungkin hanya $\{0\}$ (ini terjadi, misalnya, untuk variabel acak Cauchy-didistribusikan).

Meskipun demikian, fungsi karakteristik dan mgf memiliki banyak properti, misalnya:

Jika $X_1, \ldots, X_n$ independen, maka $φ_{X_{1} + \dots + X_{n}} (t) = φ_{X_{1}} (t) \dots φ_{X_{n}} (t)$ $\varphi_{X_1 + \cdots + X_n}(t) = \varphi_{X_1}(t) \cdots \varphi_{X_n}(t)$ untuk semua $t$ , dan $M_{X_{1} + \dots + X_{n}} (t) = M_{X_{1}} (t) \dots M_{X_{n}} (t)$ $M_{X_1 + \cdots + X_n}(t) = M_{X_1}(t) \cdots M_{X_n}(t)$ untuk semua $t$ yang ada .
Dua vektor acak $X$ dan $Y$ memiliki distribusi yang sama jika dan hanya jika $\varphi_X(t) = \varphi_Y(t)$ untuk semua $t$ . Analog mgf dari hasil ini adalah bahwa jika $M_X(t) = M_Y(t)$ untuk semua $t$ di beberapa lingkungan $0$ , maka $X$ dan $Y$ memiliki distribusi yang sama.
Fungsi karakteristik dan mgf dari distribusi umum sering memiliki bentuk yang serupa. Misalnya, jika ( -dimensi normal dengan mean dan matriks kovarian ), maka dan $X \sim N_n(\mu, \Sigma)$ $n$ $\mu$ $\Sigma$ $φ_{X} (t) = \exp (i μ \cdot t - \frac{1}{2} t \cdot (Σ t))$ $\varphi_X(t) = \exp\left(i \mu\cdot t - \frac{1}{2} t \cdot (\Sigma t)\right)$ $M_{X} (t) = \exp (μ \cdot t - \frac{1}{2} t \cdot (Σ t)) .$ $M_X(t) = \exp\left(\mu\cdot t - \frac{1}{2} t \cdot (\Sigma t)\right).$
Ketika beberapa asumsi ringan berlaku, baik fungsi karakteristik dan mgf dapat dibedakan untuk menghitung momen.
Teorema kontinuitas Lévy memberikan kriteria untuk menentukan kapan urutan variabel acak bertemu dalam distribusi ke variabel acak lain menggunakan konvergensi fungsi karakteristik yang sesuai. Ada teorema yang sesuai untuk mgf ( Curtiss 1942, Teorema 3 ).

Mengingat bahwa fungsi karakteristik dan mgf sering digunakan untuk tujuan yang sama dan fakta bahwa fungsi karakteristik selalu ada sedangkan mgf tidak selalu ada, menurut saya orang harus lebih suka bekerja dengan fungsi karakteristik daripada mgf.

Pertanyaan

Apa saja contoh di mana mgf lebih berguna daripada fungsi karakteristik?

Apa yang dapat dilakukan dengan mgf yang tidak dapat dilakukan dengan fungsi karakteristik?

mgf characteristic-function Artem Mavrin
sumber

Bukankah kunci pertanyaan ini adalah kata "pengantar" menjelang akhir? Apakah masuk akal pedagogis untuk memperkenalkan sesuatu yang melibatkan analisis bilangan kompleks ke dalam kursus yang menganggap hanya paparan minimal (dan tidak nyaman dengan) kalkulus dasar dan seringkali bahkan tidak?

Whuber

@whuber Itu adalah sesuatu yang saya pikirkan juga, tapi saya tidak ingin pertanyaan saya tentang pedagogi, jadi mungkin saya harus menghapus paragraf terakhir

Artem Mavrin

Sebagian jawaban ada di sini: stats.stackexchange.com/questions/304066/…

kjetil b halvorsen

Jawaban:

Itu pertanyaan yang bagus, tetapi pertanyaan yang luas, jadi saya tidak bisa berjanji saya akan mengatakan segalanya tentang itu yang harus dikatakan. Jawaban singkatnya adalah bahwa teknik saingan tidak berbeda dalam apa yang dapat mereka lakukan, tetapi dalam seberapa rapi mereka dapat melakukannya.

Fungsi karakteristik memerlukan kehati-hatian ekstra karena peran bilangan kompleks. Bahkan siswa tidak perlu tahu tentang bilangan kompleks; itu karena kalkulus yang terlibat memiliki jebakan halus. Sebagai contoh, saya bisa mendapatkan MGF distribusi normal hanya dengan menyelesaikan kuadrat dalam substitusi pengalihan variabel, tetapi banyak sumber dengan ceroboh berpura-pura pendekatan menggunakan fungsi karakteristik sama mudahnya. Bukan, karena normalisasi Gaussian integral yang terkenal tidak mengatakan apa pun tentang integrasi pada dengan . Oh, kita masih bisa mengevaluasi integral jika kita berhati-hati dengan kontur, dan sebenarnya ada pendekatan yang lebih mudah, di mana kita menunjukkan dengan mengintegrasikan oleh bagian-bagian yang $ic+\mathbb{R}$ $c\in\mathbb{R}\backslash\{ 0\}$ $N(0,\,1)$ fungsi karakteristik distribusi memenuhi . Tetapi pendekatan MGF bahkan lebih sederhana, dan sebagian besar distribusi yang dibutuhkan siswa sejak dini memiliki MGF konvergen baik pada segmen garis (misalnya Laplace) atau setengah garis (misalnya Gamma, geometris, binomial negatif), atau keseluruhan (mis. Beta, binomial, Poisson, Normal). Either way, itu cukup untuk mempelajari momen. $\phi (t)$ $\dot{\phi}=-t\phi$ $\mathbb{R}$

Saya tidak berpikir ada yang bisa Anda lakukan hanya dengan MGF, tetapi Anda menggunakan apa yang paling mudah untuk tugas yang ada. Ini satu untuk Anda: apa cara termudah untuk menghitung momen distribusi Poisson? Saya berpendapat ini menggunakan teknik yang berbeda lagi, fungsi yang menghasilkan probabilitas . Kemudian simbol Pochhammer yang jatuh memberikan . Secara umum biasanya layak menggunakan PGF untuk distribusi diskrit, MGF untuk distribusi kontinu yang dibatasi atau memiliki pembusukan superexponential di ekor PDF, dan fungsi karakteristik ketika Anda benar-benar membutuhkannya. $G(t)=\mathbb{E}t^X=\exp \lambda (t-1)$ $(X)_k$ $\mathbb{E}(X)_k=G^{(k)}(1)=\lambda^k$

Dan tergantung pada pertanyaan yang Anda ajukan, Anda mungkin lebih bijaksana menggunakan fungsi penghasil kumulans, baik itu didefinisikan sebagai logaritma MGF atau CF. Misalnya, saya akan membiarkannya sebagai latihan yang definisi kumulans log-MGF untuk maksimum iids memberikan , yang menyediakan perhitungan rata-rata dan varians yang jauh lebih mudah (masing-masing dan ) daripada jika Anda menuliskannya dalam beberapa saat. $n$ $\operatorname{Exp}(1)$ $\kappa_m=(m-1)!\sum_{k=1}^n k^{-m}$ $\kappa_1$ $\kappa_2$

J G
sumber

Saya tidak mengerti komentar Anda tentang "integrasi pada " karena afaik cf didefinisikan sebagai integral dari fungsi bernilai kompleks pada Tidak harus dilihat sebagai integral kontur. Bagi mereka yang tidak nyaman dengan bilangan kompleks, hal itu dapat dipandang sebagai integral integral sebenarnya. Tidak jelas bagaimana mgf "lebih sederhana" dalam hal apa pun. Memang, cf lebih sederhana dalam arti bahwa seseorang tidak perlu khawatir tentang konvergensi.

i c + R,

$ic+\mathbb R,$

R .

$\mathbb R.$

whuber

@whuber Yang saya maksud adalah .

\int_{R} \frac{1}{\sqrt{2 π}} \exp (- \frac{x^{2}}{2} + i t x) d x = \int_{- i t + R} \frac{1}{\sqrt{2 π}} \exp (- \frac{y^{2}}{2} - \frac{t^{2}}{2}) d t

$\int_{\Bbb R}\frac{1}{\sqrt{2\pi}}\exp (-\frac{x^2}{2}+itx)dx=\int_{-it+\Bbb R}\frac{1}{\sqrt{2\pi}}\exp (-\frac{y^2}{2}-\frac{t^2}{2})dt$

Saya juga curiga. Tapi bukankah itu hanya sebuah artefak tentang bagaimana seseorang dapat memilih untuk mengevaluasi integral, daripada menjadi fitur yang melekat dari cf itu sendiri?

Whuber

@whuber Masalahnya adalah banyak sumber berpura-pura substitusi bekerja secara langsung seperti dalam kasus MGF, yang tidak.

Maukah Anda menjelaskan sedikit tentang mengapa tidak? Saya melihat tidak ada masalah dalam kasus khusus ini; dan secara umum, karena integral asli atas adalah konvergen, orang tidak akan mengharapkan masalah dengan penggantian semacam ini.

R

$\mathbb R$

Whuber

Jika variabel acak Anda memiliki semua momennya, maka MGF ada, dan umumnya setidaknya berguna sebagai fungsi karakteristik untuk bukti.

Untuk menjawab pertanyaan Anda, ketika MGF yang ada, ia menyediakan dasar bagi banyak perhitungan ekstrim-nilai yang berhubungan dengan . Yang paling sederhana adalah (untuk ), $X$ $t\geq 0$

P (X > r) = P (e^{t X} > e^{t r}) \leq M_{X} (t) / e^{t r} .

$P(X>r)=P(e^{tX}>e^{tr})\leq M_X(t)/e^{tr}.$

Di sini, rhs sekarang dapat diminimalkan . Anehnya, ikatan ini adalah salah satu dari beberapa cara sederhana yang kita ketahui untuk mendapatkan perkiraan peristiwa langka. Area umum dari ini adalah Teori Penyimpangan Besar , di mana seseorang harus melakukan banyak pekerjaan untuk mendapatkan batas yang lebih baik (lebih ketat). Contoh umum dari ini adalah melihat , sehingga ketika MGF ada, maka orang dapat menunjukkan meluruh secara eksponensial dalam . Ini lebih dikenal sebagai Teorema Cramer . $t$ $S_n=X_1+\cdots + X_n$ $X_1$ $P(|S_n-E[X]|>nr)$ $n$

Inilah beberapa catatan ringkas tentang ini.

Alex R.
sumber

Segala sesuatu dalam paragraf pertama Anda sudah disebutkan dalam pertanyaan kecuali kalimat terakhir, yang menurut saya salah. Sebagai contoh, semua momen dari distribusi log-normal ada, tetapi mgfnya tidak terdefinisi untuk bilangan real positif. Bagian kedua dari jawaban Anda sangat berguna karena menyoroti aplikasi mgf yang tampaknya tidak memiliki fungsi analog

Artem Mavrin