Apakah rata-rata variabel acak univariat selalu sama dengan integral dari fungsi kuantilnya?

17

Saya hanya memperhatikan bahwa mengintegrasikan fungsi kuantil variabel acak univariat (invers cdf) dari p = 0 ke p = 1 menghasilkan rata-rata variabel. Saya belum pernah mendengar hubungan ini sebelumnya, jadi saya bertanya-tanya: Apakah ini selalu terjadi? Jika demikian, apakah hubungan ini dikenal luas?

Berikut ini adalah contoh dalam python:

from math import sqrt
from scipy.integrate import quad
from scipy.special import erfinv

def normalPdf(x, mu, sigma):
    return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0))

def normalQf(p, mu, sigma):
    return mu + sigma * sqrt(2.0) * erfinv(2.0 * p - 1.0)

mu = 2.5
sigma = 1.3
quantileIntegral = quad(lambda p: quantile(p,mu,sigma), 0.0, 1.0)[0]
print quantileIntegral # Prints 2.5.
Tyler Streeter
sumber

Jawaban:

26

Misalkan F adalah CDF dari variabel acak X , sehingga CDF terbalik dapat dituliskan F1 . Di integral Anda buat substitusi p=F(x) , dp=F(x)dx=f(x)dx untuk mendapatkan

01F1(p)dp=xf(x)dx=EF[X].

Ini berlaku untuk distribusi berkelanjutan. Perhatian harus diambil untuk distribusi lain karena CDF terbalik tidak memiliki definisi yang unik.

Edit

Ketika variabel tidak kontinu, itu tidak memiliki distribusi yang benar-benar kontinu berkenaan dengan ukuran Lebesgue, membutuhkan perawatan dalam definisi CDF terbalik dan perawatan dalam komputasi integral. Pertimbangkan, misalnya, kasus distribusi diskrit. Menurut definisi, ini adalah CDF F merupakan fungsi langkah dengan langkah-langkah ukuranPrF(x) pada setiap nilai yang mungkinx .

Gambar 1

Angka ini menunjukkan CDF dari Bernoulli distribusi skala oleh 2 . Artinya, variabel acak memiliki probabilitas 1 / 3 menyamai 0 dan probabilitas 2 / 3 menyamai 2 . Ketinggian lompatan pada 0 dan 2 memberikan probabilitasnya. Harapan variabel ini jelas sama dengan 0 × ( 1 / 3(2/3)21/302/3202 .0×(1/3)+2×(2/3)=4/3

Kita dapat mendefinisikan "invers CDF" dengan memintaF1

F1(p)=x if F(x)p and F(x)<p.

Ini berarti bahwa juga merupakan fungsi langkah. Untuk kemungkinan nilai x dari variabel acak, F - 1 akan mencapai nilai x selama interval panjang Pr F ( x ) . Oleh karena itu integralnya diperoleh dengan menjumlahkan nilai-nilaiF1xF1xPrF(x) , yang hanya harapan.xPrF(x)

Gambar 2

Ini adalah grafik CDF terbalik dari contoh sebelumnya. Melompat dari dan 2 / 3 di CDF menjadi garis horizontal panjang ini pada ketinggian sama dengan 0 dan 2 , nilai-nilai untuk yang probabilitasnya mereka sesuai. (The Inverse CDF tidak didefinisikan di luar interval [ 0 , 1 ] .) Terpisahkan Its adalah jumlah dari dua persegi panjang, salah satu dari ketinggian 0 dan basis 1 / 3 , yang lain dari ketinggian 2 dan basis1/32/302[0,1]01/32 , dengan total 4 / 32/34/3, seperti sebelumnya.

Secara umum, untuk campuran distribusi kontinu dan diskrit, kita perlu mendefinisikan CDF terbalik untuk memparalelkan konstruksi ini: pada setiap lompatan diskrit ketinggian kita harus membentuk garis horizontal panjang p seperti yang diberikan oleh rumus sebelumnya.pp

whuber
sumber
Anda membuat kesalahan dalam perubahan variabel. dari mana x berasal?
Mascarpone
3
@Mascarpone Harap baca teks sebelum persamaan. Saya tidak berpikir ada kesalahan dalam perubahan variabel :-), tetapi jika Anda pikir itu akan menjelaskan eksposisi, saya akan senang menunjukkan bahwa ketika , maka x = F - 1 ( p ) . Aku hanya berpikir itu tidak perlu. p=F(x)x=F1(p)
whuber
sekarang saya mengerti;),
Mascarpone
+1 Whuber: Terima kasih! Bisakah Anda menguraikan untuk menggunakan formula yang Anda berikan, bagaimana menjaga distribusi lain yang CDF kebalikannya tidak memiliki definisi yang unik?
StackExchange for All
1
Untuk mengabaikan pertimbangan tidak nyaman seperti tentang invers, invers pseudo dan sejenisnya, dan secara bersamaan untuk generalisasi setiap saat, lihat di sini .
Apakah
9

Hasil yang setara dikenal dalam analisis survival : umur yang diharapkan adalah dengan fungsi survival adalah S ( t ) = Pr ( T > t ) diukur sejak lahir pada t = 0 . (Dapat dengan mudah diperluas untuk mencakup nilai negatif t .)

t=0S(t)dt
S(t)=Pr(T>t)t=0t

masukkan deskripsi gambar di sini

Jadi kita dapat menulis ulang ini sebagai tapi ini1 q = 0 F - 1 ( q )

t=0(1F(t))dt
seperti yang ditunjukkan dalam berbagai refleksi dari area yang bersangkutan
q=01F1(q)dq

masukkan deskripsi gambar di sini

Henry
sumber
1
Saya suka gambar, dan secara naluriah merasa ada ide bagus bersembunyi di sini - Saya suka ide itu -, tapi saya tidak mengerti yang ini. Penjelasan akan sangat membantu. Satu hal yang berhenti saya di trek saya adalah pikiran mencoba untuk memperpanjang integral dari ke - : memiliki menyimpang. (1F(t))dt
whuber
@whuber: Jika Anda ingin memperluas ke negatif , Anda mendapatkan t = 0 ( 1 - F ( t ) )t . Perhatikan bahwa jika konvergen distribusi konvergen sekitar 0 , yaitu F ( t ) = 1 - F ( - t ) maka mudah untuk melihat bahwa ekspektasinya nol. Mengambil jumlah alih-alih perbedaant = 0 ( 1 - F ( t ) )t=0(1F(t))dtt=0F(t)dt0F(t)=1F(t) memberikan deviasi absolut rata-rata sekitar 0 . t=0(1F(t))dt+t=0F(t)dt0
Henry
Jika Anda menyukai diagram, Anda mungkin tertarik pada makalah ini tahun 1988 oleh Lee: The Matematika Kelebihan Cakupan Kerugian dan Penilaian Retrospektif-Pendekatan Grafis .
Avraham
4

Kami sedang mengevaluasi:

enter image description here

Mari kita coba dengan perubahan variabel sederhana:

enter image description here

Dan kami perhatikan bahwa, dengan definisi PDF dan CDF:

enter image description here

hampir dimana-mana. Dengan demikian kita memiliki, berdasarkan definisi nilai yang diharapkan:

enter image description here

Sabar
sumber
Pada baris terakhir saya menjelaskan dengan lebih jelas definisi nilai yang diharapkan. Hampir di mana-mana mengacu pada persamaan di atas yang terakhir. en.wikipedia.org/wiki/Almost_everywhere
Mascarpone
1
diedit, thanx :)
Mascarpone
3

XF F1(U)XU(0,1)XF1(U):

E(X)=E(F1(U))=01F1(u)du.
The representation XF1(U) holds for a general cdf F, taking F1 to be the left-continuous inverse of F in the case when F it is not invertible.
Stéphane Laurent
sumber
1

Note that F(x) is defined as P(Xx) and is a right-continuous function. F1 is defined as

F1(p)=min(x|F(x)p).
The min makes sense because of the right continuity. Let U be a uniform distribution on [0,1]. You can easily verify that F1(U) has the same CDF as X, which is F. This doesn't require X to be continuous. Hence, E(X)=E(F1(U))=01F1(p)dp. The integral is the Riemann–Stieltjes integral. The only assumption we need is the mean of X exists (E|X|<).
WWang
sumber
That's the same answer as mine.
Stéphane Laurent