Perkiraan statistik pesanan untuk variabel acak normal

38

Adakah formula terkenal untuk statistik urutan distribusi acak tertentu? Khususnya statistik urutan pertama dan terakhir dari variabel acak normal, tetapi jawaban yang lebih umum juga akan dihargai.

Sunting: Untuk memperjelas, saya mencari rumus perkiraan yang dapat lebih atau kurang dievaluasi secara eksplisit, bukan ekspresi integral yang tepat.

Sebagai contoh, saya telah melihat dua perkiraan berikut untuk statistik orde pertama (yaitu minimum) dari rv normal:

e1:nμn12n1σ

dan

e1:nμ+Φ1(1n+1)σ

Yang pertama, untuk n=200 , memberikan sekitar e1:200μ10σ yang tampak seperti ikatan yang sangat longgar.

Yang kedua memberi e1:200μ2.58σ sedangkan Monte Carlo yang cepat memberi , jadi itu bukan perkiraan yang buruk tapi tidak bagus juga, dan yang lebih penting aku tidak ' Saya tidak memiliki intuisi tentang dari mana asalnya.e1:200μ2.75σ

Ada bantuan?

Chris Taylor
sumber
4
Jika Anda menggunakan R, lihat fungsi ppoints .
kardinal
1
@probabilityislogic telah memberikan intuisi yang bagus untuk perkiraan yang Anda daftarkan. Apakah akan membantu sama sekali jika saya memberi lebih banyak dari sudut pandang alternatif, atau apakah Anda sudah memuaskan rasa ingin tahu Anda tentang masalah ini?
kardinal

Jawaban:

31

Referensi klasik adalah Royston (1982) [1] yang memiliki algoritma melampaui rumus eksplisit. Ini juga mengutip formula terkenal oleh Blom (1958): E(r:n)μ+Φ-1(r-αn-2α+1)σdenganα=0,375. Formula ini memberikan pengali -2,73 untukn=200,r=1.

[1]: Algoritma AS 177: Statistik Orde Normal yang Diharapkan (Tepat dan Perkiraan) JP Royston. Jurnal Masyarakat Statistik Kerajaan. Seri C (Statistik Terapan) Vol. 31, No. 2 (1982), hlm. 161-165

Aniko
sumber
21

Distribusi statistik urutan ke-i dari setiap variabel acak kontinu dengan PDF diberikan oleh distribusi senyawa "beta-F". Cara intuitif untuk berpikir tentang distribusi ini, adalah untuk mempertimbangkan urutan engan statistik dalam sampel . Sekarang agar nilai statistik urutan ke-i dari variabel acak X menjadi sama dengan x kita membutuhkan 3 kondisi:NXx
  1. bawah x , ini memiliki probabilitas F X ( x ) untuk setiap pengamatan, di mana F X ( x ) = P r ( X < x ) adalah CDF dari variabel acak X.saya-1xFX(x)FX(x)=Pr(X<x)
  2. atas x , ini memiliki probabilitas 1 - F X ( x )N-sayax1-FX(x)
  3. 1 nilai di dalam interval sangat kecil yang mengandung , ini memiliki probabilitas f X ( x ) d x di mana f X ( x ) d x = d F X ( x ) = P r ( x < X < x + d x ) adalah PDF dari variabel acak XxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

Ada cara untuk membuat pilihan ini, jadi kami memiliki:(N1)(N-1saya-1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

Sunting di posting asli saya, saya melakukan upaya yang sangat buruk untuk melangkah lebih jauh dari titik ini, dan komentar di bawah mencerminkan ini. Saya telah berusaha untuk memperbaikinya di bawah ini

Jika kita mengambil nilai rata-rata dari pdf ini, kita mendapatkan:

E(Xi)=xifi(xi)dxi

Dan dalam integral ini, kami membuat perubahan berikut variabel (mengambil petunjuk @ henry), dan integral menjadi:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

Jadi ini adalah nilai yang diharapkan dari CDF terbalik, yang dapat didekati dengan baik menggunakan metode delta untuk memberikan:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

To make a better approximation, we can expand to 2nd order (prime denoting differentiation), and noting that the second derivative of an inverse is:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

Let νi=FX1[iN+1]. Then We have:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

Now, specialising to normal case we have

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

Note that fX(νi)=1σϕ[Φ1(iN+1)] And the expectation approximately becomes:

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

And finally:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

Although as @whuber has noted, this will not be accurate in the tails. In fact I think it may be worse, because of the skewness of a beta with different parameters

probabilityislogic
sumber
1
"Penduga kemungkinan maksimum dari variabel acak "? Tidak yakin apa itu, tapi saya pikir Anda (hampir) menghitung mode .
kardinal
1
Something mysterious happens about two-thirds of the way through when suddenly μ and σ appear without warning or definition.
whuber
2
I don't mean to "pile on", but it's also hard for me to see how the quantity in brackets can be approximated by a negative number.
cardinal
1
@probabilityislogic, while at the level of calculus, you might say that in this case we're considering a bivariate function and simply maximizing over one variable instead of another, I think there are reasons mathematical, statistical, and pedagogical not to call what you've done "maximum likelihood estimation". They are too numerous to enumerate in this space, but a simple one that I think is compelling enough is that we use a particular, arcane vocabulary in statistics for a reason. Changing that on a whim for a single problem can lead to misunderstanding(s).../...
cardinal
2
@probabilityislogic (+1) for the revised answer. One suggestion, maybe is better than to mean "implies". It took staring at a couple lines for a few seconds to realize you weren't making some convergence claim.
cardinal
13

Jawaban Aniko bergantung pada formula terkenal Blom yang melibatkan pilihan α=3/8. Ternyata rumus ini sendiri merupakan perkiraan belaka dari jawaban yang tepat karena G. Elfving (1947), Distribusi asimtot dari rentang sampel dari populasi normal , Biometrika, Vol. 34, hlm. 111-119. Rumus Elfving ditujukan pada minimum dan maksimum sampel, untuk pilihan alpha yang tepatπ/8. Formula hasil Blom ketika kami memperkirakanπ oleh 3.

Dengan menggunakan rumus Elfving daripada perkiraan Blom, kita mendapatkan pengganda -2,744165. Angka ini lebih dekat dengan jawaban pasti Erik P. (-2.746) dan perkiraan Monte Carlo (-2.75) daripada perkiraan Blom (-2.73), sementara lebih mudah diterapkan daripada rumus yang tepat.

Hal M. Switkay
sumber
Bisakah Anda memberikan sedikit detail bagaimana caranya α=π/8tiba melalui Elfving (1947)? Tidak jelas dalam artikel itu.
Anthony
1
Anthony - I am relying on the textbook Mathematical Statistics, by Samuel Wilks, pub. Wiley (1962). Exercise 8.21 on p. 249 states: "If x_(1), x_(n) are the smallest and largest order statistics of a sample of size n from a continuous c.d.f. F(x)...the random variable 2n*sqrt{[F(x_(1))][1-F(x_(n))]} has a limit distribution as n -> infinity, with mean pi/2 and variance 4-(pi^2)/4." (Sorry I don't know markup code!) For a symmetric distribution, F(x_(1)) = 1-F(x_(n)). Thus F(x_(n)) is about pi/(4n), or x_(n) is about F^(-1)(pi/(4n)). The Blom formula uses the approximation 3/(4n).
Hal M. Switkay
This reminds me of the Infamous "π=3" bill attributed to the Indiana State Legislature. (Though the wikipedia article suggests that the popular version of the story is not accurate.)
steveo'america
7

Depending on what you want to do, this answer may or may not help - I got the following exact formula from Maple's Statistics package.

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

By itself this isn't very useful (and it could probably be derived fairly easily by hand, since it's the minimum of n random variables), but it does allow for quick and very accurate approximation for given values of n - much more accurate than Monte Carlo:

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

gives -2.746042447 and -2.746042447451154492412344, respectively.

(Full disclosure - I maintain this package.)

Erik P.
sumber
1
@ProbabilityIsLogic derived this integral for all order statistics in the first half of his reply.
whuber