Tes untuk varian terbatas?

29

Apakah mungkin untuk menguji ketelitian (atau keberadaan) dari varians dari variabel acak yang diberikan sampel? Sebagai nol, {varians ada dan terbatas} atau {varians tidak ada / tidak terbatas} akan diterima. Secara filosofis (dan komputasi), ini tampak sangat aneh karena seharusnya tidak ada perbedaan antara populasi tanpa varian terbatas, dan populasi dengan varian sangat besar (katakanlah> ), jadi saya tidak berharap masalah ini dapat terpecahkan.10400

Salah satu pendekatan yang telah disarankan kepada saya adalah melalui Central Limit Theorem: dengan asumsi sampel adalah iid, dan populasi memiliki rata-rata yang terbatas, orang dapat memeriksa, entah bagaimana, apakah sampel rata-rata memiliki kesalahan standar yang tepat dengan meningkatnya ukuran sampel. Saya tidak yakin saya percaya metode ini akan berhasil. (Secara khusus, saya tidak melihat bagaimana membuatnya menjadi ujian yang tepat.)

shabbychef
sumber
1
Relevan: stats.stackexchange.com/questions/94402/... Jika ada sedikit kemungkinan varians tidak ada, Anda lebih baik menggunakan model yang tidak mengasumsikan varian terbatas. Jangan pernah berpikir untuk mengujinya.
kjetil b halvorsen

Jawaban:

13

Tidak, ini tidak mungkin, karena sampel ukuran terbatas tidak dapat secara andal membedakan antara, katakanlah, populasi normal dan populasi normal yang terkontaminasi oleh jumlah distribusi Cauchy mana >> . (Tentu saja yang pertama memiliki varian terbatas dan yang terakhir memiliki varian tak terbatas.) Dengan demikian setiap tes nonparametrik sepenuhnya akan memiliki daya rendah sewenang-wenang terhadap alternatif tersebut.1 / N N nn1/NNn

whuber
sumber
4
ini adalah poin yang sangat bagus. namun, bukankah sebagian besar tes hipotesis memiliki daya yang semaunya terhadap beberapa alternatif? misalnya tes untuk mean nol akan memiliki daya yang sangat rendah ketika diberi sampel dari populasi dengan mean untuk 0 < | ϵ | kecil. Saya masih bertanya-tanya apakah tes seperti itu dapat dibangun dengan baik, apalagi apakah memiliki daya yang rendah dalam beberapa kasus. ϵ0<|ϵ|
shabbychef
2
juga, distribusi 'tercemar' seperti yang Anda kutip selalu tampak bertentangan dengan gagasan 'didistribusikan secara identik'. Mungkin Anda akan setuju. Tampaknya mengatakan sampel diambil iid dari beberapa distribusi tanpa menyatakan distribusi tidak ada artinya (yah, bagian 'independen' dari iid bermakna).
shabbychef
2
(1) Anda benar tentang daya rendah, tetapi masalahnya di sini (menurut saya) adalah bahwa tidak ada langkah bertahap dari "terbatas" ke "tak terbatas": masalahnya tampaknya tidak memiliki skala alami untuk memberi tahu kami apa yang merupakan keberangkatan "kecil" dari nol dibandingkan dengan keberangkatan "besar". (2) Bentuk distribusi tidak tergantung pada pertimbangan iid. Saya tidak bermaksud bahwa, katakanlah, 1% dari data akan berasal dari Cauchy dan 99% dari Normal. Maksud saya, 100% data berasal dari distribusi yang hampir normal tetapi memiliki ekor Cauchy. Dalam hal ini data dapat menjadi id untuk distribusi yang terkontaminasi.
whuber
2
Adakah yang membaca makalah ini? sciencedirect.com/science/article/pii/S0304407615002596
Christoph Hanck
3
@shabbychef jika setiap pengamatan muncul dari proses campuran yang sama persis mereka didistribusikan secara identik, masing-masing sebagai gambar dari distribusi campuran yang sesuai. Jika beberapa pengamatan harus dari satu proses dan yang lain harus dari proses yang berbeda (pengamatan 1 hingga 990 adalah normal dan pengamatan 991 hingga 1000 adalah Cauchy, katakanlah), maka mereka tidak terdistribusi secara identik (meskipun sampel gabungan mungkin tidak dapat dibedakan. dari campuran 99% -1%). Ini pada dasarnya bermuara pada model proses yang Anda gunakan.
Glen_b -Reinstate Monica
16

Anda tidak dapat memastikan tanpa mengetahui distribusinya. Tetapi ada beberapa hal yang dapat Anda lakukan, seperti melihat apa yang disebut "varians parsial", yaitu jika Anda memiliki sampel ukuran , Anda menggambar varians yang diperkirakan dari n istilah pertama , dengan n berjalan dari 2 hingga NNnnN .

Dengan varians populasi terbatas, Anda berharap varians parsial segera mengendap dekat dengan varians populasi.

Dengan varians populasi tak terbatas, Anda melihat lompatan dalam varians parsial diikuti oleh penurunan lambat sampai nilai berikutnya yang sangat besar muncul dalam sampel.

Ini adalah ilustrasi dengan variabel acak Normal dan Cauchy (dan skala log) Varians parsial

Ini mungkin tidak membantu jika bentuk distribusi Anda sedemikian rupa sehingga ukuran sampel yang jauh lebih besar daripada yang Anda miliki diperlukan untuk mengidentifikasinya dengan kepercayaan yang cukup, yaitu ketika nilai yang sangat besar jarang (tetapi tidak terlalu) jarang untuk distribusi dengan varian terbatas, atau sangat jarang untuk distribusi dengan varian tak terbatas. Untuk distribusi tertentu akan ada ukuran sampel yang lebih mungkin daripada tidak mengungkapkan sifatnya; sebaliknya, untuk ukuran sampel tertentu, ada distribusi yang lebih cenderung untuk tidak menyembunyikan sifat mereka untuk ukuran sampel tersebut.

Henry
sumber
4
+1 Saya suka ini karena (a) grafik biasanya mengungkapkan lebih dari sekadar tes dan (b) praktis. Saya sedikit khawatir bahwa ia memiliki aspek yang sewenang-wenang: penampilannya akan sangat bergantung (sangat, mungkin) pada urutan pemberian data. Ketika "varians parsial" disebabkan oleh satu atau dua nilai ekstrem, dan mereka mendekati awal, grafik ini mungkin menipu. Saya ingin tahu apakah ada solusi yang baik untuk masalah ini.
whuber
1
+1 untuk grafik yang hebat. Benar-benar memperkuat konsep "tidak ada perbedaan" dalam distribusi Cauchy. @whuber: Mengurutkan data dalam semua kemungkinan permutasi, menjalankan tes untuk masing-masing, dan mengambil semacam rata-rata? Tidak sangat efisien secara komputasi, saya akan memberikan Anda :) tetapi mungkin Anda bisa memilih beberapa permutasi acak?
naught101
2
@ naught101 Rata-rata semua permutasi tidak akan memberi tahu Anda apa pun, karena Anda akan mendapatkan garis horizontal sempurna. Mungkin saya salah paham maksud Anda?
whuber
1
@whuber: Sebenarnya saya bermaksud mengambil rata-rata semacam tes untuk konvergensi, bukan grafik itu sendiri. Tapi saya akan memberikan itu ide yang sangat samar, dan itu terutama karena saya tidak tahu apa yang saya bicarakan :)
naught101
7

Ini jawaban lain. Misalkan Anda dapat menentukan masalah, sesuatu seperti ini:

H0: Xt(df=3) versus H1: Xt(df=1).

Maka Anda bisa melakukan tes rasio kemungkinan Neyman-Pearson biasa dari versus H 1 . Perhatikan bahwa H 1 adalah Cauchy (varian tak terbatas) dan H 0 adalah t Student yang biasa dengan 3 derajat kebebasan (varian terbatas) yang memiliki PDF: f ( x | ν ) = Γ ( ν + 1H0H1H1H0 t

f(x|ν)=Γ(ν+12)νπΓ(ν2)(1+x2ν)ν+12,

untuk . Diberikan data sampel acak sederhana x 1 , x 2 , ... , x n , uji rasio kemungkinan menolak H 0 ketika Λ ( x ) = n i = 1 f ( x i | ν = 1 )<x<x1,x2,,xnH0 manak0dipilih sedemikian rupa sehingga P(Λ(X)>

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

Ini sedikit aljabar untuk menyederhanakan

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2.

Jadi, sekali lagi, kami mendapatkan sampel acak sederhana, menghitung , dan menolak H 0 jika Λ ( x ) terlalu besar. Seberapa besar? Itu bagian yang menyenangkan! Akan sulit (tidak mungkin?) Untuk mendapatkan formulir tertutup untuk nilai kritis, tetapi kita bisa memperkirakannya sedekat yang kita mau, pasti. Inilah salah satu cara untuk melakukannya, dengan R. Misalkan α = 0,05 , dan untuk tertawa, katakanlah n = 13Λ(x)H0Λ(x)α=0.05n=13 .

Kami menghasilkan banyak sampel di bawah , menghitung Λ untuk setiap sampel, dan kemudian menemukan kuantil ke-95.H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

Ini ternyata (setelah beberapa detik) pada mesin saya menjadi , yang setelah dikalikan dengan ( 12.8842 adalahk1,9859. Tentunya ada cara lain yang lebih baik untuk memperkirakan ini, tapi kami hanya bermain-main.(3/2)13k1.9859

Singkatnya, ketika masalahnya parametrizable, Anda dapat mengatur tes hipotesis seperti yang Anda lakukan dalam masalah lain, dan itu cukup mudah, kecuali dalam hal ini untuk beberapa tarian tap di akhir. Perhatikan bahwa kita tahu dari teori kami tes di atas adalah tes yang paling kuat dari versus H 1 (pada level α ), sehingga tidak ada yang lebih baik dari ini (diukur dengan kekuatan).H0H1α

Penafian: ini adalah contoh mainan. Saya tidak memiliki situasi dunia nyata di mana saya ingin tahu apakah data saya berasal dari Cauchy sebagai lawan t Student dengan 3 df. Dan pertanyaan awal tidak mengatakan apa-apa tentang masalah parametrize, sepertinya mencari lebih dari pendekatan nonparametrik, yang saya pikir ditangani dengan baik oleh yang lain. Tujuan dari jawaban ini adalah untuk pembaca masa depan yang menemukan judul pertanyaan dan mencari pendekatan buku teks klasik yang berdebu.

PS mungkin menyenangkan untuk bermain lebih sedikit dengan tes untuk pengujian , atau yang lainnya, tapi saya belum melakukannya. Dugaan saya adalah bahwa itu akan menjadi sangat jelek cukup cepat. Saya juga berpikir untuk menguji berbagai jenis distribusi stabil , tetapi sekali lagi, itu hanya sebuah pemikiran.H1:ν1


sumber
2
memperkirakan dalam distribusi stabil sangat sulit. α
shabbychef
1
Anda dapat menguji juga bahwa , karena T-dist hanya memiliki varian terbatas untuk ν > 2 . H1:ν2ν>2
probabilityislogic
2
Re: , saya tidak tahu itu sangat sulit, tapi kedengarannya benar, terima kasih. @probability, Anda benar, dan satu-satunya alasan saya memilih 3 lawan 1 adalah karena itu berarti lebih sedikit fraksi. Dan BTW, saya lebih menyukai jawaban probabilitas daripada jawaban probabilitas saya (+1). α
1
mungkin saya salah mengingat hasilnya: sesuatu tentang estimasi indeks ekor ketika mendekati 2; kertasnya karya Weron, saya kira. Selain itu, pengujian α = 2 terhadap alternatif penjumlahan adalah sejenis uji normalitas! Tes tersebut biasanya menolak diberikan data (nyata) yang cukup: lihat misalnya stats.stackexchange.com/questions/2492/...αα=2
shabbychef
6

Untuk menguji hipotesis yang samar-samar seperti itu, Anda perlu menghitung rata-rata semua kepadatan dengan varian terbatas, dan semua kepadatan dengan varian tak terbatas. Ini kemungkinan tidak mungkin, pada dasarnya Anda harus lebih spesifik. Satu versi yang lebih spesifik dari ini dan memiliki dua hipotesis untuk sampel :DY1,Y2,,YN

  1. H0:YiNormal(μ,σ)
  2. HA:YiCauchy(ν,τ)

Satu hipotesis memiliki varian terbatas, satu hipotesis varian tak terbatas. Hitung saja peluangnya:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

Where P(H0|I)P(HA|I) is the prior odds (usually 1)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
And
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

Now you normally wouldn't be able to use improper priors here, but because both densities are of the "location-scale" type, if you specify the standard non-informative prior with the same range L1<μ,τ<U1 and L2<σ,τ<U2, then we get for the numerator integral:

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

Where s2=N1i=1N(YiY¯)2 and Y¯=N1i=1NYi. And for the denominator integral:

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

And now taking the ratio we find that the important parts of the normalising constants cancel and we get:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

And all integrals are still proper in the limit so we can get:

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

The denominator integral cannot be analytically computed, but the numerator can, and we get for the numerator:

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

Now make change of variables λ=σ2dσ=12λ32dλ and you get a gamma integral:

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

And we get as a final analytic form for the odds for numerical work:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

So this can be thought of as a specific test of finite versus infinite variance. We could also do a T distribution into this framework to get another test (test the hypothesis that the degrees of freedom is greater than 2).

probabilityislogic
sumber
1
When you started to integrate, you introduced a term s2. It persists through the final answer. What is it?
whuber
2
@whuber - s is the standard deviation MLE, s2=N1i=1N(YiY¯)2. I thought it was the usual notation for standard deviation, just as Y¯ is usual for average - which I have incorrectly written as x¯, will edit accordingly
probabilityislogic
5

The counterexample is not relevant to the question asked. You want to test the null hypothesis that a sample of i.i.d. random variables is drawn from a distribution having finite variance, at a given significance level. I recommend a good reference text like "Statistical Inference" by Casella to understand the use and the limit of hypothesis testing. Regarding h.t. on finite variance, I don't have a reference handy, but the following paper addresses a similar, but stronger, version of the problem, i.e., if the distribution tails follow a power law.

POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA SIAM Review 51 (2009): 661--703.

gappy
sumber
1

One approach that had been suggested to me was via the Central Limit Theorem.

This is a old question, but I want to propose a way to use the CLT to test for large tails.

Let X={X1,,Xn} be our sample. If the sample is a i.i.d. realization from a light tail distribution, then the CLT theorem holds. It follows that if Y={Y1,,Yn} is a bootstrap resample from X then the distribution of:

Z=n×mean(Y)mean(X)sd(Y),

is also close to the N(0,1) distribution function.

Now all we have to do is perform a large number of bootstraps and compare the empirical distribution function of the observed Z's with the e.d.f. of a N(0,1). A natural way to make this comparison is the Kolmogorov–Smirnov test.

The following pictures illustrate the main idea. In both pictures each colored line is constructed from a i.i.d. realization of 1000 observations from the particular distribution, followed by a 200 bootstrap resamples of size 500 for the approximation of the Z ecdf. The black continuous line is the N(0,1) cdf.

enter image description here enter image description here

Mur1lo
sumber
2
No amount of bootstrapping will get you anywhere against the problem I raised in my answer. That's because the vast majority of samples will not supply any evidence of a heavy tail--and bootstrapping, by definition, uses only the data from the sample itself.
whuber
1
@whuber If the X values are taken from a symmetrical power law, then the generalized CLT applies and KS test will detect the difference. I believe that your observation do not correctly characterize what you say is a "gradual step from "finite" to "infinite""
Mur1lo
1
The CLT never "applies" to any finite sample. It's a theorem about a limit.
whuber
1
When I say that it "applies" I'm only saying that it provides a good approximation if we have a large sample.
Mur1lo
1
The vagueness of "good approximation" and "large" unfortunately fail to capture the logic of hypothesis tests. Implicit in your statement is the possibility of collecting an ever larger sample until you are able to detect the heavy-tailedness: but that's not how hypotheses tests usually work. In the standard setting you have a given sample and your task is to test whether it is from a distribution in the null hypothesis. In this case, bootstrapping won't do that any better than any more straightforward test.
whuber