Apa perbedaan antara varian terbatas dan tak terbatas

33

Apa perbedaan antara varian terbatas dan tak terbatas? Pengetahuan statistik saya agak mendasar; Wikipedia / Google tidak banyak membantu di sini.

AfterWorkGuinness
sumber
8
Distribusi dengan varian tak terbatas adalah berekor berat ; ada banyak outlier, dan dapat memiliki properti yang berbeda dari apa yang biasa dilihat. Misalnya, rata-rata sampel yang diambil dari distribusi Cauchy memiliki distribusi (Cauchy) yang sama dengan sampel individu. Ini sangat berbeda dari kepercayaan yang biasa bahwa mean sampel adalah "penaksir" yang lebih baik daripada sampel individu mana pun.
Dilip Sarwate
4
Tidak, berekor berat tidak sama dengan memiliki varian yang tak terbatas, atau setidaknya, tidak dalam pandangan saya. Namun, saya bukan ahli statistik dan karenanya Anda harus menunggu jawaban yang lebih otoritatif dari pengguna berperingkat tinggi di forum ini.
Dilip Sarwate
4
Varians tak terbatas terjadi ketika integral (penjumlahan) yang mendefinisikan varians populasi meningkat melampaui batas terbatas apa pun ketika batas diambil. Beberapa diskusi contoh di sini
Glen_b -Reinstate Monica
2
Saya pikir yang paling penting, sebagian besar teorema limit sentral gagal untuk populasi seperti itu dan dengan demikian beberapa hasil umum akan runtuh.
Henry.L
1
Poin penting: jika varians populasi tidak terbatas, tetapi varians sampel terbatas, maka setiap estimasi varians populasi atau standar deviasi menggunakan statistik sampel sepertis2 , ataus , lalusn akan menjadi bias yang agak buruk. Karena begitu banyak statistik uji didasarkan pada ukuran efek dinormalisasi atas perkiraan kesalahan standar efek, dan karena begitu banyak CI didasarkan pada penskalaan oleh perkiraan kesalahan standar, ini berarti bahwakesimpulan statistik tentang variabel dengan varians tak terbatas akan cenderung menjadi agak bias.
Alexis

Jawaban:

48

Apa artinya variabel acak memiliki "varian tak terbatas"? Apa artinya variabel acak memiliki harapan tak terbatas? Penjelasan dalam kedua kasus agak mirip, jadi mari kita mulai dengan kasus harapan, dan kemudian varians setelah itu.

Biarkan menjadi variabel acak kontinu (RV) (kesimpulan kami akan lebih valid secara umum, untuk kasus diskrit, ganti integral dengan jumlah). Untuk menyederhanakan eksposisi, mari kita asumsikan X 0 .XX0

Harapannya ditentukan oleh integral saat yang tidak terpisahkan ada, yaitu terbatas. Kalau tidak, kita katakan harapannya tidak ada. Itu adalah integral yang tidak tepat, dan menurut definisi adalah 0 x f ( x )

EX=0xf(x)dx
Untuk batas itu menjadi terbatas, kontribusi dari ekor harus lenyap, yaitu, kita harus memiliki lim a sebuah x f ( x )
0xf(x)dx=lima0axf(x)dx
Kondisi yang diperlukan (tetapi tidak cukup) untuk itu adalah lim x x f ( x ) = 0 . Yang dikatakan oleh kondisi di atas, adalah bahwakontribusi terhadap ekspektasi dari ekor (kanan) harus menghilang. Jika tidak demikian halnya, ekspektasididominasi oleh kontribusi dari nilai realisasi besar yang sewenang-wenang. Dalam praktiknya, itu akan berarti bahwa sarana empiris akan sangat tidak stabil, karena merekaakan didominasi oleh nilai realisasi yang sangat besar dan jarang.
limaaxf(x)dx=0
limxxf(x)=0. Dan perhatikan bahwa ketidakstabilan sampel ini berarti tidak akan hilang dengan sampel besar --- itu adalah bagian bawaan dari model!

Dalam banyak situasi, itu tampaknya tidak realistis. Mari kita katakan model asuransi (jiwa), jadi memodelkan beberapa kehidupan (manusia) Kita tahu bahwa, katakan X > 1000 tidak terjadi, tetapi dalam praktiknya kita menggunakan model tanpa batas atas. Alasannya jelas: Tidak sulit batas atas diketahui, jika seseorang sudah tua (katakanlah) 110 tahun, tidak ada alasan dia tidak bisa hidup satu tahun lagi! Jadi model dengan batas atas yang keras sepertinya buatan. Namun, kami tidak ingin ekor atas yang ekstrem memiliki banyak pengaruh.XX>1000

Jika memiliki ekspektasi terbatas, maka kita dapat mengubah model untuk memiliki batas atas yang keras tanpa pengaruh yang tidak semestinya terhadap model. Dalam situasi dengan batas atas fuzzy yang tampak bagus. Jika model memiliki ekspektasi tak terbatas, maka, setiap batas atas keras yang kami perkenalkan pada model akan memiliki konsekuensi dramatis! Itulah pentingnya harapan yang tak terbatas.X

Dengan harapan yang terbatas, kita bisa kabur tentang batas atas. Dengan harapan yang tak terbatas, kita tidak bisa .

Sekarang, banyak hal yang sama dapat dikatakan tentang varian tak terbatas, mutatis mutandi.

Untuk memperjelas, mari kita lihat pada contoh. Sebagai contoh kita menggunakan distribusi Pareto, diimplementasikan dalam paket R (pada CRAN) actuar sebagai pareto1 --- parameter tunggal distribusi Pareto juga dikenal sebagai distribusi Pareto tipe 1. Ini memiliki fungsi kepadatan probabilitas yang diberikan oleh untuk beberapa parameterm>0,α>0. Ketikaα>1harapan ada dan diberikan olehα

f(x)={αmαxα+1,xm0,x<m
m>0,α>0α>1. Ketikaα1harapan tidak ada, atau seperti yang kita katakan, itu tidak terbatas, karena integral mendefinisikannya berbeda dengan tak terhingga. Kita dapat mendefinisikandistribusi saat Pertama(lihat posKetika kita akan menggunakan tantiles dan medial, daripada quantiles dan median? Untuk beberapa informasi dan referensi) sebagai E(M)= M m xf(x)αα-1mα1 (ini ada tanpa memperhatikan apakah harapan itu sendiri ada). (Kemudian mengedit: Saya menemukan nama "distribusi momen pertama, kemudian saya mengetahui ini terkait dengan apa yang" secara resmi "namamomen parsial).
E(M.)=mM.xf(x)dx=αα-1(m-mαM.α-1)

Ketika harapan ada ( ) kita dapat membaginya dengan untuk mendapatkan distribusi momen pertama relatif, diberikan oleh E r ( M ) = E ( m ) / E ( ) = 1 - ( mα>1 Ketikaαhanya sedikit lebih besar dari satu, sehingga harapan "nyaris tidak ada", integral yang mendefinisikan harapan akan konvergen perlahan. Mari kita lihat contoh denganm=1,α=1.2. Mari kita merencanakan makaEr(M)dengan bantuan R:

Er(M.)=E(m)/E()=1-(mM.)α-1
αm=1,α=1.2Er(M.)
### Function for opening new plot file:
open_png  <-  function(filename) png(filename=filename,
                                     type="cairo-png")

library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm   and used some times at cross validated

m  <-  1.0
alpha <- 1.2
# Expectation:
E   <-  m * (alpha/(alpha-1))
# upper limit for plots:
upper  <- qpareto1(0.99, alpha, m)   
#
open_png("first_moment_dist1.png")
Er  <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function,  giving
#   what we may call "expectation quantiles":
Er_inv  <-   function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))     

plot(function(M) Er(M, m, alpha), from=1.0,  to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0,  to=upper, add=TRUE,  col="red")
dev.off()

yang menghasilkan plot ini:

masukkan deskripsi gambar di sini

μα>2

Fungsi Er_inv didefinisikan di atas adalah distribusi momen pertama relatif relatif, analog dengan fungsi kuantil. Kita punya:

> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example   
eq  <-  Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq

> > > [1] 0.984375
> [1] 32
> 

μn=5

set.seed(1234)
n  <-  5
N  <-  10000000  # Number of simulation replicas
means  <-  replicate(N,  mean(rpareto1(n, alpha, m) ))


> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136

Untuk mendapatkan plot yang mudah dibaca, kami hanya menampilkan histogram untuk bagian sampel dengan nilai di bawah 100, yang merupakan bagian yang sangat besar dari sampel.

open_png("mean_sim_hist1.png")
hist(means[means<=100],  breaks=100, probability=TRUE)
dev.off()

masukkan deskripsi gambar di sini

Distribusi cara aritmatika sangat miring,

> sum(means <= 6)/N
[1] 0.8596413
> 

hampir 86% dari rata-rata empiris kurang atau sama dengan rata-rata teoritis, harapan. Itulah yang harus kita harapkan, karena sebagian besar kontribusi ke mean berasal dari ekor atas yang ekstrim, yang tidak terwakili dalam sebagian besar sampel .

Kita perlu kembali untuk menilai kembali kesimpulan kita sebelumnya. Sementara keberadaan mean memungkinkan untuk menjadi kabur tentang batas atas, kita melihat bahwa ketika "rata-rata nyaris tidak ada", yang berarti bahwa integral perlahan-lahan konvergen, kita tidak bisa benar-benar menjadi fuzzy tentang batas atas . Integral konvergen yang lambat memiliki konsekuensi bahwa mungkin lebih baik menggunakan metode yang tidak berasumsi bahwa harapan itu ada . Ketika integral terpusat sangat lambat, dalam praktiknya seolah-olah tidak bertemu sama sekali. Manfaat praktis yang mengikuti dari integral konvergen adalah chimera dalam kasus konvergen lambat! Itu adalah salah satu cara untuk memahami kesimpulan NN Taleb di http://fooledbyrandomness.com/complexityAugust-06.pdf

kjetil b halvorsen
sumber
2
Jawaban yang fantastis.
Karl
2

Varians adalah ukuran dispersi dari distribusi nilai-nilai variabel acak. Ini bukan satu-satunya ukuran seperti itu, misalnya rata-rata penyimpangan absolut adalah salah satu alternatif.

Varians tak terbatas berarti bahwa nilai acak cenderung berkonsentrasi di sekitar rata-rata terlalu ketat . Ini bisa berarti bahwa ada kemungkinan yang cukup besar bahwa angka acak berikutnya akan sangat jauh dari rata-rata.

Distribusi seperti Normal (Gaussian) dapat menghasilkan angka acak yang sangat jauh dari rata-rata, tetapi probabilitas kejadian seperti itu menurun sangat cepat dengan besarnya penyimpangan.

Dalam hal itu ketika Anda melihat plot distribusi Cauchy atau distribusi Gaussian (normal), mereka tidak terlihat sangat berbeda secara visual. Namun, jika Anda mencoba untuk menghitung varian dari distribusi Cauchy itu akan menjadi tak terbatas, sedangkan Gaussian terbatas. Jadi, distribusi normal lebih ketat di sekitar rata-rata dibandingkan dengan Cauchy's.

Btw, jika Anda berbicara dengan ahli matematika, mereka akan bersikeras bahwa distribusi Cauchy tidak memiliki rata-rata yang jelas, bahwa itu tak terbatas. Ini kedengarannya menggelikan bagi fisikawan yang menunjukkan fakta bahwa Cauchy simetris, karenanya, pasti memiliki maksud. Dalam hal ini mereka berpendapat bahwa masalahnya adalah dengan definisi Anda tentang mean, bukan dengan distribusi Cauchy.

Aksakal
sumber
2
-
1
@kjetilbhalvorsen, "tidak ada ahli matematika yang akan mengatakan Cauchy memiliki rata-rata yang tak terbatas" - yang berarti tidak didefinisikan dengan baik adalah persis apa yang telah saya diberitahu oleh profesor statistik saya, sementara penasihat teori saya Physcis terkejut bahkan ada pertanyaan tentang rata-rata, "tentu saja nol, dan jika Anda tidak setuju maka ada sesuatu yang salah dengan definisi Anda tentang rata-rata"
Aksakal
Apakah Anda bertanya kepadanya tentang definisi mean-nya?
kjetil b halvorsen
@kjetilbhalvorsen, Riemann integral jika Anda berbicara tentang prof matematika. Argumennya adalah bahwa dalam jumlah Riemann Anda tidak menentukan urutan jumlah atau partisi jumlah, sehingga jumlah Anda akan menjadi tak terbatas. Titik fisikawan adalah simetri, jelas, "harus nol"
Aksakal
1
Maka mungkin Anda bisa memberitahunya bahwa ia mendefinisikan median, bukan berarti.
kjetil b halvorsen
2

Cara alternatif untuk melihatnya adalah dengan fungsi kuantil.

Q(F(x))=x

Kemudian kita dapat menghitung momen atau harapan

E(T(x))=-T(x)f(x)dx

f(x)dx=dF

E(T(x))=01T(Q(F))dF

T(x)=xx=0T(x)<0x=0π

Cauchy versus Normal

Kurva dalam gambar menunjukkan berapa banyak masing-masing kuantil berkontribusi dalam perhitungan.

T(Q(F))

Ketakterhinggaan ini mungkin tidak begitu aneh karena integrand sendiri jarak (rata-rata) atau jarak kuadrat (varians) dapat menjadi tak terbatas. Hanya pertanyaan berapa berat , berapa persen F, yang dimiliki ekor tanpa batas.

Dalam penjumlahan / integrasi jarak dari nol (rata-rata) atau jarak kuadrat dari rata-rata (varians) satu titik yang sangat jauh akan memiliki lebih banyak pengaruh pada jarak rata-rata (atau jarak kuadrat) daripada banyak titik di dekatnya.

Jadi ketika kita bergerak ke arah tak terhingga kepadatan mungkin menurun, tetapi pengaruh pada jumlah beberapa (peningkatan) kuantitas, misalnya jarak atau jarak kuadrat tidak selalu berubah.

x2x12n((2x)n)212n

Sextus Empiricus
sumber
1

X

hal(k)=c/|k|3kZ{0}hal(0)=0c=(2ζ(3))-1: =(2k=11/k3)-1<EX∣ <2k=1k2/|k|3=2k=1k-1=

ζ(x): =k=1k-x

John Jiang
sumber
4
0-