Nilai maksimum koefisien variasi untuk kumpulan data terbatas

17

Dalam diskusi mengikuti pertanyaan terbaru tentang apakah standar deviasi dapat melebihi rata-rata, satu pertanyaan diajukan secara singkat tetapi tidak pernah dijawab sepenuhnya. Jadi saya bertanya di sini.

Pertimbangkan satu set n angka negatif xi mana 0xic untuk 1in . Tidak diperlukan berbeda, yaitu set dapat berupa multiset. Mean dan varians dari himpunan didefinisikan sebagai dan standar deviasi adalah . Perhatikan bahwa himpunan angka tidakxi

x¯=1ni=1nxi,  σx2=1ni=1n(xix¯)2=(1ni=1nxi2)x¯2
σxsampel dari suatu populasi dan kami tidak memperkirakan rata-rata populasi atau varians populasi. Pertanyaannya kemudian adalah:

Berapa nilai maksimum dari , koefisien variasi, di atas semua pilihan dalam interval ?σxx¯xi[0,c]

Nilai maksimum yang dapat saya temukan untuk adalah yang dicapai ketika dari memiliki nilai dan sisanya (outlier) memiliki nilai c , memberi \ bar {x} = \ frac {c} {n}, ~~ \ frac {1} {n} \ jumlah x_i ^ 2 = \ frac {c ^ 2} {n} \ Rightarrow \ sigma_x = \ sqrt {\ frac {c ^ 2} {n} - \ frac {c ^ 2} {n ^ 2}} = \ frac {c} {n} \ sqrt {n-1}. Tetapi ini tidak bergantung pada c sama sekali, dan saya bertanya-tanya apakah nilai yang lebih besar, mungkin bergantung pada n dan c , dapat dicapai.σxx¯n1n1xi0xic

x¯=cn,  1nxi2=c2nσx=c2nc2n2=cnn1.
cnc

Ada ide? Saya yakin bahwa pertanyaan ini telah dipelajari dalam literatur statistik sebelumnya, sehingga referensi, jika bukan hasil yang sebenarnya, akan sangat dihargai.

Dilip Sarwate
sumber
Saya pikir Anda benar tentang hal itu menjadi nilai terbesar yang mungkin, dan saya juga terkejut bahwa tidak masalah. Keren. c
Peter Flom - Pasang kembali Monica
7
c seharusnya tidak mempengaruhi hasil sebagaiσxx¯ tidak berubah jika semua nilai dikalikan dengan konstanta positifk.
Henry

Jawaban:

15

Geometri memberikan wawasan dan ketidaksetaraan klasik yang memberi akses mudah ke ketelitian.

Solusi geometris

Kita tahu, dari geometri kuadrat terkecil , bahwa x¯=(x¯,x¯,,x¯) adalah proyeksi orthogonal dari vektor data x=(x1,x2,,xn) ke subruang linier yang dihasilkan oleh vektor konstan (1,1,,1) dan σxberbanding lurus dengan jarak (Euclidean) antara x dan x¯. Batasan non-negatif adalah linear dan jarak adalah fungsi cembung, di mana jarak ekstrem harus dicapai di tepi kerucut yang ditentukan oleh kendala. Kerucut ini adalah ortant positif dalam Rn dan ujung-ujungnya adalah sumbu koordinat, yang segera mengikuti bahwa semua kecuali satu dari xi harus nol pada jarak maksimum. Untuk sekumpulan data seperti itu, perhitungan langsung (sederhana) menunjukkan σx/x¯=n.

Solusi mengeksploitasi ketidaksetaraan klasik

σx/x¯ dioptimalkan secara bersamaan dengan transformasi monotoniknya. Mengingat hal ini, mari kita maksimalkan

x12+x22++xn2(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

(Rumus untuk f mungkin terlihat misterius sampai Anda menyadarinya hanya merekam langkah-langkah yang akan diambil seseorang dalam memanipulasi aljabar σx/x¯ untuk membuatnya menjadi bentuk yang tampak sederhana, yang merupakan sisi kiri.)

Cara mudah dimulai dengan Ketimpangan Pemegang ,

x12+x22++xn2(x1+x2++xn)max({xi}).

(Ini tidak memerlukan bukti khusus dalam konteks sederhana ini: hanya ganti satu faktor dari setiap istilah dengan maksimum komponen maksimum ( { x i } ) : jelas jumlah kuadrat tidak akan berkurang. istilah umum maks ( { x i } ) menghasilkan sisi kanan ketidaksetaraan.)xi2=xi×ximax({xi})max({xi})

Karena tidak semua 0 (yang akan meninggalkan σ x / ˉ x terdefinisi), pembagian dengan kuadrat dari jumlah mereka adalah valid dan memberikan setara ketimpanganxi0σx/x¯

x12+x22++xn2(x1+x2++xn)2max({xi})x1+x2++xn.

Karena penyebut tidak boleh kurang dari pembilang (yang itu sendiri hanya salah satu istilah dalam penyebut), sisi kanan didominasi oleh nilai , yang dicapai hanya ketika semua kecuali satu dari x i sama dengan 0 . Dari mana1xi0

σxx¯f1(1)=(1×(n1))nn1=n.

Pendekatan alternatif

Karena adalah nonnegatif dan tidak bisa berjumlah 0 , nilai-nilai p ( i ) = x i / ( x 1 + x 2 + ... + x n ) menentukan distribusi probabilitas F pada { 1 , 2 , ... , n } . Menulis s untuk jumlah dari x i , kita mengenalixi0p(i)=xi/(x1+x2++xn)F{1,2,,n}sxi

x12+x22++xn2(x1+x2++xn)2=x12+x22++xn2s2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

The axiomatic fact that no probability can exceed 1 implies this expectation cannot exceed 1, either, but it's easy to make it equal to 1 by setting all but one of the pi equal to 0 and therefore exactly one of the xi is nonzero. Compute the coefficient of variation as in the last line of the geometric solution above.

whuber
sumber
nn1
σx=1n1i=1n(xix¯)2
as the definition of σx while I used
σx=1ni=1n(xix¯)2?
Dilip Sarwate
1
Yes Dilip, that's right. Sorry about the discrepancy with the question; I should have checked first and I should have defined σx (which I intended to do but forgot).
whuber
10

Some references, as small candles on the cakes of others:

Katsnelson and Kotz (1957) proved that so long as all xi0, then the coefficient of variation cannot exceed n1. This result was mentioned earlier by Longley (1952). Cramér (1946, p.357) proved a less sharp result, and Kirby (1974) proved a less general result.

Cramér, H. 1946. Mathematical methods of statistics. Princeton, NJ: Princeton University Press.

Katsnelson, J., and S. Kotz. 1957. On the upper limits of some measures of variability. Archiv für Meteorologie, Geophysik und Bioklimatologie, Series B 8: 103–107.

Kirby, W. 1974. Algebraic boundedness of sample statistics. Water Resources Research 10: 220–222.

Longley, R. W. 1952. Measures of the variability of precipitation. Monthly Weather Review 80: 111–117.

I came across these papers in working on

Cox, N.J. 2010. The limits of sample skewness and kurtosis. Stata Journal 10: 482-495.

which discusses broadly similar bounds on moment-based skewness and kurtosis.

Nick Cox
sumber
8

With two numbers xixj, some δ>0 and any μ:

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

Applying this to n non-negative datapoints, this means that unless all but one of the n numbers are zero and so cannot be reduced further, it is possible to increase the variance and standard deviation by widening the gap between any pair of the data points while retaining the same mean, thus increasing the coefficient of variation. So the maximum coefficient of variation for the data set is as you suggest: n1.

c should not affect the result as σxx¯ does not change if all the values are multiplied by any positive constant k (as I said in my comment).

Henry
sumber