Mengapa varians tidak didefinisikan sebagai perbedaan antara setiap nilai yang mengikuti satu sama lain?

19

Ini mungkin pertanyaan sederhana bagi banyak orang tetapi ini dia:

Mengapa varians tidak didefinisikan sebagai perbedaan antara setiap nilai yang mengikuti satu sama lain, bukannya perbedaan dengan rata-rata nilai?

Ini akan menjadi pilihan yang lebih logis bagi saya, saya kira saya jelas mengawasi beberapa kelemahan. Terima kasih

EDIT:

Biarkan saya ulangi sejelas mungkin. Inilah yang saya maksud:

  1. Asumsikan Anda memiliki sejumlah angka, dipesan: 1,2,3,4,5
  2. Hitung dan simpulkan perbedaan (absolut) (kontinu, antara setiap nilai berikut, bukan berpasangan) antara nilai (tanpa menggunakan rata-rata).
  3. Dibagi berdasarkan jumlah perbedaan
  4. (Follow-up: apakah jawabannya berbeda jika nomornya tidak diurutkan)

-> Apa kerugian dari pendekatan ini dibandingkan dengan formula standar untuk varian?

pengguna2305193
sumber
1
Anda mungkin juga tertarik membaca tentang autokorelasi (mis. Stats.stackexchange.com/questions/185521/… ).
Tim
2
@ user2305193 jawaban whuber benar, tetapi formulanya menggunakan jarak kuadrat antara pemesanan data, dan rata-rata atas semua pemesanan. Trik yang rapi, bagaimanapun proses menemukan varian yang telah Anda tunjukkan, adalah persis apa yang saya coba terapkan dalam jawaban saya, dan menunjukkan tidak akan melakukan pekerjaan dengan baik. Mencoba menghilangkan kebingungan.
Greenparker
1
Untuk bersenang-senang, lihat Allan Variance.
hobbs
pada pemikiran lain, saya kira karena Anda tidak selisih kuadrat (dan Anda tidak mengambil akar kuadrat setelah itu) tetapi mengambil nilai absolut, ini harus agak 'mengapa tidak ini bagaimana kita menghitung standar deviasi' alih-alih 'mengapa bukan ini cara kami menghitung varians'. Tapi saya akan istirahat sekarang
user2305193

Jawaban:

27

Alasan yang paling jelas adalah bahwa seringkali tidak ada urutan waktu dalam nilai. Jadi, jika Anda mengacaukan data, tidak ada perbedaan dalam informasi yang disampaikan oleh data. Jika kami mengikuti metode Anda, maka setiap kali Anda mencampuradukkan data, Anda mendapatkan varians sampel yang berbeda.

Jawaban yang lebih teoretis adalah bahwa varians sampel memperkirakan varians sebenarnya dari variabel acak. Varians sebenarnya dari variabel acak adalah E [ ( X - E X ) 2 ] .X

E[(XEX)2].

Di sini mewakili ekspektasi atau "nilai rata-rata". Jadi definisi varians adalah jarak kuadrat rata-rata antara variabel dari nilai rata-rata. Ketika Anda melihat definisi ini, tidak ada "urutan waktu" di sini karena tidak ada data. Ini hanyalah atribut dari variabel acak.E

Ketika Anda mengumpulkan data id dari distribusi ini, Anda memiliki realisasi . Cara terbaik untuk memperkirakan ekspektasi adalah dengan mengambil rata-rata sampel. Kuncinya di sini adalah bahwa kita mendapatkan data id, dan dengan demikian tidak ada pemesanan ke data. Sampel x 1 , x 2 , ... , x n sama dengan sampel x 2 , x 5 , x 1 , x n . .x1,x2,,xnx1,x2,,xnx2,x5,x1,xn..

EDIT

Varians sampel mengukur jenis dispersi tertentu untuk sampel, yang mengukur jarak rata-rata dari rata-rata. Ada jenis dispersi lain seperti rentang data, dan rentang Inter-Kuantil.

Bahkan jika Anda mengurutkan nilai-nilai Anda dalam urutan menaik, itu tidak mengubah karakteristik sampel. Sampel (data) yang Anda dapatkan adalah realisasi dari suatu variabel. Menghitung varians sampel mirip dengan memahami berapa banyak dispersi dalam variabel. Jadi misalnya, jika Anda mengambil sampel 20 orang, dan menghitung tinggi badan mereka, maka itu adalah 20 "realisasi" dari variabel acak tinggi orang. Sekarang varians sampel seharusnya mengukur variabilitas dalam ketinggian individu secara umum. Jika Anda memesan data 100 , 110 , 123 , 124 , ... ,X=

100,110,123,124,,

itu tidak mengubah informasi dalam sampel.

Mari kita lihat satu contoh lagi. katakanlah Anda memiliki 100 observasi dari variabel acak memerintahkan cara ini Kemudian jarak rata-rata berikutnya adalah 1 unit, jadi dengan metode Anda varians akan 1.

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

Cara untuk menafsirkan "varians" atau "dispersi" adalah memahami kisaran nilai apa yang mungkin untuk data. Dalam hal ini Anda akan mendapatkan kisaran 0,99 unit, yang tentu saja tidak mewakili variasi dengan baik.

Jika alih-alih mengambil rata-rata Anda hanya menjumlahkan perbedaan berikutnya, maka varians Anda akan menjadi 99. Tentu saja itu tidak mewakili variabilitas dalam sampel, karena 99 memberi Anda rentang data, bukan rasa variabilitas.

Greenparker
sumber
1
Dengan paragraf terakhir yang Anda sampaikan kepada saya, haha, terima kasih atas jawaban yang mengejutkan ini, saya berharap saya memiliki cukup perwakilan untuk meningkatkannya, tolong orang-orang, lakukan untuk saya ;-) DITERIMA !!!
user2305193
Tindak lanjut-ke-tindak lanjut: Apa yang sebenarnya saya maksudkan (ya, maaf, saya baru menyadari pertanyaan yang tepat setelah membaca jawaban Anda) adalah Anda merangkum perbedaan dan membaginya melalui jumlah sampel. Dalam contoh terakhir Anda yang akan menjadi 99/100 - dapatkah Anda menguraikannya untuk benar-benar terperangah?
user2305193
@ user2305193 Benar, saya katakan 1 unit rata-rata, yang tidak benar. Seharusnya 0,99 unit. Mengubahnya.
Greenparker
Untuk info lebih lanjut tentang seri 1-100: varian di 1-100 adalah 841,7 dan sumber deviasi standar 29,01 . Jadi memang hasilnya cukup berbeda.
user2305193
31

Hal ini didefinisikan seperti itu!

Ini aljabarnya. Biarkan nilainya menjadi . Dilambangkan dengan F fungsi distribusi empiris nilai-nilai ini (yang berarti setiap x saya memberikan kontribusi probabilitas massa 1 / n di nilai x i ) dan membiarkan X dan Y variabel-variabel acak independen dengan distribusi F . Berdasarkan sifat-sifat dasar varians (yaitu, itu adalah bentuk kuadrat) serta definisi F dan faktax=(x1,x2,,xn)Fxi1/nxiXYFF dan Y memiliki mean yang sama,XY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(XY)2)0=1n2i,j12(xixj)2.

Formula ini tidak tergantung pada caranya dipesan:menggunakan semua pasangan komponen yang memungkinkan, membandingkannya menggunakan setengah perbedaan kuadratnya. Hal ini dapat, bagaimanapun, terkait denganrata-rataatas semua orderings mungkin (kelompok S ( n ) dari semua n ! Permutasi dari indeks 1 , 2 , ... , n ). Yaitu,xS(n)n!1,2,,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

Penjumlahan batin itu mengambil nilai-nilai yang disusun ulang dan menjumlahkan (setengah) perbedaan kuadrat antara semuapasangan berturut-turut n - 1 . Pembagian oleh n pada dasarnya rata-rataperbedaan kuadrat berturut-turutini. Ini menghitung apa yang dikenal sebagaisemi-1 lag. Penjumlahan bagian luar melakukan iniuntuk semua kemungkinan pemesanan.xσ(1),xσ(2),,xσ(n)n1n


Dua pandangan aljabar yang setara dari rumus varian standar ini memberikan wawasan baru tentang arti varians. Semivarians adalah ukuran kebalikan dari kovarians serial dari urutan: kovarians tinggi (dan angka-angka berkorelasi positif) ketika semivarians rendah, dan sebaliknya. Varian dari dataset yang tidak berurutan , kemudian, adalah sejenis rata-rata dari semua semivarian yang mungkin dapat diperoleh di bawah pengurutan ulang sewenang-wenang.

whuber
sumber
1
@ Mur1lo Sebaliknya: Saya percaya derivasi ini benar. Terapkan formula ke beberapa data dan lihat!
whuber
1
Saya pikir Mur1lo mungkin telah berbicara bukan tentang kebenaran formula untuk varian tetapi tentang kelihatannya melewati langsung dari ekspektasi variabel acak ke fungsi jumlah sampel.
Glen_b -Reinstate Monica
1
@ Glen Tapi itulah tepatnya fungsi distribusi empiris yang dapat kita lakukan. Itulah inti dari pendekatan ini.
whuber
3
Ya, itu jelas bagi saya; Saya sedang mencoba menunjukkan di mana kebingungan itu tampak. Maaf tidak jelas. Mudah-mudahan sekarang menjadi lebih jelas mengapa hanya * tampaknya menjadi masalah.* (ini sebabnya saya menggunakan kata "jelas" sebelumnya, untuk menekankan itu hanya penampilan di luar konteks dari langkah yang mungkin menjadi penyebab kebingungan)
Glen_b -Reinstate Monica
2
@ Mur1o Satu-satunya hal yang saya lakukan di salah satu persamaan ini adalah menerapkan definisi. Tidak ada perpindahan dari harapan ke "jumlah sampel". (Secara khusus, tidak ada sampel telah diposisikan atau digunakan.) Jadi saya tidak dapat mengidentifikasi apa masalah yang tampak, atau menyarankan penjelasan alternatif. Jika Anda dapat memperluas kekhawatiran Anda maka saya mungkin bisa merespons. F
Whuber
11

Hanya sebagai pelengkap jawaban lainnya, varians dapat dihitung sebagai perbedaan kuadrat antara istilah:

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

Saya pikir ini adalah yang paling dekat dengan proposisi OP. Ingat varians adalah ukuran dispersi dari setiap pengamatan sekaligus, tidak hanya antara angka "tetangga" di set.


MEMPERBARUI

Menggunakan contoh Anda: . Kita tahu variansnya adalah V a r ( X ) =X=1,2,3,4,5 .Var(X)=2

Dengan metode yang Anda usulkan Var(X)=1 , jadi kami tahu sebelumnya mengambil perbedaan antara tetangga karena varians tidak bertambah. Yang saya maksudkan adalah mengambil setiap perbedaan yang mungkin kuadrat kemudian menyimpulkan:

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2
Firebug
sumber
Now I'm seriously confused guys
user2305193
@user2305193 In your question, did you mean every pairwise difference or did you mean the difference between a value and the next in a sequence? Could you please clarify?
Firebug
2
@Mur1lo no one is though, I have no idea what you're referring to.
Firebug
2
@Mur1lo This is a general question, and I answered it generally. Variance is a computable parameter, which can be estimated from samples. This question isn't about estimation though. Also we are talking about discrete sets, not about continuous distributions.
Firebug
1
You showed how to estimate the variance by its U-statistic and its fine. The problem is when you write: Var("upper case"X) = things involving "lower case" x, you are mixing the two different notions of parameter and of estimator.
Mur1lo
6

Others have answered about the usefulness of variance defined as usual. Anyway, we just have two legitimate definitions of different things: the usual definition of variance, and your definition.

Then, the main question is why the first one is called variance and not yours. That is just a matter of convention. Until 1918 you could have invented anything you want and called it "variance", but in 1918 Fisher used that name to what is still called variance, and if you want to define anything else you will need to find another name to name it.

The other question is if the thing you defined might be useful for anything. Others have pointed its problems to be used as a measure of dispersion, but it's up to you to find applications for it. Maybe you find so useful applications that in a century your thing is more famous than variance.

Pere
sumber
I know every definition is up to the people deciding on it, I really was looking for help in up/downsides for each approaches. Usually there's good reason for people converging to a definition and as I suspected didn't see why straight away.
user2305193
1
Fisher introduced variance as a term in 1918 but the idea is older.
Nick Cox
As far as I know, Fisher was the first one to use the name "variance" for variance. That's why I say that before 1918 you could have use "variance" to name anything else you had invented.
Pere
3

@GreenParker answer is more complete, but an intuitive example might be useful to illustrate the drawback to your approach.

In your question, you seem to assume that the order in which realisations of a random variable appear matters. However, it is easy to think of examples in which it doesn't.

Consider the example of the height of individuals in a population. The order in which individuals are measured is irrelevant to both the mean height in the population and the variance (how spread out those values are around the mean).

Your method would seem odd applied to such a case.

Antoine Vernet
sumber
2

Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example if X is a random variable with distribution function FX then its mean μx, which is also a parameter, is:

μX=+xdFX(x)

and the variance of X, σX2, is:

σX2=+(xμX)2dFX(x)

The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.

What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.

Why isn't the variance calculated this way?

So we want to estimate the variance of a random variable X from a set of independent realizations of it, lets say x={x1,,xn}. The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:

ψ(x)=1ni=2n|xixi1|

and the usual statistic is:

S2(x)=1n1i=in(xix¯)2,

where x¯ is the sample mean.

When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:

MSE = estimator bias + estimator variance.

Using this criterion the usual statistic, S2, has some advantages over the one you suggests.

  • First it is a unbiased estimator of the variance but your statistic is not unbiased.

  • One other important thing is that if we are working with the normal distribution then S2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.

When normality is assumed, as is the case in many applications, S2 is the natural choice when you want to estimate the variance.

Mur1lo
sumber
3
Everything in this answer is well explained, correct, and interesting. However, introducing the "usual statistic" as an estimator confuses the issue, because the question is not about estimation, nor about bias, nor about the distinction between 1/n and 1/(n1). That confusion might be at the root of your comments to several other answers in this thread.
whuber
1

Lots of good answers here, but I'll add a few.

  1. The way it is defined now has proven useful. For example, normal distributions appear all the time in data and a normal distribution is defined by its mean and variance. Edit: as @whuber pointed out in a comment, there are various other ways specify a normal distribution. But none of them, as far as I'm aware, deal with pairs of points in sequence.
  2. Variance as normally defined gives you a measure of how spread out the data is. For example, lets say you have a lot of data points with a mean of zero but when you look at it, you see that the data is mostly either around -1 or around 1. Your variance would be about 1. However, under your measure, you would get a total of zero. Which one is more useful? Well, it depends, but its not clear to me that a measure of zero for its "variance" would make sense.
  3. It lets you do other stuff. Just an example, in my stats class we saw a video about comparing pitchers (in baseball) over time. As I remember it, pitchers appeared to be getting worse since the proportion of pitches that were hit (or were home-runs) was going up. One reason is that batters were getting better. This made it hard to compare pitchers over time. However, they could use the z-score of the pitchers to compare them over time.

Nonetheless, as @Pere said, your metric might prove itself very useful in the future.

roundsquare
sumber
1
A normal distribution can also be determined by its mean and fourth central moment, for that matter -- or by means of many other pairs of moments. The variance is not special in that way.
whuber
@whuber interesting. I'll admit I didn't realize that. Nonetheless, unless I'm mistaken, all the moments are "variance like" in that they are based on distances from a certain point as opposed to dealing with pairs of points in sequence. But I'll edit my answers to make note of what you said.
roundsquare
1
Could you explain the sense in which you mean "deal with pairs of points in sequence"? That's not a part of any standard definition of a moment. Note, too, that all the absolute moments around the mean--which includes all even moments around the mean--give a "measure of how spread out the data" are. One could, therefore, construct an analog of the Z-score with them. Thus, none of your three points appears to differentiate the variance from any absolute central moment.
whuber
@whuber yeah. The original question posited a 4 step sequence where you sort the points, take the differences between each point and the next point, and then average these. That's what I referred to as "deal[ing] with pairs of points in sequence". So you are right, none of the three points I gave distinguishes variance from any absolute central moment - they are meant to distinguish variance (and, I suppose, all absolute central moments) from the procedure described in the original question.
roundsquare