Ini mungkin pertanyaan sederhana bagi banyak orang tetapi ini dia:
Mengapa varians tidak didefinisikan sebagai perbedaan antara setiap nilai yang mengikuti satu sama lain, bukannya perbedaan dengan rata-rata nilai?
Ini akan menjadi pilihan yang lebih logis bagi saya, saya kira saya jelas mengawasi beberapa kelemahan. Terima kasih
EDIT:
Biarkan saya ulangi sejelas mungkin. Inilah yang saya maksud:
- Asumsikan Anda memiliki sejumlah angka, dipesan: 1,2,3,4,5
- Hitung dan simpulkan perbedaan (absolut) (kontinu, antara setiap nilai berikut, bukan berpasangan) antara nilai (tanpa menggunakan rata-rata).
- Dibagi berdasarkan jumlah perbedaan
- (Follow-up: apakah jawabannya berbeda jika nomornya tidak diurutkan)
-> Apa kerugian dari pendekatan ini dibandingkan dengan formula standar untuk varian?
Jawaban:
Alasan yang paling jelas adalah bahwa seringkali tidak ada urutan waktu dalam nilai. Jadi, jika Anda mengacaukan data, tidak ada perbedaan dalam informasi yang disampaikan oleh data. Jika kami mengikuti metode Anda, maka setiap kali Anda mencampuradukkan data, Anda mendapatkan varians sampel yang berbeda.
Jawaban yang lebih teoretis adalah bahwa varians sampel memperkirakan varians sebenarnya dari variabel acak. Varians sebenarnya dari variabel acak adalah E [ ( X - E X ) 2 ] .X
Di sini mewakili ekspektasi atau "nilai rata-rata". Jadi definisi varians adalah jarak kuadrat rata-rata antara variabel dari nilai rata-rata. Ketika Anda melihat definisi ini, tidak ada "urutan waktu" di sini karena tidak ada data. Ini hanyalah atribut dari variabel acak.E
Ketika Anda mengumpulkan data id dari distribusi ini, Anda memiliki realisasi . Cara terbaik untuk memperkirakan ekspektasi adalah dengan mengambil rata-rata sampel. Kuncinya di sini adalah bahwa kita mendapatkan data id, dan dengan demikian tidak ada pemesanan ke data. Sampel x 1 , x 2 , ... , x n sama dengan sampel x 2 , x 5 , x 1 , x n . .x1,x2,…,xn x1,x2,…,xn x2,x5,x1,xn..
EDIT
Varians sampel mengukur jenis dispersi tertentu untuk sampel, yang mengukur jarak rata-rata dari rata-rata. Ada jenis dispersi lain seperti rentang data, dan rentang Inter-Kuantil.
Bahkan jika Anda mengurutkan nilai-nilai Anda dalam urutan menaik, itu tidak mengubah karakteristik sampel. Sampel (data) yang Anda dapatkan adalah realisasi dari suatu variabel. Menghitung varians sampel mirip dengan memahami berapa banyak dispersi dalam variabel. Jadi misalnya, jika Anda mengambil sampel 20 orang, dan menghitung tinggi badan mereka, maka itu adalah 20 "realisasi" dari variabel acak tinggi orang. Sekarang varians sampel seharusnya mengukur variabilitas dalam ketinggian individu secara umum. Jika Anda memesan data 100 , 110 , 123 , 124 , ... ,X=
itu tidak mengubah informasi dalam sampel.
Mari kita lihat satu contoh lagi. katakanlah Anda memiliki 100 observasi dari variabel acak memerintahkan cara ini Kemudian jarak rata-rata berikutnya adalah 1 unit, jadi dengan metode Anda varians akan 1.
Cara untuk menafsirkan "varians" atau "dispersi" adalah memahami kisaran nilai apa yang mungkin untuk data. Dalam hal ini Anda akan mendapatkan kisaran 0,99 unit, yang tentu saja tidak mewakili variasi dengan baik.
Jika alih-alih mengambil rata-rata Anda hanya menjumlahkan perbedaan berikutnya, maka varians Anda akan menjadi 99. Tentu saja itu tidak mewakili variabilitas dalam sampel, karena 99 memberi Anda rentang data, bukan rasa variabilitas.
sumber
Hal ini didefinisikan seperti itu!
Ini aljabarnya. Biarkan nilainya menjadi . Dilambangkan dengan F fungsi distribusi empiris nilai-nilai ini (yang berarti setiap x saya memberikan kontribusi probabilitas massa 1 / n di nilai x i ) dan membiarkan X dan Y variabel-variabel acak independen dengan distribusi F . Berdasarkan sifat-sifat dasar varians (yaitu, itu adalah bentuk kuadrat) serta definisi F dan faktax=(x1,x2,…,xn) F xi 1/n xi X Y F F dan Y memiliki mean yang sama,X Y
Formula ini tidak tergantung pada caranya dipesan:menggunakan semua pasangan komponen yang memungkinkan, membandingkannya menggunakan setengah perbedaan kuadratnya. Hal ini dapat, bagaimanapun, terkait denganrata-rataatas semua orderings mungkin (kelompok S ( n ) dari semua n ! Permutasi dari indeks 1 , 2 , ... , n ). Yaitu,x S(n) n! 1,2,…,n
Penjumlahan batin itu mengambil nilai-nilai yang disusun ulang dan menjumlahkan (setengah) perbedaan kuadrat antara semuapasangan berturut-turut n - 1 . Pembagian oleh n pada dasarnya rata-rataperbedaan kuadrat berturut-turutini. Ini menghitung apa yang dikenal sebagaisemi-1 lag. Penjumlahan bagian luar melakukan iniuntuk semua kemungkinan pemesanan.xσ(1),xσ(2),…,xσ(n) n−1 n
Dua pandangan aljabar yang setara dari rumus varian standar ini memberikan wawasan baru tentang arti varians. Semivarians adalah ukuran kebalikan dari kovarians serial dari urutan: kovarians tinggi (dan angka-angka berkorelasi positif) ketika semivarians rendah, dan sebaliknya. Varian dari dataset yang tidak berurutan , kemudian, adalah sejenis rata-rata dari semua semivarian yang mungkin dapat diperoleh di bawah pengurutan ulang sewenang-wenang.
sumber
Hanya sebagai pelengkap jawaban lainnya, varians dapat dihitung sebagai perbedaan kuadrat antara istilah:
Saya pikir ini adalah yang paling dekat dengan proposisi OP. Ingat varians adalah ukuran dispersi dari setiap pengamatan sekaligus, tidak hanya antara angka "tetangga" di set.
MEMPERBARUI
Menggunakan contoh Anda: . Kita tahu variansnya adalah V a r ( X ) =X=1,2,3,4,5 .Var(X)=2
Dengan metode yang Anda usulkanVar(X)=1 , jadi kami tahu sebelumnya mengambil perbedaan antara tetangga karena varians tidak bertambah. Yang saya maksudkan adalah mengambil setiap perbedaan yang mungkin kuadrat kemudian menyimpulkan:
sumber
Others have answered about the usefulness of variance defined as usual. Anyway, we just have two legitimate definitions of different things: the usual definition of variance, and your definition.
Then, the main question is why the first one is called variance and not yours. That is just a matter of convention. Until 1918 you could have invented anything you want and called it "variance", but in 1918 Fisher used that name to what is still called variance, and if you want to define anything else you will need to find another name to name it.
The other question is if the thing you defined might be useful for anything. Others have pointed its problems to be used as a measure of dispersion, but it's up to you to find applications for it. Maybe you find so useful applications that in a century your thing is more famous than variance.
sumber
@GreenParker answer is more complete, but an intuitive example might be useful to illustrate the drawback to your approach.
In your question, you seem to assume that the order in which realisations of a random variable appear matters. However, it is easy to think of examples in which it doesn't.
Consider the example of the height of individuals in a population. The order in which individuals are measured is irrelevant to both the mean height in the population and the variance (how spread out those values are around the mean).
Your method would seem odd applied to such a case.
sumber
Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.
The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example ifX is a random variable with distribution function FX then its mean μx , which is also a parameter, is:
and the variance ofX , σ2X , is:
The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.
What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.
So we want to estimate the variance of a random variableX from a set of independent realizations of it, lets say x={x1,…,xn} . The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:
and the usual statistic is:
wherex¯ is the sample mean.
When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:
MSE = estimator bias + estimator variance.
Using this criterion the usual statistic,S2 , has some advantages over the one you suggests.
First it is a unbiased estimator of the variance but your statistic is not unbiased.
One other important thing is that if we are working with the normal distribution thenS2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.
When normality is assumed, as is the case in many applications,S2 is the natural choice when you want to estimate the variance.
sumber
The time-stepped difference is indeed used in one form, the Allan Variance. http://www.allanstime.com/AllanVariance/
sumber
Lots of good answers here, but I'll add a few.
Nonetheless, as @Pere said, your metric might prove itself very useful in the future.
sumber