Mengapa standar deviasi didefinisikan sebagai sqrt dari varians dan bukan sebagai sqrt dari jumlah kuadrat atas N?

16

Hari ini saya mengajar kelas pengantar statistik dan seorang siswa mendatangi saya dengan sebuah pertanyaan, yang saya ulangi di sini sebagai: "Mengapa standar deviasi didefinisikan sebagai sqrt of variance dan bukan sebagai sqrt dari jumlah kuadrat atas N?"

Kami mendefinisikan varians populasi:σ2=1N(xiμ)2

Dan standar deviasi: .σ=σ2=1N(xiμ)2

Interpretasi kami dapat memberikan ke adalah memberikan deviasi rata-rata unit dalam populasi dari mean populasi .σX

Namun, dalam definisi sd kita membagi sqrt dari jumlah kuadrat melalui . Pertanyaan yang diajukan siswa adalah mengapa kita tidak membagi squme dari sume of squares dengan sebagai gantinya. Jadi kita sampai pada formula yang bersaing:Siswa berpendapat bahwa rumus ini lebih mirip deviasi "rata-rata" dari rata-rata daripada ketika membagi melalui seperti dalam .NN

σnew=1N(xiμ)2.
σNσ

Saya pikir pertanyaan ini tidak bodoh. Saya ingin memberikan jawaban kepada siswa yang lebih jauh daripada mengatakan bahwa sd didefinisikan sebagai sqrt dari varians yang merupakan deviaton kuadrat rata-rata. Dengan kata lain, mengapa siswa harus menggunakan formula yang benar dan tidak mengikuti idenya?

Pertanyaan ini berkaitan dengan utas yang lebih lama dan jawaban yang diberikan di sini . Jawaban ada tiga arah:

  1. σ adalah deviasi root-mean-squared (RMS), bukan deviasi "khas" dari mean (yaitu,σnew ). Dengan demikian, didefinisikan secara berbeda.
  2. Ini memiliki sifat matematika yang bagus.
  3. Selanjutnya, sqrt akan mengembalikan "unit" ke skala aslinya. Namun, ini juga akan menjadi kasus untuk , yang membaginya dengan N sebagai gantinya.σnewN

Kedua poin 1 dan 2 adalah argumen yang mendukung sd sebagai RMS, tapi saya tidak melihat argumen yang menentang penggunaan . Apa argumen yang baik untuk meyakinkan siswa tingkat pengantar tentang penggunaan jarak RMS rata-rata σ dari mean?σnewσ

Tomka
sumber
2
Saya pikir pertanyaan "Mengapa standar deviasi didefinisikan sebagai ..." sulit untuk dijawab. Definisi hanyalah konvensi pelabelan yang sewenang-wenang. Mereka tidak harus sesuai dengan alasannya .
ttnphns
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Mungkinkah apa yang ada di dalam kurung entah bagaimana hilang dalam pertanyaan?
ttnphns
1
Tetapi sd melayani serangkaian tujuan; harus ada motivasi yang lebih baik daripada yang didefinisikan seperti itu. Itu akan berguna, terutama dalam pengajaran sarjana. Saya bisa membayangkan motivasi dalam arti ketidaksetaraan Chebyshev (min. Proporsi kasus dalam bidang +/- faktor konstan sd).
tomka
2
Tidak dapat menjawab karena Q Anda ditahan, tetapi coba ini: Bayangkan Anda mengamati nilai 1 dan 3 dalam proporsi yang kira-kira sama (lempar koin, , T = 1 ). "Jarak khas" pengamatan dari mean harus kira-kira seperti 1. Dengan AndaH=3T=1formula, pertimbangkan apa yang terjadi pada ukuran jarak khas ini untuknsangat, sangat besar. Dalam setiap kasus| xi- ˉ x | akan mendekati 1, sehingga jumlah kuadratnya akan mendekatin. Pembilang akan dekat denganSSE/nn|xix¯|n sehingga rumus Anda akan semakin kecil dan semakin kecil seiringmeningkatnyan, meskipun jarak tipikal dari rata-rata tidak berubah. nn
Glen_b -Reinstate Monica
1
@whuber saya membuat pembaruan lain dan berharap poin yang saya buat lebih jelas sekarang. Catatan Saya meminta nasihat mengajar di sini selain mengajukan pertanyaan tentang dana statistik. Saya tidak menyarankan formula alternatif, tetapi memberikan contoh dari situasi kelas dari pertanyaan yang bagus oleh seorang siswa yang saya tidak punya jawaban langsung. Jika Anda setuju, saya mohon untuk melepaskan pertanyaan dari tunggu sekarang.
tomka

Jawaban:

12

Setidaknya ada tiga masalah dasar yang dapat dijelaskan kepada pemula:

  1. SD "baru" bahkan tidak didefinisikan untuk populasi tak terbatas. (Seseorang dapat menyatakannya selalu sama dengan nol dalam kasus seperti itu, tetapi itu tidak akan membuatnya lebih berguna.)

  2. SD baru tidak berperilaku seperti rata-rata harus dilakukan di bawah pengambilan sampel acak.

  3. Meskipun SD baru dapat digunakan dengan semua ketelitian matematika untuk menilai penyimpangan dari rata-rata (dalam sampel dan populasi terbatas), interpretasinya tidak perlu rumit.

1. Penerapan SD baru terbatas

Poin (1) dapat dibawa pulang, bahkan kepada mereka yang tidak berpengalaman dalam integrasi, dengan menunjukkan bahwa karena varians jelas merupakan rata-rata aritmatika (penyimpangan kuadrat), ia memiliki ekstensi yang berguna untuk model populasi "tak terbatas" di mana intuisi tentang keberadaan aritmatika berarti masih berlaku. Oleh karena itu akar kuadratnya - SD biasa - juga didefinisikan dengan baik dalam kasus-kasus seperti itu, dan sama berguna dalam perannya sebagai varian (non-linear reekspresi) varians. Namun, SD membagi baru yang rata dengan sewenang-wenang besar , membuat generalisasi yang bermasalah di luar populasi terbatas dan sampel terbatas: apa yang harus1/N dianggap sama dalam kasus-kasus seperti itu?1/N

2. SD baru bukan rata-rata

Statistik apa pun yang layak untuk nama "rata-rata" harus memiliki properti yang menyatu dengan nilai populasi karena ukuran sampel acak dari populasi meningkat. Setiap kelipatan tetap dari SD akan memiliki properti ini, karena pengganda akan berlaku baik untuk menghitung SD sampel dan populasi SD. (Meskipun tidak secara langsung bertentangan dengan argumen yang ditawarkan oleh Alecos Papadopoulos, pengamatan ini menunjukkan bahwa argumen hanya bersinggungan dengan masalah nyata.) Namun, SD "baru", sama dengan kali yang biasa, jelas konvergen ke0dalam semua keadaan sebagai ukuran sampelNtumbuh besar. Oleh karena itu,meskipun untuk setiap ukuran sampel tetapNSD baru (sesuai ditafsirkan) adalah ukuran variasi yang cukup memadai di sekitar rata-rata,itu tidak dapat dibenarkan dianggap sebagaiukuranuniversal yangberlaku, dengan interpretasi yang sama, untuk semua ukuran sampel, juga tidak bisa itu benar disebut "rata-rata" dalam arti yang bermanfaat.1/N0NN

3. SD baru rumit untuk ditafsirkan dan digunakan

Pertimbangkan untuk mengambil sampel ukuran (katakanlah) . SD baru dalam kasus ini adalah 1 / N=4kali SD biasa. Oleh karena itu ia menikmati interpretasi yang sebanding, seperti analog dari aturan 68-95-99 (sekitar 68% dari data harus berada dalamduaSD baru dari rata-rata, 95% dari mereka dalamempatSD baru dari rata-rata,dll; dan versi ketidaksetaraan klasik seperti Chebychev akan berlaku (tidak lebih dari1/k2data dapat terletak lebih dari2kSD baru dari rata-rata mereka), dan Teorema Limit Sentral dapat secara analog disajikan kembali dalam hal SD baru (satu dibagi dengan1/N=1/21/k22k kali SD baru untuk membakukan variabel). Dengan demikian, dalam pengertian yang spesifik dan terbatas ini,tidak ada yang salah dengan proposal siswa. Namun, kesulitannya adalah bahwa semua pernyataan ini mengandung - cukup eksplisit - faktorN. Meskipun tidak ada masalah matematika yang melekat dengan ini, itu tentu mempersulit pernyataan dan interpretasi dari hukum statistik yang paling mendasar.N=2


Perlu dicatat bahwa Gauss dan yang lainnya pada awalnya parameter parameter distribusi Gaussian oleh , efektif menggunakan2σ kali SD untuk mengukur penyebaran variabel acak Normal. Penggunaan historis ini menunjukkan kepatutan dan efektivitas penggunaankelipatantetapSD lainnya sebagai gantinya.2

whuber
sumber
Terima kasih - satu pertanyaan kembali (berkaitan dengan poin Anda 2): apakah tidak konvergen ke0karenaNtumbuh besar, sedangkan11N0N jelas? 1N
tomka
2
Kami membandingkan SD sampel dengan kali SD sampel ("SD baru"). KetikaNtumbuh besar, SD sampel mendekati (biasanya)konstantanolsama dengan populasi SD. Oleh karena itu1/1/NN kali SD sampel menyatu menjadi nol. 1/N
whuber
Ini adalah bahan standar - baca buku teks ketat apa pun dalam statistik matematika (yang, agar adil, tidak dapat diakses oleh kebanyakan pemula). Namun, hasil yang penting untuk jawaban saya mengikuti dari pernyataan yang lebih lemah dan jelas secara intuitif. Perbaiki angka dan biarkan σ menjadi populasi SD. Pertimbangkan kemungkinan bahwa sampel SD akan terletak di antara σ / A dan A σ . Cukuplah bahwa kesempatan ini menjadi nol karena ukuran sampel N meningkat. Ini saja menunjukkan bahwa 1 / A>1σσ/AAσN kali sampel SD konvergen ke0hampir pasti, menunjukkan poin (2) dalam jawabannya. 1/N0
whuber
+1, plus itu bukan skala-invarian dll, (suatu kondisi yang diperlukan untuk sesaat dari formulir ini)
Nikos M.
@ Nikos Terima kasih, tetapi apa yang bukan skala invarian? Keduanya danSDberubah ketika data disusun kembali. SD/NSD
whuber
5

Asumsikan bahwa sampel Anda hanya berisi dua realisasi. Saya kira ukuran dispersi intuitif akan menjadi rata-rata deviasi absolut (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

Jadi kita ingin ukuran dispersi lain pada level unit pengukuran yang sama "dekat" dengan yang di atas.

Varians sampel didefinisikan sebagai

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

Untuk kembali ke unit pengukuran asli, jika kita melakukan apa yang diminta / disarankan oleh siswa, kita akan mendapatkan ukurannya, sebut saja q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.

Alecos Papadopoulos
sumber
1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber
2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos