Memahami "varians" secara intuitif

81

Apa cara paling bersih dan termudah untuk menjelaskan konsep varians kepada seseorang? Apa artinya secara intuitif? Jika seseorang menjelaskan hal ini kepada anak mereka, bagaimana ia akan melakukannya?

Ini adalah konsep yang saya sulit mengartikulasikan - terutama ketika menghubungkan varians dengan risiko. Saya memahaminya secara matematis dan bisa menjelaskannya juga. Tetapi ketika menjelaskan fenomena dunia nyata bagaimana Anda membuat orang memahami varians dan penerapannya di 'dunia nyata', bisa dikatakan.

Katakanlah kita mensimulasikan investasi dalam saham menggunakan angka acak (menggulung dadu atau menggunakan lembar excel, tidak masalah). Kami mendapatkan beberapa 'pengembalian atas investasi' dengan mengaitkan setiap instance dari variabel acak ke 'beberapa perubahan' sebagai imbalannya. Misalnya.:

Rolling a 1 menyiratkan perubahan 0,8 per $ 1 dalam investasi, 5 perubahan 1,1 per $ 1 dan seterusnya.

Sekarang jika simulasi ini dijalankan sekitar 50 kali (atau 20 atau 100) kita akan mendapatkan beberapa nilai dan nilai akhir dari investasi. Jadi, apa yang sebenarnya dikatakan 'varians' kepada kita jika kita menghitungnya dari kumpulan data di atas? Apa yang "dilihat" oleh seseorang - Jika variansnya berubah menjadi 1,7654 atau 0,88765 atau 5,2342 apa artinya ini? Apa yang dapat saya amati tentang investasi ini ?? Kesimpulan apa yang bisa saya ambil - dalam istilah awam.

Silakan menambah pertanyaan dengan itu untuk standar deviasi juga! Meskipun saya merasa 'lebih mudah' untuk dipahami, tetapi sesuatu yang berkontribusi untuk membuatnya juga 'secara intuitif' jelas akan sangat dihargai!

PhD
sumber
3
Bukankah kita seharusnya menggabungkan pertanyaan ini dengan pertanyaan yang sama yang diajukan tahun lalu?
whuber
1
@whuber saya pikir ini harus digabung. Memiliki beberapa kali pertanyaan yang sama (bahkan jika di sini konteksnya berbeda) mengurangi kualitas rata-rata jawaban.
robin girard
2
Saya baik-baik saja dengan itu digabung tetapi saya tahu bagaimana menghitung varians dan itu digunakan dalam statistik juga. Saya ingin dapat mengartikulasikan konsep ini kepada orang-orang yang tidak akan tahu apa-apa tentang hal itu dan butuh waktu lama untuk melakukannya dan karenanya pertanyaannya. Maksudnya agak berbeda dari pertanyaan di SD, IMHO
PhD
2
Saya tidak berpikir ada di antara Anda yang melakukan pekerjaan yang sangat baik untuk menjawab ini dengan cara yang dimengerti oleh orang awam. Saya melihat banyak asumsi dibuat dan hampir setiap jawaban berakhir dengan sesuatu yang perlu ditafsirkan. Saya tidak mengeluh, hanya mencoba menunjukkan hal itu. Saya juga tidak bisa menjawab pertanyaan dengan sederhana. Mungkin itu terlalu sulit?
Saya kira jawaban di bawah ini tidak menjawab pertanyaan di sini. Pertanyaannya, seperti yang saya tafsirkan, lebih tentang varians sebagai angka, ketika itu dianggap besar atau kecil. Jawaban teratas di bawah ini misalnya, menjawab pertanyaan apa arti varians besar vs varian kecil. Jika saya memberi Anda dataset yang tidak dapat Anda bayangkan secara wajar, sehingga Anda harus bergantung pada angka, bagaimana Anda bisa tahu apakah variansnya besar / kecil?
user31415

Jawaban:

70

Saya mungkin akan menggunakan analogi yang mirip dengan analogi yang telah saya pelajari untuk diberikan kepada 'orang awam' ketika memperkenalkan konsep bias dan varian: analogi papan tulis. Lihat di bawah:

masukkan deskripsi gambar di sini

Gambar khusus di atas adalah dari Encyclopedia of Machine Learning , dan referensi di dalam gambar adalah Moore dan McCabe "Pengantar Praktik Statistik" .

SUNTING:

Inilah latihan yang menurut saya cukup intuitif: Ambil setumpuk kartu (di luar kotak), dan letakkan setumpuk dari ketinggian sekitar 1 kaki. Minta anak Anda untuk mengambil kartu dan mengembalikannya kepada Anda. Kemudian, alih-alih menjatuhkan geladak, lemparkan setinggi yang Anda bisa dan biarkan kartu jatuh ke tanah. Minta anak Anda untuk mengambil kartu dan mengembalikannya kepada Anda.

Kegembiraan relatif yang mereka miliki selama dua percobaan harus memberi mereka rasa intuitif untuk perbedaan :)

berakar
sumber
1
Jadi apa maksudnya'? Jika seseorang melihat perbedaan statistik anak panah di papan tulis, apa yang akan mereka simpulkan? Apa artinya memiliki varian rendah / tinggi secara intuitif ...
PhD
1
Saya akan mengatakan sesuatu seperti: Katakanlah kita melempar 4 anak panah. Jumlah tangan yang diperlukan untuk melepaskan anak panah dari papan sekaligus meningkat seiring dengan meningkatnya variasi posisi anak panah (Catatan: argumen yang sangat informal di sini karena ada sejumlah contoh tandingan, seperti ketika 3 anak panah dikelompokkan bersama dan anak panah terakhir adalah di dinding 3 kaki dari darboard).
2
Diagram Anda juga tampaknya beresonansi dengan cara klasik membedakan ketepatan dan ketepatan juga! Itu baru saja memukul saya!
PhD
2
AAAAAAAAAAAH! Latihan yang bagus! Cara yang baik untuk menunjukkan kepada seseorang apa artinya memiliki varian rendah / tinggi! Jarak rata-rata dari nilai rata-rata (rata-rata) dari titik data :)
PhD
2
(+1) The dartboard-analog untuk menunjukkan perbedaan antara bias dan varians cukup brilian
steffen
36

Saya biasa mengajar statistik kepada orang awam dengan lelucon, dan saya mendapati mereka banyak belajar.

Misalkan untuk varian atau standar deviasi, lelucon berikut ini cukup berguna:

Lelucon

Sekali dua ahli statistik dengan tinggi 4 kaki dan 5 kaki harus menyeberangi sungai dengan RATA-RATA kedalaman 3 kaki. Sementara itu, ahli statistik ketiga datang dan berkata, "tunggu apa lagi? Anda bisa dengan mudah menyeberangi sungai"

Saya berasumsi bahwa orang awam tahu tentang istilah 'rata-rata'. Anda juga dapat mengajukan pertanyaan yang sama kepada mereka apakah mereka akan menyeberangi sungai dalam situasi ini?

Apa yang mereka lewatkan yaitu 'varians' untuk memutuskan "apa yang harus dilakukan dalam situasi ini?"

Ini semua tentang keterampilan presentasi Anda. Namun, lelucon sangat membantu orang awam yang ingin memahami statistik. Saya harap ini membantu!

Biostat
sumber
1
Mungkin aku tidak baik dengan lelucon statistik (saya saya cukup baik dengan orang lain meskipun :). Tapi saya rasa saya tidak mengerti apa yang dimaksud dengan "apa yang harus dilakukan dalam situasi ini"? Apa 'tepatnya' yang harus dilakukan jika mereka memiliki gagasan tentang varians? Bagaimana seharusnya seseorang menafsirkannya?
PhD
6
@Nupul: Sebenarnya, "apa yang harus dilakukan dalam situasi ini" berarti apakah mereka menyeberangi sungai atau tidak? Jika Anda tahu varians (atau SD) maka Anda bisa memutuskannya dengan mudah. Misalkan varians adalah 0,25 (SD = 0,5) maka mereka dapat menyeberangi sungai dengan aman karena rentang interval (jangan bingung ini dengan Interval kepercayaan (CI)) adalah 3 + 0,5 atau 3-0,5, dan ketinggian mereka adalah 4 dan 5. Jika varians adalah 4 maka lebih baik untuk tidak menyeberangi sungai. Ngomong-ngomong, nikmati saja lelucon di sini stats.stackexchange.com/questions/1337/statistics- jokes
Biostat
Sempurna! Saya mendapatkannya! :) Itu masuk akal. Bahkan menggabungkan jawaban dari berbagai orang membantu saya membingkai pemahaman yang lebih baik ...
PhD
Atau, jika hiu tidak 'makan rata-rata' orang, itu sedikit kenyamanan jika mereka sangat moody (perilaku sangat bervariasi). Dalam analogi sungai, ini tentang apakah Anda akan mengambil langkah yang akan menempatkan Anda di atas kepala Anda.
Dean Radcliffe
12

Saya akan fokus pada standar deviasi daripada varians; varians berada pada skala yang salah.

Sama seperti rata-rata adalah nilai khas, SD adalah perbedaan (absolut) khas dari rata-rata. Ini tidak seperti melipat distribusi di atas rata-rata dan mengambil rata-rata itu.

Karl
sumber
1
Sepakat. Katakanlah kita fokus pada SD. Pertanyaan saya masih tentang bagaimana membuat seseorang memahami SD secara intuitif selain 'SD tinggi sepertinya tidak baik ' ... bagaimana saya menjelaskan SD kepada orang awam karena itu adalah akar kuadrat dari perbedaan !!!
PhD
@Nupul - Baca paragraf kedua saya: Saya akan menjelaskan SD sebagai perbedaan khas dari rata-rata.
Karl
4
"Ini tidak seperti melipat distribusi pada rata-rata dan mengambil rata-rata itu." Komentar itu, seperti sisa posting Anda, tampaknya menggambarkan deviasi absolut rata-rata, bukan deviasi standar.
Makro
3
@ Macro - ya; dalam mencoba menjelaskan SD, saya akan memperkirakannya dengan MAD. Saya pikir yang terbaik adalah tidak berdalih atas root-mean-square vs nilai absolut rata-rata.
Karl
7

Saya tidak setuju dengan banyak jawaban yang menganjurkan orang untuk menganggap varians sebagai penyebaran. Seperti yang ditunjukkan oleh orang pintar (Nassim Taleb), ketika orang menganggap varian sebagai penyebaran, mereka hanya menganggap itu MAD.

Varians adalah deskripsi tentang seberapa jauh anggota dari rata-rata, DAN itu menilai pentingnya setiap pengamatan dengan jarak yang sama. Ini berarti pengamatan jauh dinilai lebih penting. Oleh karena itu kotak.

Saya pikir varians dari variabel seragam kontinu adalah yang paling mudah untuk digambarkan. Setiap pengamatan dapat memiliki kotak yang tertarik padanya. Menumpuk kotak-kotak ini menciptakan piramida. Potong piramida menjadi dua sehingga setengah dari berat berada di satu sisi dan setengah di sisi lain. Wajah tempat Anda memotongnya adalah varians.

arthur.00
sumber
2
Saya tidak tahu mengapa jawaban ini tidak lebih dipilih. Poin yang dibuat dalam paragraf kedua sangat penting untuk memahami perbedaan dan membedakannya dari MAD, yang sebagaimana ditunjukkan dengan tepat adalah apa yang dipikirkan orang secara intuitif ketika ditanya tentang "ukuran penyebaran". Dan bukan orang awam untuk memahami gagasan bahwa bobot yang diberikan pada jarak satu titik dari rata-rata tidak tumbuh secara linear, bahkan jika mereka tidak memahami kotak secara matematis.
jeremy radcliff
3
"MAD" = en.wikipedia.org/wiki/Median_absolute_deviation bagi mereka yang bertanya-tanya. Saya tidak berpikir akronim seperti itu harus dianggap pengetahuan tentang pertanyaan seperti ini.
5

Mungkin ini bisa membantu. Saya minta maaf sebelumnya bahwa sebagai amatir lengkap saya mungkin salah.

Bayangkan Anda meminta 1000 orang untuk menebak dengan benar berapa banyak kacang yang ada dalam toples yang diisi dengan jelly beans. Sekarang bayangkan Anda tidak perlu tertarik untuk mengetahui jawaban yang benar (yang mungkin berguna) tetapi Anda ingin mendapatkan pemahaman yang lebih baik tentang bagaimana orang memperkirakan jawabannya.

Varians dapat dijelaskan kepada orang awam sebagai penyebaran jawaban yang berbeda (dari tertinggi ke terendah). Anda dapat melanjutkan dengan menambahkan bahwa jika cukup banyak orang yang ditanyai, jawaban yang benar harus berada di tengah-tengah penyebaran 'tamu-tamu' yang diberikan.

Sekarang saya merujuk ke beberapa rekan saya yang lebih terhormat untuk ajudikasi

Andrew V
sumber
5

Saya sedang duduk mencoba memecahkan perbedaan dan hal yang akhirnya membuatnya menjadi tempat bagi saya adalah untuk melihatnya secara grafis.

Katakanlah Anda menggambar garis angka dengan empat titik, -7, -1, 1 dan 7. Sekarang gambarlah sumbu Y imajiner dengan empat titik yang sama di sepanjang dimensi Y, dan gunakan pasangan XY untuk menggambar kotak untuk setiap pasangan poin. Anda berakhir dengan empat kotak terpisah yang masing-masing terdiri dari 49, 1, 1, dan 49 kotak. Masing-masing dari mereka berkontribusi pada jumlah keseluruhan kotak yang, dengan sendirinya, dapat direpresentasikan sebagai kotak 10 x 10 yang besar dengan 100 kotak yang lebih kecil secara keseluruhan.

Varians adalah ukuran persegi rata-rata yang berkontribusi pada persegi yang lebih besar. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Jadi 25 akan menjadi varians. Simpangan baku adalah panjang salah satu sisi dari bujur sangkar rata-rata itu, atau 5.

Jelas analogi ini tidak mencakup nuansa penuh konsep varians. Ada banyak hal yang perlu dijelaskan, seperti mengapa kita sering menggunakan penyebut n-1 untuk memperkirakan parameter populasi, alih-alih hanya menggunakan n. Tetapi sebagai konsep dasar untuk mematok sisa pemahaman rinci tentang varians, cukup menggambar sehingga saya bisa melihatnya sangat membantu. Ini membantu memahami apa yang kita maksudkan ketika kita mengatakan bahwa varians adalah rata-rata deviasi kuadrat dari mean. Ini juga membantu dalam memahami apa hubungan SD dengan rata-rata itu.

Calen
sumber
1
Selamat Datang di Cross-Validated! Saya suka pendekatannya, tetapi mungkin lebih bermanfaat untuk menekankan bahwa titik-titik tersebar 'di sekitar' nol (yaitu, mereka memiliki rata-rata nol) dan Anda mengukur penyebaran relatif terhadap "atom" yang terletak di sana. (+1) dan saya berharap dapat melihat lebih banyak jawaban dari Anda!
Matt Krause
4

Memiliki banyak latihan mengajar orang awam tentang standar deviasi dan varian.

TL; DR; Itu seperti jarak rata-rata dari rata-rata. (yang agak membingungkan dan menyesatkan dalam versi ringkas seperti itu. Jadi baca artikel lengkapnya)

Saya menganggap orang awam tahu tentang rata-rata. Saya memberi ceramah tentang Pentingnya mengetahui SD dan memperkirakan kesalahan (lihat PS di bawah). Lalu saya berjanji bahwa tidak ada matematika tinggi atau pengetahuan statistik suci yang akan digunakan - hanya alasan kering dan logika murni.

  1. Masalah. Katakanlah kita memiliki termometer (saya memilih perangkat pengukuran tergantung pada apa yang lebih dekat dengan pendengaran).

    Kami melakukan pengukuran N pada suhu dan termometer yang sama menunjukkan pada kami sesuatu seperti 36.5, 35.9, 37.0, 36.6, ... (lihat gambar). Kita tahu bahwa suhu sebenarnya sama, tetapi termometer terletak pada kita sedikit setiap pengukuran.

    Bagaimana kita bisa memperkirakan seberapa banyak sampah kecil ini bagi kita?

    Kita dapat menghitung rata-rata (lihat garis merah pada gambar di bawah). Bisakah kita mempercayainya? Bahkan setelah rata-rata, apakah sudah cukup presisi untuk kebutuhan kita?

    Nilai termometer dan rata-rata mereka

  2. Pendekatan termudah . Kita dapat mengambil titik terjauh, menghitung jarak antara itu dan rata-rata (garis merah) dan mengatakan, bahwa ini adalah bagaimana termometer terletak pada kita, karena itu adalah kesalahan maksimum yang kita lihat. Orang bisa menebak, itu bukan estimasi terbaik. Jika kita melihat gambar, sebagian besar poin berada di sekitar rata-rata, bagaimana kita dapat memutuskan hanya dengan satu poin? Sebenarnya orang dapat mempraktekkan alasan penomoran mengapa estimasi seperti itu kasar dan biasanya buruk.

  3. Varians . Lalu ... ayo ambil semua jarak dan hitung jarak rata-rata !

    BTW, bagaimana cara menghitung jarak? Ketika Anda mendengar "jarak" dalam bahasa Inggris (Spanyol? Denmark?) Artinya "kurangi" dalam matematika. Jadi kita mulai rumus kita dengan mana adalah rata-rata dan adalah salah satu pengukuran.ˉ x x i(xix¯)x¯xi

    Maka orang bisa membayangkan bahwa rumus jarak rata-rata akan menjumlahkan segalanya dan membaginya dengan N:

    (xix¯)N

    Tapi ada masalah. Kita dapat dengan mudah melihat, misalnya. bahwa 36,4, dan 36,8 berada pada jarak yang sama dari 36,6. tetapi jika kita meletakkan nilai dalam rumus di atas, kita mendapatkan -0.2 dan +0.2, dan jumlah mereka sama dengan 0, yang bukan yang kita inginkan.

    Bagaimana cara menyingkirkan tandanya? (Pada poin ini orang awam biasanya mengatakan "Ambil nilai absolut", dan dapatkan saran bahwa "mengambil nilai absolut sedikit buatan, apa cara lain?"). Kita bisa menguadratkan nilai! Maka formula menjadi:

    (xix¯)2N
    .

    Formula ini disebut "Varians" dalam statistik. Dan sangat cocok untuk memperkirakan penyebaran nilai termometer kami (atau apa pun), daripada hanya mengambil jarak maksimum.

  4. Simpangan baku . Tapi masih ada satu masalah lagi. Lihatlah rumus varians. Kotak membuat unit pengukuran kami ... kuadrat. Jika termometer mengukur suhu dalam ° C (atau ° F) maka estimasi kesalahan kami diukur dalam (atau ). Bagaimana cara menetralisir kotak? - Gunakan akar kuadrat!°C2°F2

    (xix¯)2N

    Jadi di sini kita sampai pada rumus Standar Deviasi yang biasanya dilambangkan sebagai . Dan itu adalah cara yang lebih baik untuk memperkirakan presisi perangkat kami.σ

Pada titik ini seorang awam mengerti dengan cukup jelas, bagaimana kita sampai di sini dan bagaimana standar deviasi / varians bekerja. Dari titik ini saya biasanya pergi ke aturan 68-95-99,7, menjelaskan juga tentang pengambilan sampel dan populasi, standar kesalahan vs persyaratan standar deviasi Dll.

Pentingnya mengetahui contoh bicara SD:

Katakanlah Anda memiliki beberapa alat pengukur, yang berharga $ 10.000 . Dan itu memberi Anda jawabannya: 42. Apakah Anda pikir satu membayar $ 1.000.000 untuk 42? Aduh! Satu membayar 1.000.000 untuk ketepatan jawaban itu. Karena Nilai - tidak ada biaya tanpa mengetahui Kesalahannya. Anda membayar kesalahan, bukan nilainya. Ini adalah contoh kehidupan yang baik.

Dalam kehidupan bersama, sebagian besar waktu kita menggunakan penggaris untuk mengukur jarak. Penguasa memberi Anda presisi sekitar satu milimeter (jika Anda tidak berada di AS). Bagaimana jika Anda harus melampaui milimeter dan mengukur sesuatu dengan presisi 0.1mm? - Anda mungkin akan menggunakan caliper. Sekarang, mudah untuk memeriksa, bahwa penggaris termurah (tetapi masih dengan presisi milimeter) berharga sen, sementara kaliper yang bagus harganya sepersepuluh dolar. 2 besarnya harga untuk 1 besaran presisi. Dan itu sangat biasa dari berapa banyak Anda membayar kesalahan.

MajesticRa
sumber
2

Saya pikir frasa kunci untuk digunakan ketika menjelaskan varians dan standar deviasi adalah "ukuran penyebaran" . Dalam bahasa yang paling dasar, varians dan standar deviasi memberi tahu kita seberapa baik penyebaran data. Agar sedikit lebih akurat, meskipun masih menyapa orang awam, mereka memberi tahu kami seberapa baik data tersebar di sekitar rata-rata. Secara sepintas, perhatikan bahwa rata-rata adalah "ukuran lokasi" . Untuk menyimpulkan penjelasan kepada orang awam, harus disorot bahwa standar deviasi dinyatakan dalam unit yang sama dengan data yang kami kerjakan dan bahwa untuk alasan inilah kami mengambil akar kuadrat dari varian. yaitu keduanya terhubung.

Saya pikir penjelasan singkat itu akan membantu. Mungkin agak mirip dengan penjelasan buku teks pengantar.

Graeme Walsh
sumber
0

Saya menganggap varian distribusi sebagai momen inersia dengan sumbu yang pada mean distribusi dan setiap massa sebagai 1. Intuisi ini akan membuat konsep abstrak konkret.

Momen pertama adalah mean dari distribusi dan momen kedua adalah varians.

Referensi: Kursus pertama edisi ke-8

Lerner Zhang
sumber
-2

Saya akan menyebutnya perbedaan positif rata-rata dari rata-rata keseluruhan.

mskw
sumber
1
Sampai Anda mengklarifikasi dua jenis "rata-rata" yang Anda maksudkan (yang pertama adalah rata-rata dan yang kedua adalah rata-rata aritmatika), hampir pasti pernyataan Anda akan ditafsirkan dengan cara yang membuatnya salah. Selain itu, istilah "perbedaan positif" aneh dan ambigu: apakah Anda bermaksud mempertimbangkan hanya residu positif? Atau untuk mengambil nilai absolut residu? Atau sesuatu yang lain? L2
whuber