Apa cara paling bersih dan termudah untuk menjelaskan konsep varians kepada seseorang? Apa artinya secara intuitif? Jika seseorang menjelaskan hal ini kepada anak mereka, bagaimana ia akan melakukannya?
Ini adalah konsep yang saya sulit mengartikulasikan - terutama ketika menghubungkan varians dengan risiko. Saya memahaminya secara matematis dan bisa menjelaskannya juga. Tetapi ketika menjelaskan fenomena dunia nyata bagaimana Anda membuat orang memahami varians dan penerapannya di 'dunia nyata', bisa dikatakan.
Katakanlah kita mensimulasikan investasi dalam saham menggunakan angka acak (menggulung dadu atau menggunakan lembar excel, tidak masalah). Kami mendapatkan beberapa 'pengembalian atas investasi' dengan mengaitkan setiap instance dari variabel acak ke 'beberapa perubahan' sebagai imbalannya. Misalnya.:
Rolling a 1 menyiratkan perubahan 0,8 per $ 1 dalam investasi, 5 perubahan 1,1 per $ 1 dan seterusnya.
Sekarang jika simulasi ini dijalankan sekitar 50 kali (atau 20 atau 100) kita akan mendapatkan beberapa nilai dan nilai akhir dari investasi. Jadi, apa yang sebenarnya dikatakan 'varians' kepada kita jika kita menghitungnya dari kumpulan data di atas? Apa yang "dilihat" oleh seseorang - Jika variansnya berubah menjadi 1,7654 atau 0,88765 atau 5,2342 apa artinya ini? Apa yang dapat saya amati tentang investasi ini ?? Kesimpulan apa yang bisa saya ambil - dalam istilah awam.
Silakan menambah pertanyaan dengan itu untuk standar deviasi juga! Meskipun saya merasa 'lebih mudah' untuk dipahami, tetapi sesuatu yang berkontribusi untuk membuatnya juga 'secara intuitif' jelas akan sangat dihargai!
Jawaban:
Saya mungkin akan menggunakan analogi yang mirip dengan analogi yang telah saya pelajari untuk diberikan kepada 'orang awam' ketika memperkenalkan konsep bias dan varian: analogi papan tulis. Lihat di bawah:
Gambar khusus di atas adalah dari Encyclopedia of Machine Learning , dan referensi di dalam gambar adalah Moore dan McCabe "Pengantar Praktik Statistik" .
SUNTING:
Inilah latihan yang menurut saya cukup intuitif: Ambil setumpuk kartu (di luar kotak), dan letakkan setumpuk dari ketinggian sekitar 1 kaki. Minta anak Anda untuk mengambil kartu dan mengembalikannya kepada Anda. Kemudian, alih-alih menjatuhkan geladak, lemparkan setinggi yang Anda bisa dan biarkan kartu jatuh ke tanah. Minta anak Anda untuk mengambil kartu dan mengembalikannya kepada Anda.
Kegembiraan relatif yang mereka miliki selama dua percobaan harus memberi mereka rasa intuitif untuk perbedaan :)
sumber
Saya biasa mengajar statistik kepada orang awam dengan lelucon, dan saya mendapati mereka banyak belajar.
Misalkan untuk varian atau standar deviasi, lelucon berikut ini cukup berguna:
Lelucon
Sekali dua ahli statistik dengan tinggi 4 kaki dan 5 kaki harus menyeberangi sungai dengan RATA-RATA kedalaman 3 kaki. Sementara itu, ahli statistik ketiga datang dan berkata, "tunggu apa lagi? Anda bisa dengan mudah menyeberangi sungai"
Saya berasumsi bahwa orang awam tahu tentang istilah 'rata-rata'. Anda juga dapat mengajukan pertanyaan yang sama kepada mereka apakah mereka akan menyeberangi sungai dalam situasi ini?
Apa yang mereka lewatkan yaitu 'varians' untuk memutuskan "apa yang harus dilakukan dalam situasi ini?"
Ini semua tentang keterampilan presentasi Anda. Namun, lelucon sangat membantu orang awam yang ingin memahami statistik. Saya harap ini membantu!
sumber
Saya akan fokus pada standar deviasi daripada varians; varians berada pada skala yang salah.
Sama seperti rata-rata adalah nilai khas, SD adalah perbedaan (absolut) khas dari rata-rata. Ini tidak seperti melipat distribusi di atas rata-rata dan mengambil rata-rata itu.
sumber
Saya tidak setuju dengan banyak jawaban yang menganjurkan orang untuk menganggap varians sebagai penyebaran. Seperti yang ditunjukkan oleh orang pintar (Nassim Taleb), ketika orang menganggap varian sebagai penyebaran, mereka hanya menganggap itu MAD.
Varians adalah deskripsi tentang seberapa jauh anggota dari rata-rata, DAN itu menilai pentingnya setiap pengamatan dengan jarak yang sama. Ini berarti pengamatan jauh dinilai lebih penting. Oleh karena itu kotak.
Saya pikir varians dari variabel seragam kontinu adalah yang paling mudah untuk digambarkan. Setiap pengamatan dapat memiliki kotak yang tertarik padanya. Menumpuk kotak-kotak ini menciptakan piramida. Potong piramida menjadi dua sehingga setengah dari berat berada di satu sisi dan setengah di sisi lain. Wajah tempat Anda memotongnya adalah varians.
sumber
Mungkin ini bisa membantu. Saya minta maaf sebelumnya bahwa sebagai amatir lengkap saya mungkin salah.
Bayangkan Anda meminta 1000 orang untuk menebak dengan benar berapa banyak kacang yang ada dalam toples yang diisi dengan jelly beans. Sekarang bayangkan Anda tidak perlu tertarik untuk mengetahui jawaban yang benar (yang mungkin berguna) tetapi Anda ingin mendapatkan pemahaman yang lebih baik tentang bagaimana orang memperkirakan jawabannya.
Varians dapat dijelaskan kepada orang awam sebagai penyebaran jawaban yang berbeda (dari tertinggi ke terendah). Anda dapat melanjutkan dengan menambahkan bahwa jika cukup banyak orang yang ditanyai, jawaban yang benar harus berada di tengah-tengah penyebaran 'tamu-tamu' yang diberikan.
Sekarang saya merujuk ke beberapa rekan saya yang lebih terhormat untuk ajudikasi
sumber
Saya sedang duduk mencoba memecahkan perbedaan dan hal yang akhirnya membuatnya menjadi tempat bagi saya adalah untuk melihatnya secara grafis.
Katakanlah Anda menggambar garis angka dengan empat titik, -7, -1, 1 dan 7. Sekarang gambarlah sumbu Y imajiner dengan empat titik yang sama di sepanjang dimensi Y, dan gunakan pasangan XY untuk menggambar kotak untuk setiap pasangan poin. Anda berakhir dengan empat kotak terpisah yang masing-masing terdiri dari 49, 1, 1, dan 49 kotak. Masing-masing dari mereka berkontribusi pada jumlah keseluruhan kotak yang, dengan sendirinya, dapat direpresentasikan sebagai kotak 10 x 10 yang besar dengan 100 kotak yang lebih kecil secara keseluruhan.
Varians adalah ukuran persegi rata-rata yang berkontribusi pada persegi yang lebih besar. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Jadi 25 akan menjadi varians. Simpangan baku adalah panjang salah satu sisi dari bujur sangkar rata-rata itu, atau 5.
Jelas analogi ini tidak mencakup nuansa penuh konsep varians. Ada banyak hal yang perlu dijelaskan, seperti mengapa kita sering menggunakan penyebut n-1 untuk memperkirakan parameter populasi, alih-alih hanya menggunakan n. Tetapi sebagai konsep dasar untuk mematok sisa pemahaman rinci tentang varians, cukup menggambar sehingga saya bisa melihatnya sangat membantu. Ini membantu memahami apa yang kita maksudkan ketika kita mengatakan bahwa varians adalah rata-rata deviasi kuadrat dari mean. Ini juga membantu dalam memahami apa hubungan SD dengan rata-rata itu.
sumber
Memiliki banyak latihan mengajar orang awam tentang standar deviasi dan varian.
TL; DR; Itu seperti jarak rata-rata dari rata-rata. (yang agak membingungkan dan menyesatkan dalam versi ringkas seperti itu. Jadi baca artikel lengkapnya)
Saya menganggap orang awam tahu tentang rata-rata. Saya memberi ceramah tentang Pentingnya mengetahui SD dan memperkirakan kesalahan (lihat PS di bawah). Lalu saya berjanji bahwa tidak ada matematika tinggi atau pengetahuan statistik suci yang akan digunakan - hanya alasan kering dan logika murni.
Masalah. Katakanlah kita memiliki termometer (saya memilih perangkat pengukuran tergantung pada apa yang lebih dekat dengan pendengaran).
Kami melakukan pengukuran N pada suhu dan termometer yang sama menunjukkan pada kami sesuatu seperti 36.5, 35.9, 37.0, 36.6, ... (lihat gambar). Kita tahu bahwa suhu sebenarnya sama, tetapi termometer terletak pada kita sedikit setiap pengukuran.
Bagaimana kita bisa memperkirakan seberapa banyak sampah kecil ini bagi kita?
Kita dapat menghitung rata-rata (lihat garis merah pada gambar di bawah). Bisakah kita mempercayainya? Bahkan setelah rata-rata, apakah sudah cukup presisi untuk kebutuhan kita?
Pendekatan termudah . Kita dapat mengambil titik terjauh, menghitung jarak antara itu dan rata-rata (garis merah) dan mengatakan, bahwa ini adalah bagaimana termometer terletak pada kita, karena itu adalah kesalahan maksimum yang kita lihat. Orang bisa menebak, itu bukan estimasi terbaik. Jika kita melihat gambar, sebagian besar poin berada di sekitar rata-rata, bagaimana kita dapat memutuskan hanya dengan satu poin? Sebenarnya orang dapat mempraktekkan alasan penomoran mengapa estimasi seperti itu kasar dan biasanya buruk.
Varians . Lalu ... ayo ambil semua jarak dan hitung jarak rata-rata !
BTW, bagaimana cara menghitung jarak? Ketika Anda mendengar "jarak" dalam bahasa Inggris (Spanyol? Denmark?) Artinya "kurangi" dalam matematika. Jadi kita mulai rumus kita dengan mana adalah rata-rata dan adalah salah satu pengukuran.ˉ x x i(xi−x¯) x¯ xi
Maka orang bisa membayangkan bahwa rumus jarak rata-rata akan menjumlahkan segalanya dan membaginya dengan N:
Tapi ada masalah. Kita dapat dengan mudah melihat, misalnya. bahwa 36,4, dan 36,8 berada pada jarak yang sama dari 36,6. tetapi jika kita meletakkan nilai dalam rumus di atas, kita mendapatkan -0.2 dan +0.2, dan jumlah mereka sama dengan 0, yang bukan yang kita inginkan.
Bagaimana cara menyingkirkan tandanya? (Pada poin ini orang awam biasanya mengatakan "Ambil nilai absolut", dan dapatkan saran bahwa "mengambil nilai absolut sedikit buatan, apa cara lain?"). Kita bisa menguadratkan nilai! Maka formula menjadi:
Formula ini disebut "Varians" dalam statistik. Dan sangat cocok untuk memperkirakan penyebaran nilai termometer kami (atau apa pun), daripada hanya mengambil jarak maksimum.
Simpangan baku . Tapi masih ada satu masalah lagi. Lihatlah rumus varians. Kotak membuat unit pengukuran kami ... kuadrat. Jika termometer mengukur suhu dalam ° C (atau ° F) maka estimasi kesalahan kami diukur dalam (atau ). Bagaimana cara menetralisir kotak? - Gunakan akar kuadrat!°C2 °F2
Jadi di sini kita sampai pada rumus Standar Deviasi yang biasanya dilambangkan sebagai . Dan itu adalah cara yang lebih baik untuk memperkirakan presisi perangkat kami.σ
Pada titik ini seorang awam mengerti dengan cukup jelas, bagaimana kita sampai di sini dan bagaimana standar deviasi / varians bekerja. Dari titik ini saya biasanya pergi ke aturan 68-95-99,7, menjelaskan juga tentang pengambilan sampel dan populasi, standar kesalahan vs persyaratan standar deviasi Dll.
Pentingnya mengetahui contoh bicara SD:
Katakanlah Anda memiliki beberapa alat pengukur, yang berharga $ 10.000 . Dan itu memberi Anda jawabannya: 42. Apakah Anda pikir satu membayar $ 1.000.000 untuk 42? Aduh! Satu membayar 1.000.000 untuk ketepatan jawaban itu. Karena Nilai - tidak ada biaya tanpa mengetahui Kesalahannya. Anda membayar kesalahan, bukan nilainya. Ini adalah contoh kehidupan yang baik.
Dalam kehidupan bersama, sebagian besar waktu kita menggunakan penggaris untuk mengukur jarak. Penguasa memberi Anda presisi sekitar satu milimeter (jika Anda tidak berada di AS). Bagaimana jika Anda harus melampaui milimeter dan mengukur sesuatu dengan presisi 0.1mm? - Anda mungkin akan menggunakan caliper. Sekarang, mudah untuk memeriksa, bahwa penggaris termurah (tetapi masih dengan presisi milimeter) berharga sen, sementara kaliper yang bagus harganya sepersepuluh dolar. 2 besarnya harga untuk 1 besaran presisi. Dan itu sangat biasa dari berapa banyak Anda membayar kesalahan.
sumber
Saya pikir frasa kunci untuk digunakan ketika menjelaskan varians dan standar deviasi adalah "ukuran penyebaran" . Dalam bahasa yang paling dasar, varians dan standar deviasi memberi tahu kita seberapa baik penyebaran data. Agar sedikit lebih akurat, meskipun masih menyapa orang awam, mereka memberi tahu kami seberapa baik data tersebar di sekitar rata-rata. Secara sepintas, perhatikan bahwa rata-rata adalah "ukuran lokasi" . Untuk menyimpulkan penjelasan kepada orang awam, harus disorot bahwa standar deviasi dinyatakan dalam unit yang sama dengan data yang kami kerjakan dan bahwa untuk alasan inilah kami mengambil akar kuadrat dari varian. yaitu keduanya terhubung.
Saya pikir penjelasan singkat itu akan membantu. Mungkin agak mirip dengan penjelasan buku teks pengantar.
sumber
Saya menganggap varian distribusi sebagai momen inersia dengan sumbu yang pada mean distribusi dan setiap massa sebagai 1. Intuisi ini akan membuat konsep abstrak konkret.
Momen pertama adalah mean dari distribusi dan momen kedua adalah varians.
Referensi: Kursus pertama edisi ke-8
sumber
Saya akan menyebutnya perbedaan positif rata-rata dari rata-rata keseluruhan.
sumber