Tampaknya ada sesuatu dalam pemahaman manusiawi kita yang menciptakan kesulitan dalam memahami secara intuitif gagasan varian. Dalam arti sempit, jawabannya langsung: mengkuadratkan kita dari pemahaman refleksif kita. Tapi, apakah itu hanya varian yang menghadirkan masalah, atau apakah itu seluruh gagasan penyebaran data? Kami berlindung di kisaran, atau hanya menyatakan minimum dan maksimum, tetapi apakah kita hanya menghindari kesulitan sebenarnya? Dalam mean (mode atau median) kita menemukan pusat, ringkasan ... penyederhanaan; varians menyebar hal-hal di sekitar dan membuat mereka tidak nyaman. Orang primitif pasti akan menggunakan nilai rata-rata dalam berburu binatang dengan melakukan triangulasi untuk berdoa, tetapi saya mengira jauh di kemudian hari kami merasa perlu untuk mengukur penyebaran berbagai hal. Bahkan, istilah varians pertama kali diperkenalkan oleh Ronald Fisher baru-baru ini pada tahun 1918 di kertas "Korelasi Antara Kerabat pada Dugaan Warisan Mendel."
Kebanyakan orang yang mengikuti berita akan mendengar kisah pidato malang Larry Summers tentang bakat matematika berdasarkan gender , yang mungkin terkait dengan kepergiannya dari Harvard. Singkatnya, ia menyarankan varian yang lebih luas dalam distribusi kompetensi matematika di antara laki-laki dibandingkan dengan perempuan, meskipun kedua jenis kelamin menikmati rata-rata yang sama. Terlepas dari kesesuaian atau implikasi politik, ini tampaknya dibuktikan dalam literatur ilmiah .
Lebih penting lagi, mungkin pemahaman tentang isu-isu seperti perubahan iklim - tolong maafkan saya karena mengemukakan topik yang dapat menyebabkan diskusi yang tidak layak - oleh populasi umum dapat dibantu oleh peningkatan keakraban dengan gagasan varians.
Masalah semakin bertambah ketika kami mencoba memahami kovarian, seperti yang ditunjukkan dalam posting ini , menampilkan jawaban yang hebat, dan penuh warna oleh @whuber di sini .
Mungkin tergoda untuk mengabaikan pertanyaan ini sebagai terlalu umum, tetapi jelas bahwa kita membahasnya secara tidak langsung, seperti dalam posting ini , di mana matematika itu sepele, namun konsepnya tetap sulit dipahami, percaya penerimaan yang lebih nyaman dari kisaran sebagai menentang varian ide yang lebih bernuansa .
Dalam sebuah surat dari Fisher untuk EBFord , merujuk pada kontroversi atas kecurigaannya pada eksperimen Mendel, kita membaca: "Sekarang, ketika data telah dipalsukan, saya tahu betul bagaimana umumnya orang meremehkan frekuensi penyimpangan kesempatan yang luas , sehingga Kecenderungan selalu membuat mereka terlalu setuju dengan harapan ... penyimpangan [dalam data Mendel] sangat kecil. " RA Fisher yang hebat sangat tertarik untuk mencurigai varian-varian kecil dalam sampel-sampel kecil sehingga dia menulis : "tetap ada kemungkinan, antara lain Mendel ditipu oleh beberapa asisten yang tahu betul apa yang diharapkan."
Dan sangat mungkin bahwa bias terhadap penyebaran yang menyangkal atau salah paham ini masih ada hingga hari ini. Jika demikian, adakah penjelasan mengapa kita lebih nyaman dengan konsep sentralitas daripada dengan dispersi? Adakah yang bisa kita lakukan untuk menginternalisasi ide itu?
Nassim Taleb telah meraup untung menerapkan persepsi (yah, benar-benar Benoit Mandelbrot ) tentang cacat pemahaman varians untuk mengeksploitasi masa krisis, dan telah mencoba membuat konsep tersebut dapat dipahami oleh massa dengan kalimat seperti, "varians variasinya adalah, secara epistemologis , ukuran kurangnya pengetahuan tentang kurangnya pengetahuan tentang "- ya, ada lebih banyak konteks untuk suap ini ... Dan untuk penghargaannya, ia juga membuatnya lebih sederhana dengan ide Turki Thanksgiving . Orang mungkin berpendapat bahwa kunci untuk berinvestasi adalah memahami varians (dan kovarians).
Jadi mengapa begitu licin, dan bagaimana cara memperbaikinya? Tanpa formula ... hanya intuisi bertahun-tahun berurusan dengan ketidakpastian ... Saya tidak tahu jawabannya, tapi itu tidak matematis (tentu saja itu): misalnya, saya bertanya-tanya apakah ide kurtosis mengganggu varians. Dalam plot berikut ini kami memiliki dua histogram yang tumpang tindih dengan varian yang hampir sama; namun, reaksi brengsek lutut saya adalah bahwa yang memiliki ekor paling panjang, dan puncak tertinggi (kurtosis lebih tinggi) lebih "menyebar":
sumber
Jawaban:
Saya membagikan perasaan Anda bahwa varians sedikit kurang intuitif. Lebih penting lagi, varian sebagai ukuran dioptimalkan untuk distribusi tertentu dan kurang bernilai untuk distribusi asimetris. Rata-rata perbedaan absolut dari rata-rata tidak jauh lebih intuitif dalam pandangan saya, karena mengharuskan seseorang untuk memilih rata-rata sebagai ukuran kecenderungan sentral. Saya lebih suka perbedaan rata-rata Gini --- perbedaan mutlak rata-rata atas semua pasangan pengamatan. Ini intuitif, kuat, dan efisien. Pada efisiensi, jika data berasal dari distribusi Gaussian, perbedaan rata-rata Gini dengan faktor penskalaan yang sesuai diterapkan adalah 0,98 seefisien deviasi standar sampel. Ada rumus komputasi yang efisien untuk perbedaan rata-rata Gini setelah data diurutkan. Kode R di bawah.
sumber
x
sudah diurutkan.Inilah beberapa pemikiran saya. Itu tidak membahas setiap sudut dari mana Anda dapat melihat pertanyaan Anda, pada kenyataannya, ada banyak hal yang tidak dibahas (pertanyaannya terasa agak luas).
Mengapa orang awam sulit memahami perhitungan matematis dari Variance?
Varians pada dasarnya adalah bagaimana hal-hal tersebar. Ini cukup mudah untuk dipahami, tetapi cara menghitungnya mungkin tampak kontra-intuitif bagi orang awam.
Masalahnya adalah bahwa perbedaan dari rata-rata kuadrat (kemudian dirata-rata), dan kemudian kuadrat untuk mendapatkan Standar Deviasi. Kami memahami mengapa metode ini diperlukan - kuadrat adalah untuk membuat nilai-nilai positif dan kemudian mereka berakar persegi untuk mendapatkan unit asli. Namun, orang awam cenderung bingung dengan mengapa jumlahnya kuadrat dan berakar. Sepertinya ini membatalkan sendiri (tidak) jadi sepertinya tidak ada gunanya / aneh.
Yang lebih intuitif bagi mereka adalah menemukan sebaran dengan hanya membuat rata-rata perbedaan absolut antara rata-rata dan setiap titik (disebut Penyimpangan absolut rata-rata). Metode ini tidak memerlukan kuadrat dan rooting persegi, jadi jauh lebih intuitif.
Perhatikan bahwa hanya karena Mean Absolute Deviation lebih mudah, tidak berarti itu 'lebih baik'. Perdebatan tentang apakah menggunakan nilai-nilai Kuadrat atau Absolut telah berlangsung selama seabad yang melibatkan banyak ahli statistik terkemuka, jadi orang acak seperti saya tidak bisa hanya muncul di sini dan mengatakan satu lebih baik. (Kotak rata-rata untuk menemukan varians tentu saja lebih populer)
Singkatnya: The Squaring untuk menemukan perbedaan tampaknya kurang intuitif untuk orang awam yang akan menemukan rata-rata perbedaan Absolute menjadi lebih mudah. Namun, saya tidak berpikir orang memiliki masalah dengan memahami gagasan penyebaran itu sendiri
sumber
Ini dia pendapat saya tentang pertanyaan Anda.
Saya akan mulai dengan mempertanyakan jawaban yang disebutkan di atas untuk kemudian mencoba menjelaskan maksud saya.
Pertanyaan untuk hipotesis sebelumnya:
Apakah kotak benar-benar membuat ukuran dispersi seperti Deviasi Rata-Rata sulit dipahami? Saya setuju kuadrat membuatnya lebih sulit dengan membawa kompleksitas matematis tetapi jika jawabannya hanya kuadrat, Mean Absolute Deviasi akan sesederhana untuk dipahami dan ukuran sentralitas.
Pendapat:
Saya pikir apa yang menyulitkan kita untuk memahami ukuran dispersi adalah bahwa dispersi itu sendiri adalah informasi 2-dimensi. Mencoba merangkum informasi 2 dimensi dalam satu metrik menyiratkan hilangnya sebagian informasi yang akibatnya menyebabkan kebingungan.
Contoh:
Contoh yang dapat membantu menjelaskan konsep di atas adalah sebagai berikut. Mari kita dapatkan 2 set data yang berbeda:
Mari kita asumsikan dispersi dalam hal Deviasi Standar adalah 1.0.
Pikiranku cenderung menafsirkan dispersi himpunan 1 jauh lebih jelas daripada himpunan 2. Dalam kasus khusus ini, alasan untuk pemahaman saya yang lebih baik dijelaskan dengan mengetahui bentuk distribusi 2 dimensi di muka memungkinkan saya untuk memahami ukuran distribusi di hal probabilitas di sekitar rata-rata Gaussian terpusat. Dengan kata lain, distribusi Gaussian memberi saya petunjuk 2 dimensi yang saya butuhkan untuk menerjemahkan dengan lebih baik dari ukuran dispersi.
Kesimpulan:
Singkatnya, tidak ada cara nyata untuk menangkap dalam satu Ukuran Deviasi yang ada dalam informasi 2 dimensi. Apa yang biasanya saya lakukan untuk memahami dispersi tanpa melihat langsung pada distribusi itu sendiri adalah menggabungkan banyak langkah yang menjelaskan distribusi tertentu. Mereka akan mengatur konteks agar pikiran saya memiliki pemahaman yang lebih baik tentang ukuran dispersi itu sendiri. Jika saya dapat menggunakan grafik, tentu saja box plot sangat berguna untuk memvisualisasikannya.
Diskusi hebat yang membuat saya banyak berpikir tentang masalah ini. Saya akan senang mendengar pendapat Anda.
sumber
Saya pikir alasan sederhana bahwa orang memiliki waktu lebih sulit dengan variabilitas (apakah varians, standar deviasi, MAD, atau apa pun) adalah bahwa Anda tidak dapat benar-benar memahami variabilitas sampai setelah Anda memahami ide center. Ini karena ukuran variabilitas diukur berdasarkan jarak dari pusat.
Konsep seperti mean dan median adalah konsep paralel, Anda bisa belajar yang pertama dan beberapa orang mungkin memiliki pemahaman yang lebih baik tentang satu dan orang lain akan memahami yang lain dengan lebih baik. Tetapi penyebaran diukur dari pusat (untuk beberapa definisi pusat), jadi tidak dapat benar-benar dipahami terlebih dahulu.
sumber