Mengapa Tindakan Dispersi Kurang Intuitif Daripada Sentralitas?

11

Tampaknya ada sesuatu dalam pemahaman manusiawi kita yang menciptakan kesulitan dalam memahami secara intuitif gagasan varian. Dalam arti sempit, jawabannya langsung: mengkuadratkan kita dari pemahaman refleksif kita. Tapi, apakah itu hanya varian yang menghadirkan masalah, atau apakah itu seluruh gagasan penyebaran data? Kami berlindung di kisaran, atau hanya menyatakan minimum dan maksimum, tetapi apakah kita hanya menghindari kesulitan sebenarnya? Dalam mean (mode atau median) kita menemukan pusat, ringkasan ... penyederhanaan; varians menyebar hal-hal di sekitar dan membuat mereka tidak nyaman. Orang primitif pasti akan menggunakan nilai rata-rata dalam berburu binatang dengan melakukan triangulasi untuk berdoa, tetapi saya mengira jauh di kemudian hari kami merasa perlu untuk mengukur penyebaran berbagai hal. Bahkan, istilah varians pertama kali diperkenalkan oleh Ronald Fisher baru-baru ini pada tahun 1918 di kertas "Korelasi Antara Kerabat pada Dugaan Warisan Mendel."

Kebanyakan orang yang mengikuti berita akan mendengar kisah pidato malang Larry Summers tentang bakat matematika berdasarkan gender , yang mungkin terkait dengan kepergiannya dari Harvard. Singkatnya, ia menyarankan varian yang lebih luas dalam distribusi kompetensi matematika di antara laki-laki dibandingkan dengan perempuan, meskipun kedua jenis kelamin menikmati rata-rata yang sama. Terlepas dari kesesuaian atau implikasi politik, ini tampaknya dibuktikan dalam literatur ilmiah .

Lebih penting lagi, mungkin pemahaman tentang isu-isu seperti perubahan iklim - tolong maafkan saya karena mengemukakan topik yang dapat menyebabkan diskusi yang tidak layak - oleh populasi umum dapat dibantu oleh peningkatan keakraban dengan gagasan varians.

Masalah semakin bertambah ketika kami mencoba memahami kovarian, seperti yang ditunjukkan dalam posting ini , menampilkan jawaban yang hebat, dan penuh warna oleh @whuber di sini .

Mungkin tergoda untuk mengabaikan pertanyaan ini sebagai terlalu umum, tetapi jelas bahwa kita membahasnya secara tidak langsung, seperti dalam posting ini , di mana matematika itu sepele, namun konsepnya tetap sulit dipahami, percaya penerimaan yang lebih nyaman dari kisaran sebagai menentang varian ide yang lebih bernuansa .

Dalam sebuah surat dari Fisher untuk EBFord , merujuk pada kontroversi atas kecurigaannya pada eksperimen Mendel, kita membaca: "Sekarang, ketika data telah dipalsukan, saya tahu betul bagaimana umumnya orang meremehkan frekuensi penyimpangan kesempatan yang luas , sehingga Kecenderungan selalu membuat mereka terlalu setuju dengan harapan ... penyimpangan [dalam data Mendel] sangat kecil. " RA Fisher yang hebat sangat tertarik untuk mencurigai varian-varian kecil dalam sampel-sampel kecil sehingga dia menulis : "tetap ada kemungkinan, antara lain Mendel ditipu oleh beberapa asisten yang tahu betul apa yang diharapkan."

Dan sangat mungkin bahwa bias terhadap penyebaran yang menyangkal atau salah paham ini masih ada hingga hari ini. Jika demikian, adakah penjelasan mengapa kita lebih nyaman dengan konsep sentralitas daripada dengan dispersi? Adakah yang bisa kita lakukan untuk menginternalisasi ide itu?

eiπ+1=0E=mc2

Nassim Taleb telah meraup untung menerapkan persepsi (yah, benar-benar Benoit Mandelbrot ) tentang cacat pemahaman varians untuk mengeksploitasi masa krisis, dan telah mencoba membuat konsep tersebut dapat dipahami oleh massa dengan kalimat seperti, "varians variasinya adalah, secara epistemologis , ukuran kurangnya pengetahuan tentang kurangnya pengetahuan tentang "- ya, ada lebih banyak konteks untuk suap ini ... Dan untuk penghargaannya, ia juga membuatnya lebih sederhana dengan ide Turki Thanksgiving . Orang mungkin berpendapat bahwa kunci untuk berinvestasi adalah memahami varians (dan kovarians).

Jadi mengapa begitu licin, dan bagaimana cara memperbaikinya? Tanpa formula ... hanya intuisi bertahun-tahun berurusan dengan ketidakpastian ... Saya tidak tahu jawabannya, tapi itu tidak matematis (tentu saja itu): misalnya, saya bertanya-tanya apakah ide kurtosis mengganggu varians. Dalam plot berikut ini kami memiliki dua histogram yang tumpang tindih dengan varian yang hampir sama; namun, reaksi brengsek lutut saya adalah bahwa yang memiliki ekor paling panjang, dan puncak tertinggi (kurtosis lebih tinggi) lebih "menyebar":

Antoni Parellada
sumber
2
Varians sulit dimengerti terutama karena kuadrat, saya pikir. Orang-orang tampaknya tidak mengalami terlalu banyak kesulitan dengan deviasi absolut berarti. (Saya biasanya menggunakan ide itu untuk mencapai standar deviasi, misalnya.)
gung - Reinstate Monica
Sulit untuk melupakan apa yang telah dipelajari seseorang, tetapi saya tidak yakin bahwa premis dari judul itu benar. Misalnya, perbedaan, termasuk kisaran, dalam beberapa hal tampak lebih intuitif daripada ringkasan seperti rata-rata atau median. Akun berbeda; tetapi meskipun rata-rata terjadi dalam matematika klasik, penggunaannya untuk meringkas data muncul hanya dengan lambat dan menyakitkan sekitar abad ke-17.
Nick Cox
1
Dengan harapan jawaban untuk ini jangan dialihkan ke spesifik yang tidak selalu berhubungan dengan masalah - apakah pertanyaan ini lebih lanjut tentang varians per se (yang pembahasan kuadrat mungkin relevan), atau konsep variabilitas yang lebih umum (dispersi, penyebaran, variasi - untuk yang tidak)? [Saya juga bertanya-tanya tentang sejauh mana kita dapat benar-benar menggeneralisasi rasa intuisi relatif orang lain]
Glen_b -Reinstate Monica
Yang terakhir. Saya harus menjelaskannya. Tidak yakin tentang pertanyaan secara keseluruhan. Jangan ragu untuk menutupnya.
Antoni Parellada
@Antoni Mengapa saya ingin menutupnya? Bentuk mana pun akan menjadi pertanyaan yang bagus; hanya saja jawabannya akan berbeda.
Glen_b -Reinstate Monica

Jawaban:

9

Saya membagikan perasaan Anda bahwa varians sedikit kurang intuitif. Lebih penting lagi, varian sebagai ukuran dioptimalkan untuk distribusi tertentu dan kurang bernilai untuk distribusi asimetris. Rata-rata perbedaan absolut dari rata-rata tidak jauh lebih intuitif dalam pandangan saya, karena mengharuskan seseorang untuk memilih rata-rata sebagai ukuran kecenderungan sentral. Saya lebih suka perbedaan rata-rata Gini --- perbedaan mutlak rata-rata atas semua pasangan pengamatan. Ini intuitif, kuat, dan efisien. Pada efisiensi, jika data berasal dari distribusi Gaussian, perbedaan rata-rata Gini dengan faktor penskalaan yang sesuai diterapkan adalah 0,98 seefisien deviasi standar sampel. Ada rumus komputasi yang efisien untuk perbedaan rata-rata Gini setelah data diurutkan. Kode R di bawah.

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))
Frank Harrell
sumber
Apakah ini cenderung terlalu menekankan dispersi? Saya sedang bermain dengan kode Anda di sini
Antoni Parellada
1
Ini adalah ukuran dispersi yang valid. Jika Anda suka definisinya, itu tidak terlalu menekankan apa pun.
Frank Harrell
Benar. Saya menganggap posting Anda sebagai kesempatan untuk belajar, dan komentar saya adalah cara saya menunjukkan minat. Saya hanya perlu membaca lebih lanjut tentang itu. Terima kasih!
Antoni Parellada
1
Hanya jika vektor xsudah diurutkan.
Frank Harrell
4

Inilah beberapa pemikiran saya. Itu tidak membahas setiap sudut dari mana Anda dapat melihat pertanyaan Anda, pada kenyataannya, ada banyak hal yang tidak dibahas (pertanyaannya terasa agak luas).

Mengapa orang awam sulit memahami perhitungan matematis dari Variance?

Varians pada dasarnya adalah bagaimana hal-hal tersebar. Ini cukup mudah untuk dipahami, tetapi cara menghitungnya mungkin tampak kontra-intuitif bagi orang awam.

Masalahnya adalah bahwa perbedaan dari rata-rata kuadrat (kemudian dirata-rata), dan kemudian kuadrat untuk mendapatkan Standar Deviasi. Kami memahami mengapa metode ini diperlukan - kuadrat adalah untuk membuat nilai-nilai positif dan kemudian mereka berakar persegi untuk mendapatkan unit asli. Namun, orang awam cenderung bingung dengan mengapa jumlahnya kuadrat dan berakar. Sepertinya ini membatalkan sendiri (tidak) jadi sepertinya tidak ada gunanya / aneh.

Yang lebih intuitif bagi mereka adalah menemukan sebaran dengan hanya membuat rata-rata perbedaan absolut antara rata-rata dan setiap titik (disebut Penyimpangan absolut rata-rata). Metode ini tidak memerlukan kuadrat dan rooting persegi, jadi jauh lebih intuitif.

Perhatikan bahwa hanya karena Mean Absolute Deviation lebih mudah, tidak berarti itu 'lebih baik'. Perdebatan tentang apakah menggunakan nilai-nilai Kuadrat atau Absolut telah berlangsung selama seabad yang melibatkan banyak ahli statistik terkemuka, jadi orang acak seperti saya tidak bisa hanya muncul di sini dan mengatakan satu lebih baik. (Kotak rata-rata untuk menemukan varians tentu saja lebih populer)

Singkatnya: The Squaring untuk menemukan perbedaan tampaknya kurang intuitif untuk orang awam yang akan menemukan rata-rata perbedaan Absolute menjadi lebih mudah. Namun, saya tidak berpikir orang memiliki masalah dengan memahami gagasan penyebaran itu sendiri

Yang Li
sumber
3
+1 untuk menunjukkan efek mengkuadratkan. Tapi saya pikir masalahnya melampaui konstruk matematika aktual untuk mengukur penyebaran. Ini pada tingkat batang otak yang lebih radikal - jauh dari pusat tidak terasa alami; titik pusatnya adalah.
Antoni Parellada
Ah, begitu. Saya tidak yakin apakah itu tentang 'penyebaran' atau cara matematika khusus untuk menemukan penyebaran. Saya khawatir saya tidak dapat membantu Anda dengan yang pertama - secara pribadi saya tidak berpikir orang memiliki banyak masalah dengan memahami konsep penyebaran ...
Yang Li
Saya lakukan. Saya punya banyak masalah memahami tingkat ketidakpastian, yang sebagian besar langsung merupakan konsekuensi dari varians. Saya hanya tidak tahu mengapa.
Antoni Parellada
3

Ini dia pendapat saya tentang pertanyaan Anda.

Saya akan mulai dengan mempertanyakan jawaban yang disebutkan di atas untuk kemudian mencoba menjelaskan maksud saya.

Pertanyaan untuk hipotesis sebelumnya:

Apakah kotak benar-benar membuat ukuran dispersi seperti Deviasi Rata-Rata sulit dipahami? Saya setuju kuadrat membuatnya lebih sulit dengan membawa kompleksitas matematis tetapi jika jawabannya hanya kuadrat, Mean Absolute Deviasi akan sesederhana untuk dipahami dan ukuran sentralitas.

Pendapat:

Saya pikir apa yang menyulitkan kita untuk memahami ukuran dispersi adalah bahwa dispersi itu sendiri adalah informasi 2-dimensi. Mencoba merangkum informasi 2 dimensi dalam satu metrik menyiratkan hilangnya sebagian informasi yang akibatnya menyebabkan kebingungan.

Contoh:

Contoh yang dapat membantu menjelaskan konsep di atas adalah sebagai berikut. Mari kita dapatkan 2 set data yang berbeda:

  1. Mengikuti distribusi Gaussian
  2. Mengikuti distribusi yang tidak diketahui dan asimetris

Mari kita asumsikan dispersi dalam hal Deviasi Standar adalah 1.0.

Pikiranku cenderung menafsirkan dispersi himpunan 1 jauh lebih jelas daripada himpunan 2. Dalam kasus khusus ini, alasan untuk pemahaman saya yang lebih baik dijelaskan dengan mengetahui bentuk distribusi 2 dimensi di muka memungkinkan saya untuk memahami ukuran distribusi di hal probabilitas di sekitar rata-rata Gaussian terpusat. Dengan kata lain, distribusi Gaussian memberi saya petunjuk 2 dimensi yang saya butuhkan untuk menerjemahkan dengan lebih baik dari ukuran dispersi.

Kesimpulan:

Singkatnya, tidak ada cara nyata untuk menangkap dalam satu Ukuran Deviasi yang ada dalam informasi 2 dimensi. Apa yang biasanya saya lakukan untuk memahami dispersi tanpa melihat langsung pada distribusi itu sendiri adalah menggabungkan banyak langkah yang menjelaskan distribusi tertentu. Mereka akan mengatur konteks agar pikiran saya memiliki pemahaman yang lebih baik tentang ukuran dispersi itu sendiri. Jika saya dapat menggunakan grafik, tentu saja box plot sangat berguna untuk memvisualisasikannya.

Diskusi hebat yang membuat saya banyak berpikir tentang masalah ini. Saya akan senang mendengar pendapat Anda.

fernandosjp
sumber
1
Respons yang dipikirkan dengan cermat +1. Saya benar-benar tidak punya apa-apa untuk ditambahkan, kecuali bahwa saya pikir mungkin ada alasan lain yang perlu dipertimbangkan.
Yang Li
1

Saya pikir alasan sederhana bahwa orang memiliki waktu lebih sulit dengan variabilitas (apakah varians, standar deviasi, MAD, atau apa pun) adalah bahwa Anda tidak dapat benar-benar memahami variabilitas sampai setelah Anda memahami ide center. Ini karena ukuran variabilitas diukur berdasarkan jarak dari pusat.

Konsep seperti mean dan median adalah konsep paralel, Anda bisa belajar yang pertama dan beberapa orang mungkin memiliki pemahaman yang lebih baik tentang satu dan orang lain akan memahami yang lain dengan lebih baik. Tetapi penyebaran diukur dari pusat (untuk beberapa definisi pusat), jadi tidak dapat benar-benar dipahami terlebih dahulu.

Greg Snow
sumber
+1 Itu sangat masuk akal - ini adalah konsep sekunder ...
Antoni Parellada
@ Greg Snow: kecuali bahwa itu tidak benar; lihat perbedaan berarti Gini dari jawaban Frank Harrells, yang tidak memastikan penyimpangan dari pusat.
kjetil b halvorsen