Misalkan saya ingin melihat apakah data saya eksponensial berdasarkan histogram (yaitu condong ke kanan).
Bergantung pada bagaimana saya mengelompokkan atau menyimpan data, saya bisa mendapatkan histogram yang sangat berbeda.
Satu set histogram akan dibuat tampak bahwa data itu eksponensial. Set lain akan membuatnya tampak bahwa data tidak eksponensial. Bagaimana cara saya menentukan distribusi dari histogram dengan baik?
distributions
data-visualization
histogram
binning
guestoeijreor
sumber
sumber
Jawaban:
Kesulitan menggunakan histogram untuk menyimpulkan bentuk
Sementara histogram seringkali berguna dan terkadang berguna, mereka bisa menyesatkan. Penampilan mereka dapat berubah cukup banyak dengan perubahan lokasi batas bin.
Masalah ini telah lama diketahui *, meskipun mungkin tidak seluas yang seharusnya - Anda jarang melihatnya disebutkan dalam diskusi tingkat dasar (meskipun ada pengecualian).
* misalnya, Paul Rubin mengatakannya seperti ini: " diketahui bahwa mengubah titik akhir dalam histogram dapat secara signifikan mengubah penampilannya ". .
Saya pikir ini adalah masalah yang harus dibahas secara lebih luas ketika memperkenalkan histogram. Saya akan memberikan beberapa contoh dan diskusi.
Mengapa Anda harus waspada mengandalkan histogram tunggal dari kumpulan data
Lihatlah empat histogram ini:
Itu empat histogram yang terlihat sangat berbeda.
Jika Anda menempelkan data berikut ini (Saya menggunakan R di sini):
Kemudian Anda dapat menghasilkannya sendiri:
Sekarang lihat diagram strip ini:
(Jika masih belum jelas, lihat apa yang terjadi ketika Anda mengurangi data Annie dari setiap set
head(matrix(x-Annie,nrow=40))
:)Data hanya bergeser ke kiri setiap kali dengan 0,25.
Namun kesan yang kami dapatkan dari histogram - condong ke kanan, seragam, condong ke kiri dan bimodal - sangat berbeda. Kesan kami sepenuhnya diatur oleh lokasi tempat asal pertama relatif terhadap minimum.
Jadi bukan hanya 'eksponensial' vs 'tidak-benar-benar-eksponensial' tetapi 'condong ke kanan' vs 'condong ke kiri' atau 'bimodal' vs 'seragam' hanya dengan memindahkan tempat sampah Anda mulai.
Sunting: Jika Anda memvariasikan binwidth, Anda bisa mendapatkan hal-hal seperti ini terjadi:
Itu 34 pengamatan yang sama dalam kedua kasus, hanya breakpoints berbeda, satu dengan binwidth dan yang lainnya dengan binwidth .0.81 0.8
Bagus, kan?
Ya, data itu sengaja dibuat untuk melakukan itu ... tapi pelajarannya jelas - apa yang Anda pikir Anda lihat dalam histogram mungkin bukan kesan yang akurat tentang data tersebut.
Apa yang bisa kita lakukan?
Histogram banyak digunakan, sering kali nyaman untuk didapatkan dan kadang-kadang diharapkan. Apa yang bisa kita lakukan untuk menghindari atau mengurangi masalah seperti itu?
Seperti yang ditunjukkan Nick Cox dalam komentar untuk pertanyaan terkait : Aturan praktis harus selalu detail yang kuat untuk variasi dalam lebar bin dan asal bin mungkin asli; detail yang rapuh seperti itu cenderung palsu atau sepele .
Paling tidak, Anda harus selalu melakukan histogram di beberapa binwidth atau tempat asal yang berbeda, atau lebih baik keduanya.
Atau, periksa perkiraan kepadatan kernel pada lebar pita yang tidak terlalu lebar.
Satu pendekatan lain yang mengurangi kesewenang-wenangan histogram adalah rata - rata perubahan histogram ,
(itu salah satu dari kumpulan data terbaru) tetapi jika Anda pergi ke upaya itu, saya pikir Anda mungkin juga menggunakan estimasi kepadatan kernel.
Jika saya melakukan histogram (saya menggunakannya meskipun sangat menyadari masalah ini), saya hampir selalu lebih suka menggunakan nampan jauh lebih banyak daripada yang biasanya diberikan oleh bawaan program dan sangat sering saya suka melakukan beberapa histogram dengan lebar bin yang bervariasi. (dan, terkadang, asal). Jika mereka konsisten dalam kesan, Anda tidak mungkin memiliki masalah ini, dan jika mereka tidak konsisten, Anda tahu untuk melihat lebih hati-hati, mungkin mencoba estimasi kepadatan kernel, CDF empiris, plot QQ atau sesuatu serupa.
Walaupun histogram terkadang menyesatkan, boxplots bahkan lebih rentan terhadap masalah seperti itu; dengan boxplot Anda bahkan tidak memiliki kemampuan untuk mengatakan "gunakan lebih banyak sampah". Lihat empat set data yang sangat berbeda dalam postingan ini , semuanya dengan plotplot simetris yang identik, meskipun salah satu set datanya cukup miring.
[1]: Rubin, Paul (2014) "Penyalahgunaan Histogram!",
Posting blog, ATAU di dunia OB , 23 Januari 2014
tautan ... (tautan alternatif)
sumber
Densitas kernel atau plot logspline mungkin merupakan opsi yang lebih baik dibandingkan dengan histogram. Masih ada beberapa opsi yang dapat diatur dengan metode ini, tetapi mereka kurang berubah-ubah daripada histogram. Ada qqplot juga. Alat yang bagus untuk melihat apakah data cukup dekat dengan distribusi teoritis dirinci dalam:
Versi singkat dari ide (masih membaca makalah untuk lebih jelasnya) adalah bahwa Anda menghasilkan data dari distribusi nol dan membuat beberapa plot salah satunya adalah data asli / nyata dan sisanya disimulasikan dari distribusi teoritis. Anda kemudian menunjukkan plot kepada seseorang (mungkin diri Anda sendiri) yang belum melihat data asli dan melihat apakah mereka dapat memilih data nyata. Jika mereka tidak dapat mengidentifikasi data nyata maka Anda tidak memiliki bukti terhadap nol.
The
vis.test
fungsi dalam paket TeachingDemos untuk R membantu menerapkan bentuk tes ini.Ini adalah contoh cepat. Salah satu plot di bawah ini adalah 25 poin yang dihasilkan dari distribusi dengan 10 derajat kebebasan, 8 lainnya dihasilkan dari distribusi normal dengan mean dan varians yang sama.
The
vis.test
fungsi menciptakan plot ini dan kemudian meminta pengguna untuk memilih mana dari plot mereka berpikir berbeda, kemudian mengulangi proses 2 kali (3 total).sumber
Plot distribusi kumulatif [ MATLAB , R ] - tempat Anda memplot fraksi nilai data kurang dari atau sama dengan rentang nilai - sejauh ini merupakan cara terbaik untuk melihat distribusi data empiris. Di sini, misalnya, adalah ECDF dari data ini , diproduksi di R:
Ini dapat dihasilkan dengan input R berikut (dengan data di atas):
Seperti yang Anda lihat, secara visual jelas bahwa keempat distribusi ini hanyalah terjemahan satu sama lain. Secara umum, manfaat ECDF untuk memvisualisasikan distribusi data empiris adalah:
Satu-satunya trik adalah mempelajari cara membaca ECDF dengan benar: daerah miring yang dangkal berarti distribusi jarang, daerah miring yang curam berarti distribusi padat. Namun, begitu Anda terbiasa membacanya, mereka adalah alat yang hebat untuk melihat distribusi data empiris.
sumber
Saran: Histogram biasanya hanya menetapkan data sumbu x untuk terjadi di titik tengah nampan dan menghilangkan ukuran sumbu x lokasi yang lebih akurat. Efeknya pada derivatif of fit bisa sangat besar. Mari kita ambil contoh sepele. Misalkan kita mengambil derivasi klasik dari delta Dirac tetapi memodifikasinya sehingga kita mulai dengan distribusi Cauchy di beberapa lokasi median arbitrer dengan skala terbatas (lebar penuh setengah-maksimum). Lalu kita ambil batasnya saat skalanya menjadi nol. Jika kami menggunakan definisi klasik histogram dan tidak mengubah ukuran nampan kami tidak akan menangkap lokasi atau skala. Namun, jika kami menggunakan lokasi median di dalam nampan bahkan dengan lebar tetap, kami akan selalu menangkap lokasi, jika bukan skala saat skala relatif kecil terhadap lebar nampan.
Untuk nilai pas di mana data miring, menggunakan titik tengah bin tetap akan sumbu x menggeser seluruh segmen kurva di wilayah itu, yang saya percaya berhubungan dengan pertanyaan di atas.
LANGKAH 1 Ini hampir merupakan solusi. Saya menggunakann=8 di setiap kategori histogram, dan hanya menampilkan ini sebagai nilai sumbu x rata-rata dari setiap nampan. Karena setiap nampan histogram memiliki nilai 8, distribusi semua terlihat seragam, dan saya harus mengimbanginya secara vertikal untuk menunjukkannya. Layar bukan jawaban yang benar, tetapi bukan tanpa informasi. Ini dengan benar memberi tahu kita bahwa ada offset sumbu x antar grup. Ini juga memberi tahu kita bahwa distribusi aktual tampaknya sedikit berbentuk U. Mengapa? Perhatikan bahwa jarak antara nilai rata-rata lebih jauh di tengah-tengah, dan lebih dekat di tepi. Jadi, untuk menjadikan ini representasi yang lebih baik, kita harus meminjam seluruh sampel dan jumlah fraksional dari setiap sampel batas bin untuk membuat semua nilai rata-rata bin pada sumbu x sama. Memperbaiki ini dan menampilkannya dengan benar akan membutuhkan sedikit pemrograman. Tapi, itu mungkin hanya cara untuk membuat histogram sehingga mereka benar-benar menampilkan data yang mendasarinya dalam beberapa format logis. Bentuknya masih akan berubah jika kita mengubah jumlah total sampah yang mencakup rentang data, tetapi idenya adalah untuk menyelesaikan beberapa masalah yang dibuat oleh binning secara sewenang-wenang.
LANGKAH 2 Jadi mari kita mulai meminjam di antara tempat sampah untuk mencoba membuat cara lebih merata.
Sekarang, kita bisa melihat bentuk histogram mulai muncul. Tetapi perbedaan antara rata-rata tidak sempurna karena kami hanya memiliki jumlah sampel penuh untuk ditukar antar sampah. Untuk menghapus batasan nilai integer pada sumbu y dan menyelesaikan proses pembuatan nilai rata-rata sumbu x yang sama, kita harus mulai berbagi fraksi sampel di antara nampan.
Langkah 3 Berbagi nilai dan bagian dari nilai.
Seperti yang dapat dilihat, pembagian bagian dari nilai pada batas bin dapat meningkatkan keseragaman jarak antara nilai rata-rata. Saya berhasil melakukan ini ke tiga tempat desimal dengan data yang diberikan. Namun, saya tidak bisa, saya tidak berpikir, membuat jarak antara nilai rata-rata persis sama secara umum, karena kekasaran data tidak akan mengizinkan itu.
Namun, seseorang dapat melakukan hal-hal lain seperti menggunakan estimasi kepadatan kernel .
Di sini kita melihat data Annie sebagai kepadatan kernel terbatas menggunakan pemulusan Gaussian 0,1, 0,2, dan 0,4. Subjek lain akan memiliki fungsi bergeser dari tipe yang sama, asalkan seseorang melakukan hal yang sama seperti yang saya lakukan, yaitu menggunakan batas bawah dan atas dari setiap kumpulan data. Jadi, ini bukan lagi histogram, melainkan PDF, dan ini melayani peran yang sama dengan histogram tanpa beberapa kutil.
sumber