Histogram dengan Bins seragam vs non-seragam

10

Pertanyaan ini menjelaskan perbedaan mendasar antara histogram yang seragam dan yang tidak seragam. Dan pertanyaan ini membahas aturan praktis untuk memilih jumlah tempat sampah dari histogram seragam yang mengoptimalkan (dalam arti tertentu) sejauh mana histogram mewakili distribusi dari mana sampel data diambil.

Sepertinya saya tidak dapat menemukan diskusi "optimalitas" yang sama tentang histogram seragam dan tidak seragam. Saya memiliki distribusi nonparametrik yang terkelompok dengan outlier yang jauh sehingga histogram yang tidak seragam secara intuitif lebih masuk akal. Tetapi saya ingin melihat analisis yang lebih tepat dari dua pertanyaan berikut:

  1. Kapan histogram uniform-bin lebih baik daripada bin non-uniform?
  2. Berapa jumlah tempat sampah yang baik untuk histogram yang tidak seragam?

Untuk histogram yang tidak seragam, saya dianggap sebagai kasus paling sederhana di mana kami mengambil sampel dari distribusi yang tidak diketahui, memesan nilai dihasilkan , dan memisahkannya ke dalam bin sehingga setiap bin memiliki dari semua ini sampel (dengan asumsi bahwa untuk beberapa bilangan bulat besar ). Rentang ini dibentuk dengan mengambil titik tengah antara dari nilai-nilai di bin i dan \ min dari nilai-nilai di bin i + 1 . Di sini dan di sini ada tautan yang menggambarkan jenis histogram yang tidak seragam ini.n k knnkknnckcmaxmin i + 1imini+1

Alan Turing
sumber
Hampir tidak ada informasi yang cukup untuk dijawab (2). Bagaimana kondisi ketidakseragaman? Bisakah Anda memilih tempat sampah yang Anda suka, atau ada batasan? Apa yang ingin Anda optimalkan? mis. Anda ingin rata-rata kesalahan kuadrat terintegrasi rata antara dan ? Atau sesuatu yang lain? fff^
Glen_b -Reinstate Monica
@ Glen_b Saya jelaskan sedikit lebih detail jenis histogram yang saya pertimbangkan dalam case bin yang tidak seragam.
Alan Turing
Periksa hasil edit Anda. Apakah maksud Anda "n = cm" daripada "cn"? Juga ada salah ketik nanti.
Glen_b -Reinstate Monica
Apakah Anda mencoba menyampaikan sesuatu seperti ini ?
Glen_b -Reinstate Monica
Lihat juga diskusi tentang kompromi antara itu dan histogram yang biasa
Glen_b -Reinstate Monica

Jawaban:

7

Kapan histogram uniform-bin lebih baik daripada bin non-uniform?

Ini membutuhkan semacam identifikasi dari apa yang kami upayakan untuk optimalkan; banyak orang mencoba untuk mengoptimalkan rata-rata kesalahan kuadrat rata-rata terintegrasi, tetapi dalam banyak kasus saya pikir itu agak melenceng dari melakukan histogram; sering (di mataku) 'oversmooths'; untuk alat eksplorasi seperti histogram, saya bisa mentolerir lebih banyak kekasaran, karena kekasaran itu sendiri memberi saya rasa sejauh mana saya harus "menghaluskan" dengan mata; Saya cenderung setidaknya menggandakan jumlah sampah yang biasa dari aturan seperti itu, terkadang jauh lebih banyak. Saya cenderung setuju dengan Andrew Gelman tentang ini; memang jika minat saya benar-benar mendapatkan AIMSE yang baik, saya mungkin tidak seharusnya mempertimbangkan histogram.

Jadi kita perlu kriteria.

Mari saya mulai dengan membahas beberapa opsi histogram area yang tidak sama:

Ada beberapa pendekatan yang melakukan lebih banyak penghalusan (lebih sedikit, tempat sampah yang lebih luas) di daerah dengan kepadatan lebih rendah dan memiliki tempat sampah yang lebih sempit di mana kerapatan lebih tinggi - seperti histogram "sama luas" atau "jumlah sama". Pertanyaan Anda yang diedit tampaknya mempertimbangkan kemungkinan jumlah yang sama.

The histogramfungsi dalam R latticepaket dapat menghasilkan kira-kira sama-area bar:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

perbandingan lebar dan luas yang sama

Celupkan ke kanan bin paling kiri bahkan lebih jelas jika Anda mengambil akar keempat; dengan tempat sampah dengan lebar yang sama Anda tidak dapat melihatnya kecuali jika Anda menggunakan 15 hingga 20 kali lebih banyak tempat sampah, dan kemudian ekor kanan terlihat mengerikan.

Ada histogram dengan jumlah yang sama di sini , dengan kode-R, yang menggunakan sampel-kuantil untuk menemukan jeda.

Misalnya, pada data yang sama seperti di atas, inilah 6 nampan dengan (semoga) masing-masing 8 pengamatan:

equalcount histogram

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

Pertanyaan CV ini menunjuk pada sebuah makalah oleh Denby dan Mallows versi yang dapat diunduh dari sini yang menggambarkan kompromi antara tempat sampah dengan lebar yang sama dan tempat yang sama luasnya.

Ini juga membahas pertanyaan-pertanyaan yang Anda miliki sampai batas tertentu.

Anda mungkin dapat mempertimbangkan masalah tersebut sebagai salah satu dari mengidentifikasi jeda dalam proses Poisson yang konstan-satu. Itu akan menyebabkan pekerjaan seperti ini . Ada juga kemungkinan terkait melihat algoritma tipe clustering / klasifikasi pada (katakanlah) jumlah Poisson, beberapa algoritma yang akan menghasilkan sejumlah sampah. Clustering telah digunakan pada histogram 2D ​​( gambar , efeknya) untuk mengidentifikasi daerah yang relatif homogen.

-

Jika kami memiliki histogram jumlah yang sama, dan beberapa kriteria untuk dioptimalkan, kami kemudian dapat mencoba rentang jumlah per bin dan mengevaluasi kriteria dengan beberapa cara. Makalah Wand yang disebutkan di sini [ kertas , atau kertas kerja pdf ] dan beberapa rujukannya (misalnya untuk kertas Sheather dkk misalnya) menguraikan perkiraan "colokkan" lebar bin berdasarkan ide perataan kernel untuk mengoptimalkan AIMSE; secara garis besar pendekatan semacam itu harus dapat beradaptasi dengan situasi ini, meskipun saya tidak ingat melihatnya dilakukan.

Glen_b -Reinstate Monica
sumber