Wikipedia melaporkan bahwa di bawah aturan Freedman dan Diaconis, jumlah optimal tempat sampah dalam histogram, harus tumbuh sebagai
di mana adalah ukuran sampel.
Namun, Jika Anda melihat nclass.FD
fungsi dalam R, yang mengimplementasikan aturan ini, setidaknya dengan data Gaussian dan ketika , jumlah tampaknya tumbuh pada tingkat yang lebih cepat daripada , lebih dekat ke (sebenarnya, yang paling cocok menyarankan ). Apa alasan untuk perbedaan ini?
Edit: info lebih lanjut:
Garis adalah OLS satu, dengan mencegat 0.429 dan kemiringan 0.4. Dalam setiap kasus, data ( x
) dihasilkan dari gaussian standar dan dimasukkan ke dalam nclass.FD
. Plot menggambarkan ukuran (panjang) vektor vs jumlah kelas optimal yang dikembalikan oleh nclass.FD
fungsi.
Mengutip dari wikipedia:
Alasan yang bagus mengapa jumlah sampah harus proporsional adalah sebagai berikut: anggaplah bahwa data diperoleh sebagai realisasi n independen dari distribusi probabilitas terbatas dengan kepadatan halus. Maka histogram tetap sama "kasar" karena n cenderung tak hingga. Jika adalah »lebar« dari distribusi (mis., standar deviasi atau kisaran antar kuartil), maka jumlah unit dalam nampan (frekuensi) sesuai urutan dan kesalahan standar relatif adalah urutan . Dibandingkan dengan tempat sampah berikutnya, perubahan relatif dari frekuensi adalah urutandengan ketentuan bahwa turunan dari kerapatan adalah bukan nol. Keduanya memiliki urutan yang sama jika teratur , maka teratur .
Aturan Freedman – Diaconis adalah:
sumber
Jawaban:
Alasannya berasal dari fakta bahwa fungsi histogram diharapkan mencakup semua data, sehingga harus menjangkau rentang data.
Aturan Freedman-Diaconis memberikan rumus untuk lebar tempat sampah.
Fungsi ini memberikan formula untuk jumlah nampan.
Hubungan antara jumlah tempat sampah dan lebar tempat sampah akan dipengaruhi oleh rentang data.
Dengan data Gaussian, rentang yang diharapkan meningkat dengann .
Inilah fungsinya:
diff(range(x))
adalah rentang data.Jadi seperti yang kita lihat, ia membagi rentang data dengan rumus FD untuk lebar bin (dan dibulatkan ke atas) untuk mendapatkan jumlah sampah.
Sepertinya saya bisa lebih jelas, jadi inilah penjelasan yang lebih terperinci:n- 1 / 3 . Karena lebar total histogram harus terkait erat dengan rentang sampel (mungkin sedikit lebih lebar, karena pembulatan ke angka yang bagus), dan rentang yang diharapkan berubah dengann , jumlah tempat sampah tidak berbanding terbalik dengan lebar bin, tetapi harus meningkat lebih cepat dari itu. Jadi jumlah tempat sampah seharusnya tidak bertambahn1 / 3 - Dekat dengan itu, tetapi sedikit lebih cepat, karena cara rentang masuk ke dalamnya.
Aturan Freedman-Diaconis yang sebenarnya bukan aturan untuk jumlah tempat sampah, tetapi untuk lebar tempat sampah. Dengan analisis mereka, lebar bin harus sebanding dengan
Melihat data dari tabel 1925 Tippett [1], kisaran yang diharapkan dalam sampel normal standar tampaknya tumbuh cukup lambatn , meskipun - lebih lambat dari catatan( n ) :
(Memang, amuba menunjukkan dalam komentar di bawah ini bahwa itu harus proporsional - atau hampir begitu - untukcatatan( n )-----√ , yang tumbuh lebih lambat dari yang tampaknya disarankan oleh analisis Anda. Ini membuat saya bertanya-tanya apakah ada masalah lain yang masuk, tetapi saya belum menyelidiki apakah efek rentang ini sepenuhnya menjelaskan data Anda.)
Pandangan cepat pada angka Tippett (yang naik ke n = 1000) menunjukkan bahwa kisaran yang diharapkan dalam Gaussian sangat dekat dengan linear padacatatan( n )-----√ lebih 10 ≤ n ≤ 1000 , tetapi tampaknya tidak proporsional untuk nilai dalam rentang ini.
[1]: LHC Tippett (1925). "Pada Individu Ekstrim dan Rentang Sampel Diambil dari Populasi Normal". Biometrika 17 (3/4): 364-387
sumber