Jumlah optimal tempat sampah dalam histogram oleh aturan Freedman-Diaconis: perbedaan antara tingkat teoritis dan jumlah aktual

Wikipedia melaporkan bahwa di bawah aturan Freedman dan Diaconis, jumlah optimal tempat sampah dalam histogram, harus tumbuh sebagai $k$

k \sim n^{1 / 3}

$k\sim n^{1/3}$

di mana adalah ukuran sampel. $n$

Namun, Jika Anda melihat nclass.FDfungsi dalam R, yang mengimplementasikan aturan ini, setidaknya dengan data Gaussian dan ketika , jumlah tampaknya tumbuh pada tingkat yang lebih cepat daripada , lebih dekat ke (sebenarnya, yang paling cocok menyarankan ). Apa alasan untuk perbedaan ini? $\log(n)\in(8,16)$ $n^{1/3}$ $n^{1-\sqrt{1/3}}$ $m\approx n^{0.4}$

Edit: info lebih lanjut:

masukkan deskripsi gambar di sini

Garis adalah OLS satu, dengan mencegat 0.429 dan kemiringan 0.4. Dalam setiap kasus, data ( x) dihasilkan dari gaussian standar dan dimasukkan ke dalam nclass.FD. Plot menggambarkan ukuran (panjang) vektor vs jumlah kelas optimal yang dikembalikan oleh nclass.FDfungsi.

Mengutip dari wikipedia:

Alasan yang bagus mengapa jumlah sampah harus proporsional $n^{1/3}$ adalah sebagai berikut: anggaplah bahwa data diperoleh sebagai realisasi n independen dari distribusi probabilitas terbatas dengan kepadatan halus. Maka histogram tetap sama "kasar" karena n cenderung tak hingga. Jika $s$ adalah »lebar« dari distribusi (mis., standar deviasi atau kisaran antar kuartil), maka jumlah unit dalam nampan (frekuensi) sesuai urutan $n h/s$ dan kesalahan standar relatif adalah urutan $\sqrt{s/(n h)}$ . Dibandingkan dengan tempat sampah berikutnya, perubahan relatif dari frekuensi adalah urutan $h/s$ dengan ketentuan bahwa turunan dari kerapatan adalah bukan nol. Keduanya memiliki urutan yang sama jika $h$ teratur $s/n^{1/3}$ , maka $k$ teratur $n^{1/3}$ .

Aturan Freedman – Diaconis adalah:

h = 2 \frac{IQR (x)}{n^{1 / 3}}

$h=2\frac{\operatorname{IQR}(x)}{n^{1/3}}$

histogram rule-of-thumb pengguna603
sumber

Seingat saya nomor bin sebanding dengan

n^{1 / 3}

$n^{1/3}$ , tidak seperti yang dilaporkan di atas.

Nick Cox

Sudah larut malam bagi saya untuk memeriksa literatur, tetapi formula Anda tidak berbunyi dengan saya.

Nick Cox

Tentunya ini tidak lebih dari aturan praktis yang masuk akal, dan karenanya perbedaan tidak ada impor teoretis. Apakah ada yang lebih dari itu?

Michael Lew

Anda tidak merencanakan

h

$h$ ; Anda tampaknya merencanakan

k = Range n^{1 / 3} / (2 IQR)

$k = \text{Range }n^{1/3}/(2\text{ IQR})$ (tercakup). Kecuali Anda menstandarkan data ke nilai konstan

Range / IQR

$\text{Range}/\text{IQR}$ , maka plot ini mengacaukan perubahan dalam kisaran dengan perubahan dalam

k

$k$ (mungkin IQR akan cukup stabil). Jadi apa yang Anda lakukan untuk menghasilkan plot ini?

whuber

@whuber: ya itulah yang menyebabkan perbedaan: Saya lupa menyesuaikan kenaikan kisaran.

user603

Alasannya berasal dari fakta bahwa fungsi histogram diharapkan mencakup semua data, sehingga harus menjangkau rentang data.

Aturan Freedman-Diaconis memberikan rumus untuk lebar tempat sampah.

Fungsi ini memberikan formula untuk jumlah nampan.

Hubungan antara jumlah tempat sampah dan lebar tempat sampah akan dipengaruhi oleh rentang data.

Dengan data Gaussian, rentang yang diharapkan meningkat dengan $n$ .

Inilah fungsinya:

> nclass.FD
function (x) 
{
    h <- stats::IQR(x)
    if (h == 0) 
        h <- stats::mad(x, constant = 2)
    if (h > 0) 
        ceiling(diff(range(x))/(2 * h * length(x)^(-1/3)))
    else 1L
}
<bytecode: 0x086e6938>
<environment: namespace:grDevices>

diff(range(x)) adalah rentang data.

Jadi seperti yang kita lihat, ia membagi rentang data dengan rumus FD untuk lebar bin (dan dibulatkan ke atas) untuk mendapatkan jumlah sampah.

Sepertinya saya bisa lebih jelas, jadi inilah penjelasan yang lebih terperinci:
Aturan Freedman-Diaconis yang sebenarnya bukan aturan untuk jumlah tempat sampah, tetapi untuk lebar tempat sampah. Dengan analisis mereka, lebar bin harus sebanding dengan $n^{−1/3}$ . Karena lebar total histogram harus terkait erat dengan rentang sampel (mungkin sedikit lebih lebar, karena pembulatan ke angka yang bagus), dan rentang yang diharapkan berubah dengan $n$ , jumlah tempat sampah tidak berbanding terbalik dengan lebar bin, tetapi harus meningkat lebih cepat dari itu. Jadi jumlah tempat sampah seharusnya tidak bertambah $n^{1/3}$ - Dekat dengan itu, tetapi sedikit lebih cepat, karena cara rentang masuk ke dalamnya.

Melihat data dari tabel 1925 Tippett [1], kisaran yang diharapkan dalam sampel normal standar tampaknya tumbuh cukup lambat $n$ , meskipun - lebih lambat dari $\log(n)$ :

masukkan deskripsi gambar di sini

(Memang, amuba menunjukkan dalam komentar di bawah ini bahwa itu harus proporsional - atau hampir begitu - untuk $\sqrt{\log(n)}$ , yang tumbuh lebih lambat dari yang tampaknya disarankan oleh analisis Anda. Ini membuat saya bertanya-tanya apakah ada masalah lain yang masuk, tetapi saya belum menyelidiki apakah efek rentang ini sepenuhnya menjelaskan data Anda.)

Pandangan cepat pada angka Tippett (yang naik ke n = 1000) menunjukkan bahwa kisaran yang diharapkan dalam Gaussian sangat dekat dengan linear pada $\sqrt{\log(n)}$ lebih $10\leq n\leq 1000$ , tetapi tampaknya tidak proporsional untuk nilai dalam rentang ini.

masukkan deskripsi gambar di sini

[1]: LHC Tippett (1925). "Pada Individu Ekstrim dan Rentang Sampel Diambil dari Populasi Normal". Biometrika 17 (3/4): 364-387

Glen_b -Reinstate Monica
sumber

Tidak juga, tidak. Lebih detail ditambahkan.

Glen_b -Reinstate Monica

Aturan Freedman-Diaconis yang sebenarnya bukan aturan untuk jumlah tempat sampah, tetapi untuk lebar bin. Dengan analisis mereka, lebar bin harus sebanding dengan

n^{- 1 / 3}

$n^{-1/3}$ . Karena lebar total histogram harus terkait erat dengan rentang sampel (mungkin sedikit lebih lebar, karena pembulatan ke angka yang bagus), dan rentang yang diharapkan berubah dengan

n

$n$ , jumlah tempat sampah tidak berbanding terbalik dengan lebar bin. Jadi jumlah tempat sampah seharusnya tidak bertambah

n^{1 / 3}

$n^{1/3}$ - setidaknya tidak cukup, karena cara rentang masuk ke dalamnya.

Glen_b -Reinstate Monica

Alasan yang Anda kutip dari wikipedia dalam pertanyaan Anda tidak mempertimbangkan efek rentang sampel.

Glen_b -Reinstate Monica

Saya pikir ini menyelesaikannya.

user603

Jika saya menerapkan posting math.SE ini dengan benar, rentangnya akan bertambah sebagai

\sqrt{\log (n)}

$\sqrt{\log(n)}$ .

amoeba

Jumlah optimal tempat sampah dalam histogram oleh aturan Freedman-Diaconis: perbedaan antara tingkat teoritis dan jumlah aktual

Jawaban: