Tidak ada jumlah tempat sampah terbaik untuk memperkirakan informasi timbal balik (MI) dengan histogram. Cara terbaik adalah memilihnya melalui cross-validation jika Anda bisa, atau mengandalkan aturan praktis. Inilah alasan mengapa banyak penaksir MI lainnya yang tidak berdasarkan histogram telah diusulkan.
nnp.histogram2d(x, y, D)
D
x
y
D = ⌊ n / 5---√⌋
5nDXDY≥ 5 ⇒ nD2≥ 5 ⇒ D2≤ n / 5 ⇒ D = ⌊ n / 5---√⌋
nn = 100 , 000
Memperkirakan jumlah nampan untuk histogram adalah masalah lama. Anda mungkin tertarik dengan ceramah ini oleh Lauritz Dieckman tentang memperkirakan jumlah nampan untuk MI. Pembicaraan ini didasarkan pada bab dalam Mike X Cohen buku tentang saraf time-series.
DXDY
IQR
DX= ⌈ maks X- min X2 ⋅ IQR ⋅ n- 1 / 3⌉
IQR
Aturan Scott (asumsi normalitas):
mana adalah deviasi standar untuk .sXX
DX= ⌈ maks X- min X3,5 ⋅ sX⋅ n- 1 / 3⌉
sXX
Aturan Sturges (mungkin meremehkan jumlah tetapi bagus untuk besar ):
D X = ⌈ 1 + log 2 n ⌉n
DX= ⌈ 1 + log2n ⌉
Sulit untuk memperkirakan MI dengan histogram dengan benar. Anda kemudian dapat memilih penduga yang berbeda:
- Estimator NN Kraskov , yang agak kurang sensitif terhadap pilihan parameter: atau tetangga terdekat sering digunakan sebagai default. Paper: (Kraskov, 2003)k = 4 k = 6kk = 4k = 6
- Estimasi MI dengan kernel (Moon, 1995) .
Ada banyak paket untuk memperkirakan MI:
- Toolbox Estimasi Entropi Non-Parametrik untuk Python. situs .
- Perangkat informasi-dinamika di Jawa tetapi tersedia juga untuk Python. situs .
- Kotak alat ITE di Matlab. situs .