Di bawah ini adalah histogram dari beberapa data, nampan adalah bilangan bulat, parameter lainnya tidak relevan.
Seperti yang Anda lihat, tampaknya ada dua distribusi normal yang terpisah tetapi tumpang tindih untuk angka ganjil dan genap.
Probabilitas menjadi bilangan genap adalah 1/3, juga 2/3 untuk bilangan ganjil.
Saya tidak memiliki gagasan tentang signifikansi statistik aktual ini agar jujur, jadi saya mencoba mencari tahu apa artinya mempelajari lebih lanjut, tetapi saya tidak dapat menemukan apa pun, saya sudah mencoba banyak istilah pencarian untuk menemukan ini dan bahkan membalikkan pencarian gambar tetapi yang saya dapatkan hanyalah informasi tentang distribusi multimodal dll. dan saya tidak dapat menemukan apa pun ketika distribusi multimoda benar-benar tumpang tindih dengan cara ini
Apakah ada nama untuk ini?
Bagi mereka yang tertarik datanya dari 1.000.000 game acak goofspiel (N = 13) menggunakan skrip matlab
N = 1000000;
random = zeros(1,N);
for i = 1 : N
pc = randperm(13);
p1 = randperm(13);
p2 = randperm(13);
random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')
Contoh yang lebih umum (meskipun buatan) adalah sebagai berikut
a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
if(d(i))
c(i) = b(i);
end
end
bar(c)
Seperti contoh pertama ada dua distribusi yang tumpang tindih (segitiga dan normal), tetapi dalam hal ini alih-alih berganti pada setiap titik, itu acak.
Saya tahu ini adalah contoh yang dilebih-lebihkan (dan bahkan bukan histogram) tetapi harus ada contoh hal semacam ini yang benar-benar terjadi dengan data statistik bukan? Kemudian lagi mungkin tidak, atau itu sama sekali tidak relevan?
Pertanyaan sebenarnya ada dua:
Pertanyaan umum - Apa jenis "benda" ini, jika ada? - agar saya (atau siapa pun yang mungkin akan menemukannya) dapat mempelajari lebih lanjut tentang hal itu dan jika ada penyesuaian yang perlu dilakukan.
Pertanyaan yang secara spesifik berkaitan dengan dataset pertama saya - haruskah saya memisahkan nilai ganjil dan genap atau cocok dengan distribusi normal ke seluruh rangkaian?
sumber
Jawaban:
Jawaban ini bukan jawaban langsung untuk pertanyaan Anda, karena ini berkaitan dengan penyebab yang berbeda dari pola tersebut.
Tapi itu memang berhubungan dengan tampilan grafis yang sama, dan karena itu saya mempostingnya sebagai jawaban daripada komentar (sebelum membaca skrip Matlab Anda, saya benar-benar berpikir pola dalam histogram Anda adalah karena penyebab yang berbeda ini).
Pertanyaan Anda membuat saya mengunjungi kembali histogram yang saya masukkan dalam jawaban untuk pertanyaan terakhir.
Saya menggunakan binsize 1, sedangkan jarak antara hasil (diskrit) adalah 0,538. Membuat bilah histogram untuk diplot sesekali dengan jumlah untuk satu nilai, bukan jumlah untuk dua nilai.
Setelah menyesuaikan ukuran nampan histogram muncul lebih khas
Dalam kasus ini, kita dapat menyebut pola itu sebagai pola Moiré , yang merupakan penampilan pita cahaya dan gelap buatan karena ketidaksejajaran dua skala diskrit.
Dalam kasus Anda, bagaimanapun, pola periodik bukan efek buatan dalam histogram tetapi perilaku yang benar-benar periodik dalam fungsi massa probabilitas. Ngomong-ngomong, saya pikir ada baiknya menyebutkan pola Moiré yang terkait ini.
sumber
Maaf, saya tidak tahu nama mapan, tetapi untuk menjawab pertanyaan kedua Anda:
Saya pikir Anda harus memisahkan mereka. Analisis Anda telah menemukan bahwa faktor / prediktor terpenting adalah jika inputnya ganjil atau genap, jadi untuk menggabungkannya adalah mengaburkan kedua distribusi, dan menjadikannya kurang berguna (*).
*: Tentu saja, itu sangat tergantung pada definisi Anda tentang berguna. Saya mendekati dari sudut pandang Anda memiliki beberapa input dan ingin membuat model untuk memprediksi beberapa output. Setelah kita tahu ini penting, saya ingin memberikan model petunjuk bahwa paritas dari satu / beberapa input penting.
Ngomong-ngomong, seperti dalam jawaban Martijn Weterings, ketika saya memiliki histogram bergerigi seperti ini sebelumnya, itu terkait dengan pilihan ukuran bin. Itu membuat saya menyadari bahwa percobaan dengan ukuran nampan adalah alat lain di kotak alat Berbohong Dengan Statistik :-)
sumber