Perlu bantuan mengidentifikasi distribusi dengan histogramnya

13

Saya memiliki populasi sampel dari maxima amplitudo terdaftar sinyal tertentu. Populasi adalah sekitar 15 juta sampel. Saya menghasilkan histogram populasi, tetapi tidak dapat menebak distribusi dengan histogram tersebut.

EDIT1: File dengan nilai sampel mentah ada di sini: data mentah

Adakah yang bisa membantu memperkirakan distribusi dengan histogram berikut: masukkan deskripsi gambar di sini

mbaitoff
sumber
1
bukan berarti itu penting secara dramatis tetapi ketika menggunakan histogram biasanya membantu untuk memiliki frekuensi relatif daripada frekuensi absolut pada sumbu y.
posdef
yaitu, untuk memberikan 120000/15000000 = 0,008, bukannya 120000 pada sumbu vertikal?
mbaitoff
@ MBaitoff: Komentar Anda untuk jawaban schenectady menunjukkan, bahwa Anda kurang tertarik untuk mendapatkan nama distribusi tetapi dalam mencari tahu MENGAPA nilainya didistribusikan dengan cara ini. Apakah ini benar ?
steffen
1
m
2
Minat nyata pada data ini terletak pada lusinan atau lebih lonjakan: jumlah data cukup besar sehingga nyata , dalam arti bahwa mereka adalah bukti mode lokal aktual. Tampaknya ada satu set data yang kaya di sini dengan banyak informasi yang akan diabaikan adalah rumus parametrik sederhana yang digunakan untuk meringkas distribusinya.
whuber

Jawaban:

23

Gunakan fitdistrplus:

Inilah tautan CRAN ke fitdistrplus.

Inilah tautan sketsa lama untuk fitdistrplus.

Jika tautan sketsa tidak berfungsi, lakukan pencarian untuk "Gunakan fitdistrplus perpustakaan untuk menentukan distribusi dari data".

Vinyet melakukan pekerjaan yang baik untuk menjelaskan cara menggunakan paket. Anda dapat melihat bagaimana berbagai distribusi cocok dalam waktu singkat. Ini juga menghasilkan Diagram Cullen / Frey.

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

bill_080
sumber
(+1): Tidak tahu paket itu sebelumnya.
steffen
1
(+1 (tidak tahu itu disebut diagram Cullen / Frey. Saya harus memikirkannya sendiri pada satu titik.
Glen_b -Reinstate Monica
gambar kedua dengan plotdistcomamnd? Bagaimana saya bisa mendapatkan Diagram Cullen / Frey?
juanpablo
1
@ juanpablo - Coba descdist(). Saya memperbarui posting di atas untuk memasukkan beberapa kode dan tautan ke sketsa lama. Saya tidak bisa mendapatkan tautan sketsa di atas untuk bekerja. Jadi, Google yang berikut ini: "Penggunaan fitdistrplus perpustakaan untuk menentukan distribusi dari data". Ini adalah file .pdf.
bill_080
3
@ juanpablo - Pernyataan ini f1g <- fitdist(x1, "gamma")sesuai dengan distribusi gamma ke data asli x1dan menyimpannya di f1g. Grafik kiri atas dalam plot(f1g)menunjukkan histogram untuk data asli x1sebagai bilah, dan plot kepadatan gamma pas dari f1gsebagai garis kontinu. Plot kepadatan (garis kontinu) digambar di atas histogram sebagai indikasi seberapa baik "cocok" mewakili data.
bill_080
6

Populasi adalah sekitar 15 juta sampel.

Maka Anda kemungkinan besar akan dapat menolak distribusi tertentu dari formulir sederhana dan tertutup.

Bahkan benjolan kecil di sebelah kiri grafik sepertinya cukup untuk membuat kita mengatakan 'jelas bukan ini dan itu'.

Di sisi lain, itu mungkin cukup baik diperkirakan oleh sejumlah distribusi umum; kandidat yang jelas adalah hal-hal seperti lognormal dan gamma, tetapi ada sejumlah lainnya. Jika Anda melihat log dari variabel-x, Anda mungkin dapat memutuskan apakah lognormal baik-baik saja pada pandangan (setelah mengambil log, histogram akan terlihat simetris).

Jika log dibiarkan miring, pertimbangkan apakah Gamma baik-baik saja, jika miring kanan, pertimbangkan apakah inversi Gamma atau (bahkan lebih condong) inversi Gaussian tidak apa-apa. Tetapi latihan ini lebih merupakan menemukan distribusi yang cukup dekat untuk hidup; tidak satu pun dari saran ini yang benar-benar memiliki semua fitur yang tampaknya ada di sana.

Jika Anda memiliki teori apa pun untuk mendukung pilihan, buang semua diskusi ini dan gunakan itu.

Glen_b -Reinstate Monica
sumber
Wow, seperti apa intuisinya tentang masalah itu; bagus! :)
onurcanbektas
1

Saya tidak yakin mengapa Anda ingin mengklasifikasikan sampel ke distribusi tertentu dengan ukuran sampel yang besar; kekikiran, membandingkannya dengan sampel lain, mencari interpretasi fisik dari parameter?

Sebagian besar paket statistik (R, SAS, Minitab) memungkinkan seseorang untuk memplot data pada grafik yang menghasilkan garis lurus jika data berasal dari distribusi tertentu. Saya telah melihat grafik yang menghasilkan garis lurus jika data normal (log normal-setelah transformasi log), Weibull, dan chi-squared segera datang untuk menambang. Teknik ini akan memungkinkan Anda untuk melihat outlier dan memberi Anda kemungkinan untuk menetapkan alasan mengapa poin data outlier. Dalam R, plot probabilitas normal disebut qqnorm.

schenectady
sumber
Ide bagus menyarankan qqplot. Namun, saya pikir penjelasan Anda tentang teknik ini agak kabur / sulit dimengerti. Bisakah Anda memberikan beberapa kode-R yang patut dicontoh? Ini akan meningkatkan nilai jawaban secara drastis.
steffen
Saya berharap seseorang menemukan gambar seperti milik saya dan menyelidiki distribusi yang mendasarinya, karena nilainya memiliki dasar fisik.
mbaitoff
Saya sedang menyelidiki latar belakang fisik dari distribusi sampel - bagaimana distribusi dan mengapa.
mbaitoff