Saya memiliki populasi sampel dari maxima amplitudo terdaftar sinyal tertentu. Populasi adalah sekitar 15 juta sampel. Saya menghasilkan histogram populasi, tetapi tidak dapat menebak distribusi dengan histogram tersebut.
EDIT1: File dengan nilai sampel mentah ada di sini: data mentah
Adakah yang bisa membantu memperkirakan distribusi dengan histogram berikut:
distributions
histogram
mbaitoff
sumber
sumber
Jawaban:
Gunakan fitdistrplus:
Inilah tautan CRAN ke fitdistrplus.
Inilah tautan sketsa lama untuk fitdistrplus.
Jika tautan sketsa tidak berfungsi, lakukan pencarian untuk "Gunakan fitdistrplus perpustakaan untuk menentukan distribusi dari data".
Vinyet melakukan pekerjaan yang baik untuk menjelaskan cara menggunakan paket. Anda dapat melihat bagaimana berbagai distribusi cocok dalam waktu singkat. Ini juga menghasilkan Diagram Cullen / Frey.
sumber
plotdist
comamnd? Bagaimana saya bisa mendapatkan Diagram Cullen / Frey?descdist()
. Saya memperbarui posting di atas untuk memasukkan beberapa kode dan tautan ke sketsa lama. Saya tidak bisa mendapatkan tautan sketsa di atas untuk bekerja. Jadi, Google yang berikut ini: "Penggunaan fitdistrplus perpustakaan untuk menentukan distribusi dari data". Ini adalah file .pdf.f1g <- fitdist(x1, "gamma")
sesuai dengan distribusi gamma ke data aslix1
dan menyimpannya dif1g
. Grafik kiri atas dalamplot(f1g)
menunjukkan histogram untuk data aslix1
sebagai bilah, dan plot kepadatan gamma pas darif1g
sebagai garis kontinu. Plot kepadatan (garis kontinu) digambar di atas histogram sebagai indikasi seberapa baik "cocok" mewakili data.Maka Anda kemungkinan besar akan dapat menolak distribusi tertentu dari formulir sederhana dan tertutup.
Bahkan benjolan kecil di sebelah kiri grafik sepertinya cukup untuk membuat kita mengatakan 'jelas bukan ini dan itu'.
Di sisi lain, itu mungkin cukup baik diperkirakan oleh sejumlah distribusi umum; kandidat yang jelas adalah hal-hal seperti lognormal dan gamma, tetapi ada sejumlah lainnya. Jika Anda melihat log dari variabel-x, Anda mungkin dapat memutuskan apakah lognormal baik-baik saja pada pandangan (setelah mengambil log, histogram akan terlihat simetris).
Jika log dibiarkan miring, pertimbangkan apakah Gamma baik-baik saja, jika miring kanan, pertimbangkan apakah inversi Gamma atau (bahkan lebih condong) inversi Gaussian tidak apa-apa. Tetapi latihan ini lebih merupakan menemukan distribusi yang cukup dekat untuk hidup; tidak satu pun dari saran ini yang benar-benar memiliki semua fitur yang tampaknya ada di sana.
Jika Anda memiliki teori apa pun untuk mendukung pilihan, buang semua diskusi ini dan gunakan itu.
sumber
Saya tidak yakin mengapa Anda ingin mengklasifikasikan sampel ke distribusi tertentu dengan ukuran sampel yang besar; kekikiran, membandingkannya dengan sampel lain, mencari interpretasi fisik dari parameter?
Sebagian besar paket statistik (R, SAS, Minitab) memungkinkan seseorang untuk memplot data pada grafik yang menghasilkan garis lurus jika data berasal dari distribusi tertentu. Saya telah melihat grafik yang menghasilkan garis lurus jika data normal (log normal-setelah transformasi log), Weibull, dan chi-squared segera datang untuk menambang. Teknik ini akan memungkinkan Anda untuk melihat outlier dan memberi Anda kemungkinan untuk menetapkan alasan mengapa poin data outlier. Dalam R, plot probabilitas normal disebut qqnorm.
sumber