Bagaimana cara menghitung mean, varians, median, standar deviasi dan modus dari distribusi? Jika saya secara acak menghasilkan angka yang membentuk distribusi normal, saya telah menetapkan mean sebagai m=24.2
standar deviasi seperti sd=2.2
:
> dist = rnorm(n=1000, m=24.2, sd=2.2)
Maka saya bisa melakukan hal berikut:
Berarti:
> mean(dist)
[1] 24.17485
Perbedaan:
> var(dist)
[1] 4.863573
Median:
> median(dist)
[1] 24.12578
Standar deviasi:
> sqrt(var(dist))
[1] 2.205351
Mode alias Modus (diambil dari sini ):
> names(sort(-table(dist)))[1]
[1] "17.5788181686221"
- Apakah ini seluruh keajaiban, atau ada hal lain yang tidak saya sadari?
- Dapatkah saya memvisualisasikan distribusi normal berbentuk lonceng saya dengan garis vertikal yang mewakili (rata-rata, median ...)?
- Apa yang dikatakan atribut-atribut tersebut tentang distribusi?
PS: kode dalam R
r
distributions
mean
Wakan Tanka
sumber
sumber
Jawaban:
Pertama komentar umum pada mode:
Anda tidak boleh menggunakan pendekatan itu untuk mendapatkan mode (setidaknya secara nosional) data yang didistribusikan terus menerus; Anda tidak mungkin memiliki nilai berulang (kecuali jika Anda memiliki sampel yang sangat besar itu akan menjadi keajaiban kecil, dan bahkan kemudian berbagai masalah numerik dapat membuatnya berperilaku dengan cara yang agak tak terduga), dan umumnya Anda hanya akan mendapatkan nilai minimum yang cara. Ini akan menjadi salah satu cara untuk menemukan salah satu mode global dalam data diskrit atau kategorikal, tetapi saya mungkin tidak akan melakukannya dengan cara itu. Berikut adalah beberapa pendekatan lain untuk mendapatkan mode data diskrit atau kategorikal:
Jika Anda hanya menginginkan nilai dan bukan hitungan atau posisi,
names()
akan mendapatkannya dari ituUntuk mengidentifikasi mode (mungkin ada lebih dari satu mode lokal) untuk data kontinu dalam mode dasar, Anda bisa menampar data (seperti dengan histogram) atau Anda dapat memuluskannya (menggunakan
density
misalnya) dan mencoba menemukan satu atau lebih mode seperti itu.Jumlah histogram yang lebih sedikit akan membuat estimasi mode Anda lebih sedikit noise, tetapi lokasi tidak akan disematkan menjadi lebih baik daripada lebar bin (yaitu Anda hanya mendapatkan interval). Lebih banyak tempat sampah memungkinkan lebih banyak presisi dalam sebuah tempat sampah, tetapi suara dapat membuatnya melompati banyak tempat sampah seperti itu; perubahan kecil dalam asal-usul atau lebar nampan dapat menghasilkan perubahan mode yang relatif besar. (Ada tradeoff varians yang sama di seluruh statistik.)
Catatan yang
summary
akan memberi Anda beberapa statistik dasar.[Anda harus menggunakan
sd(x)
daripadasqrt(var(x))
; lebih jelas untuk satu hal]-
Sehubungan dengan q.2 ya; Anda tentu bisa menunjukkan rata-rata dan median data pada tampilan seperti histogram atau plot kotak. Lihat di sini untuk beberapa contoh dan kode yang harus dapat digeneralisasi untuk kasus apa pun yang Anda butuhkan.
sumber
Beberapa statistik deskriptif tambahan tambahan dan tidak terlalu terkenal.
Saya yakin Anda dapat menemukan banyak lainnya di salah satu
R
manual yang tersedia secara bebas .sumber
Seperti yang dijelaskan @Glen_b mode distribusi kontinu tidak semudah untuk vektor bilangan bulat.
Kode R ini akan mendapatkan mode untuk distribusi kontinu, menggunakan fungsi yang sangat berguna
hist()
dari basis R. Seperti yang dijelaskan @Glen_b ini melibatkan memasukkan pengamatan ke dalam sampah - kategori diskrit di mana jika pengamatan berada dalam interval bin, itu dihitung sebagai turunan dari bin itu, yang mengatasi masalah itu menjadi sangat tidak mungkin dalam distribusi kontinu untuk mengamati nilai yang sama persis dua kali.Sekarang kita memperlakukan titik tengah interval bin yang memiliki jumlah maksimum di dalamnya sebagai mode
Voila! Mode.
ps Anda juga bisa memperlakukan awal interval sebagai mode via
h$breaks[which.max(h$counts)]
. Karena mode yang didiskusikan untuk distribusi kontinu tidak sederhana dan memerlukan keputusan untuk dibuat, maka mengapa tidak ada fungsi sederhana untuk mereka seperti ada bersamamean()
danmedian()
sumber