Perbedaan antara histogram dan pdf?

18

Jika kita ingin melihat distribusi data secara terus-menerus, yang manakah di antara histogram dan pdf yang harus digunakan?

Apa perbedaannya, bukan berdasarkan rumus, antara histogram dan pdf?

csgillespie
sumber
Bisakah Anda menjelaskan apakah pertanyaan ini menyangkut data (yang distribusinya dapat diwakili oleh histogram) atau konstruksi teoretis (seperti pdf, yang menjelaskan distribusi probabilitas).
whuber
4
Tapi dari mana pdf itu berasal? Menurut definisi, pdf menggambarkan distribusi probabilitas teoretis. Apakah Anda mungkin berarti EDF (fungsi distribusi empiris)?
whuber

Jawaban:

22

Untuk memperjelas poin Dirks:

Katakanlah data Anda adalah sampel dari distribusi normal. Anda dapat membuat plot berikut:

teks alternatif

Garis merah adalah estimasi kepadatan empiris, garis biru adalah pdf teoritis dari distribusi normal yang mendasarinya. Perhatikan bahwa histogram dinyatakan dalam kepadatan dan bukan dalam frekuensi di sini. Ini dilakukan untuk keperluan merencanakan, frekuensi umum digunakan dalam histogram.

Jadi untuk menjawab pertanyaan Anda: Anda menggunakan distribusi empiris (yaitu histogram) jika Anda ingin menggambarkan sampel Anda, dan pdf jika Anda ingin menggambarkan distribusi yang mendasarinya dihipotesiskan.

Plot dihasilkan oleh kode berikut dalam R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Joris Meys
sumber
apa perbedaan antara frekuensi dan kepadatan?
Lakshay
2
Frekuensi @Lakshay penting. Semua frekuensi yang dijumlahkan sama dengan jumlah pengamatan. Kepadatan adalah kependekan dari PDF (fungsi kepadatan probabilitas), yang merupakan proksi untuk probabilitas memiliki nilai tertentu. Area di bawah jumlah PDF menjadi 1.
Joris Meys
13

Histogram adalah perkiraan usia pra-komputer dari kepadatan. Estimasi kepadatan adalah alternatif.

Saat ini kami menggunakan keduanya, dan ada literatur yang kaya tentang default yang harus digunakan.

Pdf, di sisi lain, adalah ekspresi bentuk tertutup untuk distribusi yang diberikan . Itu berbeda dari menggambarkan dataset Anda dengan perkiraan kepadatan atau histogram.

Dirk Eddelbuettel
sumber
1
μσ2density
*ab***ab**$\sqrt{2}$2
6

Tidak ada aturan yang keras dan cepat di sini. Jika Anda mengetahui kepadatan populasi Anda, maka PDF lebih baik. Di sisi lain, sering kita berurusan dengan sampel dan histogram mungkin menyampaikan beberapa informasi yang diperkirakan menutupi kepadatan. Sebagai contoh, Andrew Gelman menyatakan hal ini:

Variasi pada histogram

Manfaat utama histogram adalah bahwa, sebagai sebidang data mentah, ia berisi benih penilaian kesalahannya sendiri. Atau, dengan kata lain, kekerabatan dari histogram yang sedikit kurang mulus melakukan layanan yang bermanfaat dengan secara visual menunjukkan variabilitas pengambilan sampel. Itu sebabnya, jika Anda melihat histogram di buku saya dan artikel yang diterbitkan, saya hampir selalu menggunakan banyak tempat sampah. Saya juga hampir tidak pernah menyukai estimasi kepadatan kernel yang kadang-kadang digunakan orang untuk menampilkan distribusi satu dimensi. Saya lebih suka melihat histogram dan tahu di mana datanya.

ars
sumber
3
Saya harus mengakui bahwa saya tidak pernah sepenuhnya mengerti mengapa Gelman menganjurkan penggunaan histogram dengan lebar tempat sampah kecil; mengapa tidak menggunakan plot stripchart atau data mentah dengan perkiraan kepadatan kernel yang ditumpangkan, yang jauh lebih baik menyampaikan distribusi empiris dari data yang diamati?
chl
2
@ chl: Tentu saja ada metode visualisasi bagus lainnya untuk mendapatkan rasa variabilitas pengambilan sampel. Tetapi pada perbandingan yang lebih sempit dari histogram v. Pdf yang sedang dibahas di sini, saya pikir maksudnya dibuat dengan baik.
ars
1
itu tautan yang bagus, seperti makalah yang dibahas di sana. Tetapi, apakah pendekatan ini berlaku untuk simulasi, dalam hal mana kita sebenarnya mencoba memperkirakan kepadatan?
David LeBauer
1

Histogram frekuensi relatif ( diskrit )

  • Sumbu 'y' adalah hitungan yang dinormalisasi
  • Sumbu 'y' adalah probabilitas tersendiri untuk bin / range tertentu
  • Jumlah yang dinormalisasi berjumlah hingga 1

Histogram Kerapatan ( diskrit )

  • Sumbu 'y' adalah nilai kerapatan ('Jumlah dinormalisasi' dibagi dengan 'lebar bin')
  • Area bar berjumlah 1

Fungsi Probability Density PDF ( berkelanjutan )

  • PDF adalah versi histogram yang berkelanjutan karena tempat histogram terpisah
  • total area di bawah Curve terintegrasi ke 1

Referensi ini sangat membantu :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Continuous_probability_distribution dari situs di atas

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Harsha Manjunath
sumber