Jika kita ingin melihat distribusi data secara terus-menerus, yang manakah di antara histogram dan pdf yang harus digunakan?
Apa perbedaannya, bukan berdasarkan rumus, antara histogram dan pdf?
distributions
pdf
histogram
csgillespie
sumber
sumber
Jawaban:
Untuk memperjelas poin Dirks:
Katakanlah data Anda adalah sampel dari distribusi normal. Anda dapat membuat plot berikut:
Garis merah adalah estimasi kepadatan empiris, garis biru adalah pdf teoritis dari distribusi normal yang mendasarinya. Perhatikan bahwa histogram dinyatakan dalam kepadatan dan bukan dalam frekuensi di sini. Ini dilakukan untuk keperluan merencanakan, frekuensi umum digunakan dalam histogram.
Jadi untuk menjawab pertanyaan Anda: Anda menggunakan distribusi empiris (yaitu histogram) jika Anda ingin menggambarkan sampel Anda, dan pdf jika Anda ingin menggambarkan distribusi yang mendasarinya dihipotesiskan.
Plot dihasilkan oleh kode berikut dalam R:
sumber
Histogram adalah perkiraan usia pra-komputer dari kepadatan. Estimasi kepadatan adalah alternatif.
Saat ini kami menggunakan keduanya, dan ada literatur yang kaya tentang default yang harus digunakan.
Pdf, di sisi lain, adalah ekspresi bentuk tertutup untuk distribusi yang diberikan . Itu berbeda dari menggambarkan dataset Anda dengan perkiraan kepadatan atau histogram.
sumber
density
*ab*
**ab**
$\sqrt{2}$
Tidak ada aturan yang keras dan cepat di sini. Jika Anda mengetahui kepadatan populasi Anda, maka PDF lebih baik. Di sisi lain, sering kita berurusan dengan sampel dan histogram mungkin menyampaikan beberapa informasi yang diperkirakan menutupi kepadatan. Sebagai contoh, Andrew Gelman menyatakan hal ini:
sumber
Histogram frekuensi relatif ( diskrit )
Histogram Kerapatan ( diskrit )
Fungsi Probability Density PDF ( berkelanjutan )
Referensi ini sangat membantu :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Continuous_probability_distribution dari situs di atas
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html
sumber