Bagaimana menginterpretasikan ketinggian plot kepadatan

12

Bagaimana saya harus menginterpretasikan ketinggian plot kepadatan:

masukkan deskripsi gambar di sini

Misalnya dalam plot di atas, puncaknya sekitar 0,07 pada x = 18. Dapatkah saya menyimpulkan bahwa sekitar 7% dari nilai sekitar 18? Bisakah saya lebih spesifik dari itu? Ada juga puncak kedua di x = 30 dengan tinggi 0,02. Apakah itu berarti bahwa sekitar 2% dari nilai sekitar 30?

Sunting: Pertanyaan pada Dapatkah nilai distribusi probabilitas melebihi 1 menjadi OK?membahas nilai probabilitas> 1 yang tidak menjadi masalah sama sekali di sini. Ini juga membahas bahwa dalam kaitannya dengan classfier naif Bayes yang juga bukan intinya di sini. Saya ingin memiliki, dalam bahasa yang sederhana, kesimpulan numerik yang dapat kita tarik dari kurva kepadatan seperti itu. Peran area di bawah kurva dibahas tetapi pertanyaan saya secara khusus inferensi apa yang dapat kita tarik tentang kombinasi x dan y tertentu yang ada pada kurva. Sebagai contoh, bagaimana kita menghubungkan x = 30 dan y = 0,02 pada grafik ini. Pernyataan apa yang bisa kita tulis mengenai hubungan antara 30 dan 0,02 di sini. Karena kepadatan adalah untuk satu nilai satuan, dapatkah kita mengatakan bahwa 2% dari nilai terjadi antara 29,5 dan 30,5? Jika itu masalahnya, bagaimana kami menafsirkan jika nilai bervariasi dari hanya 0 hingga 1, seperti dalam plot berikut:

masukkan deskripsi gambar di sini

Jika 100% nilai terjadi antara 0 dan 1, mengapa ada kurva di luar 0 dan 1?

Ada bagian datar di sini di x = 0,1 ke x = 0,2 di mana y sama dengan 0,8. Membentuk persegi panjang. Bagaimana kita bisa mengetahui proporsi nilai apa yang terjadi antara x = 0,1 dan x = 0,2

(PS: Jika Anda menemukan pertanyaan ini menarik / penting, harap perbaiki;)

juga
sumber
4
Utas pertama yang disebutkan sebagai duplikat relevan, terlepas dari kata-kata yang tepat dalam judulnya, karena membuat titik kunci bahwa sebagaimana dihitung untuk variabel kontinu, kepadatan probabilitas bukan probabilitas. (Versi yang lebih halus akan mendefinisikan kepadatan dengan ketat, dan menyertakan kemungkinan bahwa kepadatan ditentukan dengan menghitung ukuran.)
Nick Cox
Saya setuju dengan @NickCox, meskipun dengan suntingan tambahan, ada lebih banyak fokus pada area (yang seperti pertanyaan ketiga) dan juga tinggi (yang lebih seperti pertanyaan kedua) dalam daftar pertanyaan yang sangat berhubungan erat dengan Tim.
Silverfish,
3
Ada juga masalah terpisah yang tidak diangkat dalam pertanyaan-pertanyaan itu, itulah sebabnya saya tidak berpikir ini secara keseluruhan merupakan duplikat dari pertanyaan-pertanyaan itu secara individual: mengapa secara empiris yang bertentangan dengan plot kepadatan teoretis, dapatkah ada "kepadatan" di luar dukungan (atau nilai yang diamati) dari distribusi? Itu membutuhkan diskusi tambahan tentang bandwidth dan konstruksi serta interpretasi plot kepadatan kernel. Mungkin pertanyaan ini akan mendapat manfaat dari pengeditan dan fokus kembali pada masalah-masalah yang tidak menduplikasi pertanyaan yang ada.
Silverfish,

Jawaban:

6

Anda harus berhati-hati dengan kata-kata Anda di sini. Dengan asumsi x adalah variabel kontinu, probabilitas setiap nilai individu adalah nol. Berbicara, seperti yang Anda lakukan, tentang kemungkinan suatu nilai yang berada di beberapa titik tidak masalah, meskipun Anda mungkin ingin sedikit lebih tepat. Pernyataan kedua Anda, di mana Anda memberikan interval bersama dengan probabilitas adalah sesuatu yang saya akan cari.

Intinya, integral fungsi densitas berkenaan dengan x akan memberi tahu Anda tentang probabilitas itu sendiri (itu sebabnya itu disebut kepadatan ). Jelas, interval yang akan Anda integrasikan mungkin kecil secara sewenang-wenang, sehingga Anda bisa mendekati titik ke tingkat yang sewenang-wenang. Yang mengatakan, ketika fungsi kerapatan bervariasi sangat lambat selama interval itu, Anda dapat memperkirakan integral dengan beberapa teknik numerik, seperti aturan trapesium .

Untuk meringkas: ketinggian fungsi kepadatan hanya itu, tingginya. Apa pun yang Anda ingin simpulkan tentang probabilitas harus menyertakan pengintegrasian beberapa bentuk atau lainnya.

Fato39
sumber
apakah area di bawah kurva selalu berjumlah 1,0 pada plot semacam ini?
ecologist1234
1
@ ecologist1234 Ya, karena ini adalah distribusi kepadatan probabilitas , integral dari ke (pada "terburuk") akan menghasilkan 1,0. Ini berarti bahwa semua data berada di suatu tempat di sepanjang interval itu dengan probabilitas 100%.
Fato39