Secara konseptual saya memahami makna ungkapan "total area di bawah PDF adalah 1". Ini harus berarti bahwa peluang hasil berada dalam interval total kemungkinan adalah 100%.
Tapi saya tidak bisa benar-benar memahaminya dari sudut pandang "geometris". Jika, misalnya, dalam PDF sumbu x mewakili panjang, akankah total area di bawah kurva tidak menjadi lebih besar jika x diukur dalam mm daripada km?
Saya selalu mencoba membayangkan bagaimana area di bawah kurva akan terlihat jika fungsinya diratakan menjadi garis lurus. Apakah ketinggian (posisi pada sumbu y) dari garis itu sama dengan PDF apa pun, atau akankah ia memiliki nilai yang bergantung pada interval pada sumbu x yang fungsinya ditentukan?
probability
pdf
integral
TheChymera
sumber
sumber
Jawaban:
Fungsi kepadatan probabilitas diukur dalam persentase per unit ukuran sumbu x Anda. Katakanlah pada titik tertentux0 PDF Anda sama dengan 1000. Ini berarti bahwa probabilitas x0<x<x0+dx adalah 1000dx manadx berada dalam meter. Jika Anda mengubah satuan ke sentimeter, maka probabilitasnya tidak boleh berubah untuk interval yang sama, tetapi interval yang sama memiliki 100 sentimeter lebih dari meter, jadi1000dx=PDF′(x′0)⋅100dx′ dan menyelesaikannya kita dapatkanPDF′(x′0)=PDF(x0)100 . Ada 100 kali lebih sedikit unit probabilitas (persentase) per sentimeter daripada per meter.
sumber
Mungkin membantu Anda untuk menyadari bahwa sumbu vertikal diukur sebagai kepadatan probabilitas . Jadi jika sumbu horizontal diukur dalam km, maka sumbu vertikal diukur sebagai probabilitas probabilitas "per km". Misalkan kita menggambar elemen persegi panjang pada grid seperti itu, yang lebarnya 5 "km" dan tinggi 0,1 "per km" (yang Anda mungkin lebih suka menulis sebagai "km - 1 "). Luas persegi panjang ini adalah 5 km x 0,1 km - 1 = 0,5. Unit dibatalkan dan kami hanya memiliki satu setengah probabilitas.−1 −1
Jika Anda mengubah unit horizontal menjadi "meter", Anda harus mengubah unit vertikal menjadi "per meter". Persegi panjang sekarang akan lebarnya 5.000 meter, dan akan memiliki kepadatan (tinggi) 0,0001 per meter. Anda masih memiliki probabilitas setengah. Anda mungkin terganggu oleh betapa anehnya kedua grafik ini akan terlihat pada halaman dibandingkan satu sama lain (bukankah satu harus jauh lebih luas dan lebih pendek dari yang lain?), Tetapi ketika Anda secara fisik menggambar plot Anda dapat menggunakan apa pun skala yang Anda suka. Lihat di bawah untuk melihat betapa sedikit keanehan yang perlu dilibatkan.
Anda mungkin perlu mempertimbangkan untuk mempertimbangkan histogram sebelum beralih ke kurva probabilitas kepadatan. Dalam banyak hal mereka analog. Sumbu vertikal histogram adalah kerapatan frekuensi [per unit]x dan area mewakili frekuensi, sekali lagi karena unit horizontal dan vertikal dibatalkan setelah penggandaan. Kurva PDF adalah sejenis versi histogram berkelanjutan, dengan total frekuensi sama dengan satu.
Analogi yang bahkan lebih dekat adalah histogram frekuensi relatif - kami katakan histogram tersebut telah "dinormalisasi", sehingga elemen area sekarang mewakili proporsi dari kumpulan data asli Anda daripada frekuensi mentah, dan total area dari semua bar adalah satu. Ketinggian sekarang kerapatan frekuensi relatif [per unit]x . Jika histogram frekuensi relatif memiliki bilah yang berjalan di sepanjang x nilai dari 20 km hingga 25 km (sehingga lebar bar adalah 5 km) dan memiliki kerapatan frekuensi relatif 0,1 per km, maka bar tersebut berisi proporsi data 0,5. Ini sesuai persis dengan gagasan bahwa item yang dipilih secara acak dari set data Anda memiliki probabilitas 50% untuk berbaring di bar itu. Argumen sebelumnya tentang efek perubahan unit masih berlaku: bandingkan proporsi data yang berada di bar 20 km hingga 25 km dengan yang di bar 20.000 meter hingga 25.000 meter untuk kedua plot ini. Anda juga dapat mengonfirmasi secara hitung bahwa area semua bilah berjumlah satu dalam kedua kasus.
Apa yang mungkin saya maksudkan dengan klaim saya bahwa PDF adalah "semacam versi kontinu histogram"? Mari kita ambil strip kecil di bawah kurva kepadatan probabilitasnilai x dalam interval [ x , x + δ x ] , sehingga strip tersebut adalahlebar δ x , dan tinggi kurva adalah kira-kira konstan f ( x ) . Kita bisa menggambar sebatang tinggi itu, yang luasnya f ( x )x [x,x+δx] δx f(x) mewakili perkiraan probabilitas berbaring di jalur itu.f(x)δx
Bagaimana kita menemukan area di bawah kurva antara dan x = b ? Kita dapat membagi interval itu menjadi strip kecil dan mengambil jumlah dari area bar, ∑ f ( x )x=a x=b , yang akan sesuai dengan perkiraan probabilitas berbaring dalam interval [ a , b ] . Kami melihat bahwa kurva dan bilah tidak tepat sejajar, sehingga ada kesalahan dalam perkiraan kami. Dengan membuat δ x lebih kecil dan lebih kecil untuk setiap bilah, kami mengisi interval dengan bilah yang lebih banyak dan lebih sempit, yang ∑ f ( x )∑f(x)δx [a,b] δx memberikan perkiraan area yang lebih baik.∑f(x)δx
Untuk menghitung area secara tepat, daripada mengasumsikan konstan di setiap strip, kami mengevaluasi integral ∫f(x) , dan ini sesuai dengan probabilitas sebenarnya dari berbaring di interval[a,b]. Mengintegrasikan seluruh kurva memberikan satu area total (yaitu probabilitas total) satu, untuk alasan yang sama bahwa meringkas area semua bar dari histogram frekuensi relatif memberikan area total (yaitu proporsi total) dari satu. Integrasi itu sendiri adalah semacam versi berkesinambungan dari mengambil jumlah.∫baf(x)dx [a,b]
Kode R untuk plot
sumber
Anda sudah mendapat dua jawaban, dengan jawaban yang sangat bagus dari Silverfish , namun saya merasa bahwa sebuah ilustrasi bisa berguna di sini karena Anda bertanya tentang geometri dan "membayangkan" sendiri fungsi-fungsi itu.
Mari kita mulai dengan contoh sederhana distribusi Bernoulli :
Karena nilainya diskrit maka tidak ada "kurva" tetapi hanya dua poin, namun idenya serupa: jika Anda ingin mengetahui probabilitas total (area di bawah kurva), Anda harus merangkum probabilitas dari kedua hasil yang mungkin:
Sekarang mari kita pertimbangkan distribusi normalx x . Jadi, jika ada poin yang tidak dapat Anda lihat, tidak peduli berapa banyak yang akan Anda "perbesar", karena selalu ada beberapa poin kecil tak terhingga di antara setiap poin yang diberikan. Karena itu di sini kita benar-benar memiliki kurva - Anda dapat membayangkan bahwa itu terbuat dari banyak "titik". Anda bisa bertanya pada diri sendiri: bagaimana cara menghitung jumlah probabilitas tak terbatas ..? Pada plot di bawah ini, kurva merah adalah PDF normal dan kotak hitam adalah histogram dari beberapa nilai yang diambil dari distribusi. Jadi plot histogram telah menyederhanakan distribusi kami ke jumlah terbatas "kotak" dengan lebar tertentudan jika Anda menyimpulkan ketinggian kotak dikalikan dengan lebarnya, Anda akan berakhir dengan area di bawah kurva - atau area semua kotak. Kami menggunakan area bukan titik di sini karena setiap kotak adalah ringkasan jumlah "titik" tak terbatas yang dikemas dalam kotak.
0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002
Anda juga bertanya tentang distribusi "flat" (seragam) :
sumber
Gagasan kunci berikut disebutkan dalam komentar, tetapi tidak dalam jawaban yang ada ...
Salah satu cara intuisi tentang sifat-sifat PDF adalah dengan mempertimbangkan bahwa PDF dan CDF terkait dengan integrasi (kalkulus) - dan bahwa CDF memiliki output monoton yang mewakili nilai probabilitas antara 0 dan 1.
The unitless total terintegrasi di bawah kurva PDF tidak terpengaruh oleh unit sumbu-X.
Untuk membuatnya lebih sederhana...
Jika sumbu X menjadi lebih besar, secara numerik, karena perubahan unit, maka sumbu Y harus menjadi lebih kecil oleh faktor linier yang sesuai .
sumber