"Total area di bawah fungsi kepadatan probabilitas adalah 1" - relatif terhadap apa?

20

Secara konseptual saya memahami makna ungkapan "total area di bawah PDF adalah 1". Ini harus berarti bahwa peluang hasil berada dalam interval total kemungkinan adalah 100%.

Tapi saya tidak bisa benar-benar memahaminya dari sudut pandang "geometris". Jika, misalnya, dalam PDF sumbu x mewakili panjang, akankah total area di bawah kurva tidak menjadi lebih besar jika x diukur dalam mm daripada km?

Saya selalu mencoba membayangkan bagaimana area di bawah kurva akan terlihat jika fungsinya diratakan menjadi garis lurus. Apakah ketinggian (posisi pada sumbu y) dari garis itu sama dengan PDF apa pun, atau akankah ia memiliki nilai yang bergantung pada interval pada sumbu x yang fungsinya ditentukan?

TheChymera
sumber
Anda dapat mengubah skala sumbu x dari km ke mm tetapi akan seperti apa jadinya? Anda masih akan memiliki gambar yang sama persis dan enam nol lagi untuk unit di sumbu x . Anda dapat memperbesar atau memperkecil jika Anda inginkan, tetapi itu tidak akan mengubah gambar. Sementara itu, jika kurva pdf adalah garis horizontal lurus (yang menyiratkan distribusi seragam), posisinya pada sumbu y tidak tergantung pada satuan sumbu x tetapi hanya pada panjang interval pada sumbu x . Tidak yakin betapa bermanfaatnya bagi Anda, tetapi bagi saya gagasan memperbesar dan memperkecil membuatnya lebih mudah untuk dipahami.
Richard Hardy
2
Sepertinya itu benar. Tapi itu semacam menggunakan kaca pembesar (diakui aneh) yang membesar dalam arah horizontal sebesar 1000 dan pada saat yang sama menyusut secara proporsional dalam arah vertikal. Namun esensi gambar tidak akan berubah jika Anda hanya mengubah skala.
Richard Hardy
2
Menurut saya, pertanyaan ini sama dengan yang ditanyakan (dengan cara yang berbeda) dan dijawab di stats.stackexchange.com/questions/4220/… .
whuber
1
@amoeba, Ya, sementara banyak yang mungkin merasa terdorong untuk memilih jawaban yang lebih panjang sebagai pengakuan atas upaya yang dimasukkan ke dalamnya (yang saya lakukan juga, btw), Aksakal menjawab pertanyaan saya jauh lebih jelas dan ringkas. Agar adil saya akan mengatakan jawaban Silverfish juga membantu dan akan datang pada detik yang dekat.
TheChymera
2
@amoeba Arah jawaban yang sama sekali berbeda bisa saja berfokus pada fakta bahwa PDF adalah turunan dari CDF, jadi area di bawah PDF hanyalah nilai pembatas CDF - yang jelas merupakan satu, terlepas dari unit yang digunakan. Saya tergoda untuk memasukkan bagian singkat tentang ini tetapi merasa jawaban saya sudah cukup lama (dan selain itu, kunci untuk masalah OP tampaknya adalah masalah unit, yang agaknya kurang didekati oleh pendekatan CDF).
Silverfish

Jawaban:

14

Fungsi kepadatan probabilitas diukur dalam persentase per unit ukuran sumbu x Anda. Katakanlah pada titik tertentu x0 PDF Anda sama dengan 1000. Ini berarti bahwa probabilitas x0<x<x0+dx adalah 1000dx manadx berada dalam meter. Jika Anda mengubah satuan ke sentimeter, maka probabilitasnya tidak boleh berubah untuk interval yang sama, tetapi interval yang sama memiliki 100 sentimeter lebih dari meter, jadi1000dx=PDF(x0)100dx dan menyelesaikannya kita dapatkanPDF(x0)=PDF(x0)100 . Ada 100 kali lebih sedikit unit probabilitas (persentase) per sentimeter daripada per meter.

Aksakal
sumber
46

Mungkin membantu Anda untuk menyadari bahwa sumbu vertikal diukur sebagai kepadatan probabilitas . Jadi jika sumbu horizontal diukur dalam km, maka sumbu vertikal diukur sebagai probabilitas probabilitas "per km". Misalkan kita menggambar elemen persegi panjang pada grid seperti itu, yang lebarnya 5 "km" dan tinggi 0,1 "per km" (yang Anda mungkin lebih suka menulis sebagai "km - 1 "). Luas persegi panjang ini adalah 5 km x 0,1 km - 1 = 0,5. Unit dibatalkan dan kami hanya memiliki satu setengah probabilitas.11

Jika Anda mengubah unit horizontal menjadi "meter", Anda harus mengubah unit vertikal menjadi "per meter". Persegi panjang sekarang akan lebarnya 5.000 meter, dan akan memiliki kepadatan (tinggi) 0,0001 per meter. Anda masih memiliki probabilitas setengah. Anda mungkin terganggu oleh betapa anehnya kedua grafik ini akan terlihat pada halaman dibandingkan satu sama lain (bukankah satu harus jauh lebih luas dan lebih pendek dari yang lain?), Tetapi ketika Anda secara fisik menggambar plot Anda dapat menggunakan apa pun skala yang Anda suka. Lihat di bawah untuk melihat betapa sedikit keanehan yang perlu dilibatkan.

Anda mungkin perlu mempertimbangkan untuk mempertimbangkan histogram sebelum beralih ke kurva probabilitas kepadatan. Dalam banyak hal mereka analog. Sumbu vertikal histogram adalah kerapatan frekuensi [per unit]x dan area mewakili frekuensi, sekali lagi karena unit horizontal dan vertikal dibatalkan setelah penggandaan. Kurva PDF adalah sejenis versi histogram berkelanjutan, dengan total frekuensi sama dengan satu.

Analogi yang bahkan lebih dekat adalah histogram frekuensi relatif - kami katakan histogram tersebut telah "dinormalisasi", sehingga elemen area sekarang mewakili proporsi dari kumpulan data asli Anda daripada frekuensi mentah, dan total area dari semua bar adalah satu. Ketinggian sekarang kerapatan frekuensi relatif [per unit]x . Jika histogram frekuensi relatif memiliki bilah yang berjalan di sepanjang xnilai dari 20 km hingga 25 km (sehingga lebar bar adalah 5 km) dan memiliki kerapatan frekuensi relatif 0,1 per km, maka bar tersebut berisi proporsi data 0,5. Ini sesuai persis dengan gagasan bahwa item yang dipilih secara acak dari set data Anda memiliki probabilitas 50% untuk berbaring di bar itu. Argumen sebelumnya tentang efek perubahan unit masih berlaku: bandingkan proporsi data yang berada di bar 20 km hingga 25 km dengan yang di bar 20.000 meter hingga 25.000 meter untuk kedua plot ini. Anda juga dapat mengonfirmasi secara hitung bahwa area semua bilah berjumlah satu dalam kedua kasus.

Relative frequency histograms with different units

Apa yang mungkin saya maksudkan dengan klaim saya bahwa PDF adalah "semacam versi kontinu histogram"? Mari kita ambil strip kecil di bawah kurva kepadatan probabilitasnilai x dalam interval [ x , x + δ x ] , sehingga strip tersebut adalahlebar δ x , dan tinggi kurva adalah kira-kira konstan f ( x ) . Kita bisa menggambar sebatang tinggi itu, yang luasnya f ( x )x[x,x+δx]δxf(x) mewakili perkiraan probabilitas berbaring di jalur itu.f(x)δx

Bagaimana kita menemukan area di bawah kurva antara dan x = b ? Kita dapat membagi interval itu menjadi strip kecil dan mengambil jumlah dari area bar, f ( x )x=ax=b , yang akan sesuai dengan perkiraan probabilitas berbaring dalam interval [ a , b ] . Kami melihat bahwa kurva dan bilah tidak tepat sejajar, sehingga ada kesalahan dalam perkiraan kami. Dengan membuat δ x lebih kecil dan lebih kecil untuk setiap bilah, kami mengisi interval dengan bilah yang lebih banyak dan lebih sempit, yangf ( x )f(x)δx[a,b]δx memberikan perkiraan area yang lebih baik.f(x)δx

Untuk menghitung area secara tepat, daripada mengasumsikan konstan di setiap strip, kami mengevaluasi integral f(x), dan ini sesuai dengan probabilitas sebenarnya dari berbaring di interval[a,b]. Mengintegrasikan seluruh kurva memberikan satu area total (yaitu probabilitas total) satu, untuk alasan yang sama bahwa meringkas area semua bar dari histogram frekuensi relatif memberikan area total (yaitu proporsi total) dari satu. Integrasi itu sendiri adalah semacam versi berkesinambungan dari mengambil jumlah.abf(x)dx[a,b]

enter image description here

Kode R untuk plot

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)
Gegat
sumber
Anda memakukannya dengan dua baris pertama, tetapi sisanya sama baiknya.
PatrickT
2
f(x)=F(x)
1
@Silverfish: Ini adalah pertama kalinya saya melihat seseorang menggunakan istilah "tetes tetes" dalam bahasa Inggris!
Mehrdad
1
Bagan pertama terlihat seperti seseorang membalikkan burung :)
Aksakal
1
@Aksakal Ooof. Saya tidak memperhatikan itu. Harus ingat untuk tidak menggunakan contoh itu di kelas tanpa beberapa modifikasi. (Pada baris yang sama, ketika membuat masalah untuk diselesaikan di papan tulis, ada angka-angka tertentu seperti 69 yang saya coba hindari muncul. Pengalaman itu sulit didapat.)
Silverfish
7

Anda sudah mendapat dua jawaban, dengan jawaban yang sangat bagus dari Silverfish , namun saya merasa bahwa sebuah ilustrasi bisa berguna di sini karena Anda bertanya tentang geometri dan "membayangkan" sendiri fungsi-fungsi itu.

Mari kita mulai dengan contoh sederhana distribusi Bernoulli :

f(x)={pif x=1,1pif x=0.

enter image description here

Karena nilainya diskrit maka tidak ada "kurva" tetapi hanya dua poin, namun idenya serupa: jika Anda ingin mengetahui probabilitas total (area di bawah kurva), Anda harus merangkum probabilitas dari kedua hasil yang mungkin:

p+(1p)=1

p1p

xxf(x)x1x11#{xi}=N#{xi}/N=1N

enter image description here

Sekarang mari kita pertimbangkan distribusi normalxx. Jadi, jika ada poin yang tidak dapat Anda lihat, tidak peduli berapa banyak yang akan Anda "perbesar", karena selalu ada beberapa poin kecil tak terhingga di antara setiap poin yang diberikan. Karena itu di sini kita benar-benar memiliki kurva - Anda dapat membayangkan bahwa itu terbuat dari banyak "titik". Anda bisa bertanya pada diri sendiri: bagaimana cara menghitung jumlah probabilitas tak terbatas ..? Pada plot di bawah ini, kurva merah adalah PDF normal dan kotak hitam adalah histogram dari beberapa nilai yang diambil dari distribusi. Jadi plot histogram telah menyederhanakan distribusi kami ke jumlah terbatas "kotak" dengan lebar tertentudan jika Anda menyimpulkan ketinggian kotak dikalikan dengan lebarnya, Anda akan berakhir dengan area di bawah kurva - atau area semua kotak. Kami menggunakan area bukan titik di sini karena setiap kotak adalah ringkasan jumlah "titik" tak terbatas yang dikemas dalam kotak.

enter image description here

f(x)2.53=0.5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0.511

11f(x).

ab33

abf(x)dx

f(x)dx untuk variabel kontinu. Untuk mempelajari lebih lanjut tentang integral dan kalkulus, Anda dapat memeriksa kuliah Khan Academy .

Anda juga bertanya tentang distribusi "flat" (seragam) :

enter image description here

<a<b<11εkecil ... Jadi ini adalah kasus yang rumit dan Anda bisa membayangkannya secara abstrak. Perhatikan bahwa, seperti yang Ilmari Karonen prior yang tidak patut .diperhatikan dalam komentar, ini adalah ide abstrak yang tidak benar-benar mungkin dalam prakteknya (lihat komentar di bawah). Jika menggunakan distribusi seperti sebelumnya, itu akan menjadi

1

Tim
sumber
1
Untuk distribusi flat (yaitu seragam ) pada garis infinite, "rumit" benar-benar berarti "tidak mungkin": distribusi seragam pada set ukuran infinite bukanlah distribusi probabilitas yang valid, justru karena tidak dapat ditingkatkan untuk mengintegrasikan ke1. Ini kadang-kadang berguna untuk berpura-pura bahwa itu adalah satu, tetapi mengambil ini terlalu jauh dengan cepat mengarah ke paradoks. (Misalnya, biarkanX dan Y mandiri dan terdistribusi secara merata di (-,); berapa probabilitas itu|X|<|Y|?)
Ilmari Karonen
Anda benar, "rumit" terlalu informal. Saya akan melakukan koreksi nanti.
Tim
0

Gagasan kunci berikut disebutkan dalam komentar, tetapi tidak dalam jawaban yang ada ...

Salah satu cara intuisi tentang sifat-sifat PDF adalah dengan mempertimbangkan bahwa PDF dan CDF terkait dengan integrasi (kalkulus) - dan bahwa CDF memiliki output monoton yang mewakili nilai probabilitas antara 0 dan 1.

The unitless total terintegrasi di bawah kurva PDF tidak terpengaruh oleh unit sumbu-X.

Untuk membuatnya lebih sederhana...

Area = Width x Height

Jika sumbu X menjadi lebih besar, secara numerik, karena perubahan unit, maka sumbu Y harus menjadi lebih kecil oleh faktor linier yang sesuai .

bangsawan
sumber