Apa sebenarnya distribusi itu?

16

Saya tahu sangat sedikit tentang Probabilitas dan Statistik, dan saya ingin belajar. Saya melihat kata "distribusi" digunakan di semua tempat dalam konteks yang berbeda.

Sebagai contoh, variabel acak diskrit memiliki "distribusi probabilitas." Saya tahu ini apa. Variabel acak kontinu memiliki fungsi kerapatan probabilitas, maka untuk xR , integral dari ke x dari fungsi kerapatan probabilitas adalah fungsi distribusi kumulatif yang dievaluasi pada x .

Dan rupanya hanya "fungsi distribusi" identik dengan "fungsi distribusi kumulatif," setidaknya ketika berbicara tentang variabel acak kontinu (pertanyaan: apakah mereka selalu bersinonim?).

Lalu ada banyak distribusi terkenal. distribusi χ 2 distribusi, dll. Tapi apa sebenarnya distribusi Γ ? Apakah ini fungsi distribusi kumulatif dari variabel Γ acak? Atau fungsi kepadatan probabilitas dari variabel Γ acak?Γχ2ΓΓΓ

Tetapi kemudian distribusi frekuensi dari kumpulan data yang terbatas nampaknya berupa histogram.

Singkat cerita: dalam Probabilitas dan Statistik, apa definisi dari kata "distribusi"?

Saya tahu definisi distribusi dalam Matematika (elemen ruang ganda dari koleksi fungsi tes yang dilengkapi dengan topologi batas induktif), tetapi tidak Probabilitas dan Statistik.

danzibr
sumber
1
Artikel Wikipedia yang sesuai tampaknya merupakan pengantar yang layak untuk topik ini.
Aleksandr Blekh
1
Secara ketat, 'distribusi' dan 'cdf' harus dianggap sebagai sinonim, tetapi 'distribusi' sering digunakan dalam arti yang jauh lebih longgar dan sering digunakan untuk benar-benar merujuk pada kepadatan / PMF.
Glen_b -Reinstate Monica
3
Pemahaman Anda tentang distribusi cukup dekat dengan yang ada dalam probabilitas; perbedaan utama adalah bahwa mereka yang kemungkinan menikmati beberapa properti tambahan (menjadi positif dan dinormalisasi menjadi satu) Koneksi adalah bahwa definisi Anda menetapkan distribusi dalam hal operator ekspektasi terkait. Ada juga penyalahgunaan (serius) bahasa yang lazim dalam statistik, yang juga menyebut keluarga distribusi yang diparameterisasi sebagai "distribusi." Akhirnya, setiap dataset terbatas menentukan distribusi yang diperoleh dengan cara sampling darinya, "distribusi empirisnya."
whuber
@whuber Itu membantu, terima kasih Secara khusus, penyalahgunaan bahasa. Itu akan seperti memanggil integral yang tidak terbatas dari suatu fungsi ... sebuah fungsi.
danzibr
Pertanyaan serupa dengan jawaban yang baik: stats.stackexchange.com/questions/210403/…
kjetil b halvorsen

Jawaban:

7

Berikut ini adalah untuk variabel acak bernilai. Ekstensi ke ruang lain lurus ke depan jika Anda tertarik. Saya berpendapat bahwa definisi yang sedikit lebih umum berikut ini lebih intuitif daripada secara terpisah mempertimbangkan fungsi distribusi kepadatan, massa dan kumulatif.R

Saya menyertakan beberapa istilah matematika / probabilistik dalam teks untuk membuatnya benar. Jika seseorang tidak terbiasa dengan istilah-istilah itu, intuisi sama-sama dipahami dengan hanya memikirkan "set Borel" sebagai "setiap himpunan bagian dari yang dapat saya pikirkan", dan dari variabel acak, hasil numerik dari beberapa eksperimen dengan eksperimen. probabilitas terkait.R


Misalkan menjadi ruang probabilitas dan X ( ω ) merupakan variabel acak bernilai - R pada ruang ini.(Ω,F,P)X(ω)R

Fungsi set , di mana A adalah himpunan Borel, disebut distribusi X .Q(A):=P(ωΩ:X(ω)A)AX

Dalam kata-kata, distribusi memberitahu Anda (secara longgar), untuk setiap bagian dari , probabilitas bahwa X mengambil nilai dalam set itu. Orang dapat membuktikan bahwa Q sepenuhnya ditentukan oleh fungsi F ( x ) : = P ( X x ) dan sebaliknya. Untuk melakukan itu - dan saya melewatkan detailnya di sini - buat ukuran pada set Borel yang menetapkan probabilitas F ( x ) untuk semua set ( - , x ) dan berargumen bahwa ukuran hingga ini setuju dengan Q pada sebuahRXQF(x):=P(Xx)F(x)(,x)Q sistem yang menghasilkan Borelπσalgebra.

If it so happens that Q(A) can be written as Q(A)=Af(x)dx then f is a density function for Q and you can see, although this density is not uniquely determined (consider changes on sets of Lebesgue measure zero), it makes sense to also speak of f as the distribution of X. Usually, however, we call it the probability density function of X.

Q(A)Q(A)=iA{,1,0,1,}f(i), then it makes sense to speak of f as the distribution of X although we usually call it the probability mass function.

X[0,1]Q(A)Xf(x)=I[0,1]F(x)=xf(t)dt.

A final note on the case where there is no mention of a random variable, but only a distribution. One may prove that given a distribution function (or a mass, density or cumulative distribution function), there exists a probability space with a random variable that has this distribution. Thus, there is essentially no difference in speaking about a distribution, or about a random variable having that distribution. It's just a matter of one's focus.

ekvall
sumber
3

Let (Ω,F,P) be a probability space, let (X,B) be a measurable space, and let X:ΩX be a measurable function, which means that X1(B)={ω:X(ω)B}F for every BB. The distribution of X is the probability measure μX over (X,B) defined by μX(B)=P(XB). When X=R and B is the Borel sigma-field, we refer to the function X as a random "variable".

Zen
sumber
1
must be very clear to people with little knowledge of probability and statistics :)
Alexey Grigorev
3
Well, the OP seems to know advanced math stuff such as "element of the dual space of the collection of test functions equipped with the inductive limit topology". Check the end of his question.
Zen
2
It was indeed a good response for me. I needed to check the definition of a probability space, but for a person with a math background, it was clear. I appreciated the answer's concision, only not accepting it due to the detail in the other answer.
danzibr
1

The question and answers so far seem to have focused on theoretical distributions. Empirical distributions provide a more intuitive understanding of distributions.

Example

During a class tournament in skipping rope we observe all the kids in a class skipping rope. The first kid is able to jump twice, the second four times, the next one fifteen times, etc. We record the number of jumps. Five of the kids jumped eight times each, but only one of the kids jumped twice. We say that jumping eight times is differently distributed than jumping twice.

An ostensive definition for an observed distribution is the frequency of occurrences for each observed value of a variable.

In inferential statistics we then try to fit theoretical distributions to the observed distributions, because we would like to work with the assumptions of the theoretical distributions. You can reach a similar definition for theoretical distributions by replacing "observed" with "observerable" or to be more precise: "expected".

noumenal
sumber