Dalam istilah awam, apa perbedaan antara model dan distribusi?

28

Jawaban (definisi) yang didefinisikan di Wikipedia bisa dibilang sedikit samar bagi mereka yang tidak terbiasa dengan matematika / statistik yang lebih tinggi.

Dalam istilah matematika, model statistik biasanya dianggap sebagai pasangan ( ), di mana adalah himpunan pengamatan yang mungkin, yaitu ruang sampel, dan adalah seperangkat distribusi probabilitas pada . $S, \mathcal{P}$ $S$ $\mathcal{P}$ $S$

Dalam probabilitas dan statistik, distribusi probabilitas memberikan probabilitas untuk setiap subset terukur dari kemungkinan hasil eksperimen acak, survei, atau prosedur inferensi statistik. Contoh ditemukan ruang sampel yang non-numerik, di mana distribusi akan menjadi distribusi kategorikal.

Saya seorang siswa sekolah menengah yang sangat tertarik pada bidang ini sebagai hobi dan saat ini saya berjuang dengan perbedaan antara apa yang merupakan statistical modeldanprobability distribution

Pemahaman saya saat ini, dan sangat mendasar, adalah ini:

model statistik adalah upaya matematika untuk memperkirakan distribusi yang diukur
distribusi probabilitas adalah deskripsi yang diukur dari percobaan yang menetapkan probabilitas untuk setiap hasil yang mungkin dari peristiwa acak

kebingungan semakin diperparah oleh kecenderungan dalam literatur untuk melihat kata "distribusi" dan "model" digunakan secara bergantian - atau setidaknya dalam situasi yang sangat mirip (misalnya distribusi binomial vs model binomial)

Dapatkah seseorang memverifikasi / mengoreksi definisi saya, dan mungkin menawarkan pendekatan yang lebih formal (walaupun masih dalam bahasa Inggris sederhana) untuk konsep-konsep ini?

distributions model terminology AlanSTACK
sumber

1

Intinya: sama sekali tidak ada perbedaan antara model statistik dan distribusi probabilitas. Setiap model statistik menggambarkan distribusi probabilitas dan sebaliknya. Jangan biarkan mereka membingungkan Anda dengan teks yang panjang.

Cagdas Ozgenc

3

@Cagdas Menurut definisi yang dikutip dalam pertanyaan, ada adalah perbedaan: model statistik adalah kumpulan terorganisir tertentu distribusi probabilitas. Ketika hanya satu distribusi probabilitas dalam bukti, maka kita tidak lagi melakukan statistik sama sekali, karena tujuan analisis statistik telah tercapai: kita tahu distribusi!

Whuber

2

@cagdas Wikipedia menjaga perusahaan dengan teks-teks terbaik. Saya sepenuhnya setuju dengan itu.

whuber

4

@CagdasOzgenc, mengapa tidak menyajikan beberapa bukti untuk mendukung klaim Anda yang tajam dan pasti. Bukti oleh otoritas jarang (jika pernah) dapat diterima. Tanpa bukti, sulit (jika bukan tidak mungkin) melakukan diskusi yang produktif; klaim yang tidak berdasar jarang lebih dari sekadar kebisingan.

Richard Hardy

2

@RichardHardy Pertanyaannya menanyakan "istilah awam", dan lihat jawaban yang didapatnya. Maaf, tapi saya benci melihat murid-murid menderita hanya karena seseorang memutuskan untuk pamer. Jawabannya sesederhana 2 + 2 = 4, dan saya benar-benar berpikir itu tidak memerlukan referensi otoritatif 20 halaman.

Cagdas Ozgenc

25

Distribusi probabilitas adalah fungsi matematika yang menggambarkan variabel acak. Sedikit lebih tepatnya, ini adalah fungsi yang menetapkan probabilitas ke angka dan outputnya harus setuju dengan aksioma probabilitas .

Model statistik adalah deskripsi abstrak dan ideal tentang beberapa fenomena dalam istilah matematika menggunakan distribusi probabilitas. Mengutip Wasserman (2013):

Sebuah model statistik adalah seperangkat distribusi (atau kepadatan atau fungsi regresi). Sebuah Model parametrik adalah seperangkat yang dapat parameterized dengan jumlah terbatas parameter. [...] $\mathfrak{F}$ $\mathfrak{F}$

Secara umum, model parametrik mengambil bentuk

$F = {f (x; θ) : θ \in Θ}$ $\mathfrak{F} = \{ f (x; \theta) : \theta \in \Theta \}$
di mana adalah parameter yang tidak diketahui (atau vektor parameter) yang dapat mengambil nilai dalam ruang parameter . Jika adalah vektor tetapi kami hanya tertarik pada satu komponen , kami memanggil parameter yang tersisa sebagai parameter gangguan . Sebuah Model nonparametrik adalah seperangkat yang tidak dapat parameter dengan jumlah terbatas parameter. $\theta$ $\Theta$ $\theta$ $\theta$ $\mathfrak{F}$

Dalam banyak kasus kami menggunakan distribusi sebagai model (Anda dapat memeriksa contoh ini ). Anda dapat menggunakan distribusi binomial sebagai model jumlah kepala dalam serangkaian lemparan koin. Dalam kasus seperti itu kami mengasumsikan bahwa distribusi ini menggambarkan, dengan cara yang disederhanakan, hasil yang sebenarnya. Ini tidak berarti bahwa ini adalah satu-satunya cara bagaimana Anda dapat menggambarkan fenomena seperti itu, tidak juga bahwa distribusi binomial adalah sesuatu yang dapat digunakan hanya untuk tujuan ini. Model dapat menggunakan satu atau lebih distribusi, sementara model Bayesian juga menentukan distribusi sebelumnya.

Lebih formal ini dibahas oleh McCullaugh (2002):

Menurut teori yang diterima saat ini [Cox dan Hinkley (1974), Bab 1; Lehmann (1983), Bab 1; Barndorff-Nielsen dan Cox (1994), Bagian 1.1; Bernardo dan Smith (1994), Bab 4] model statistik adalah satu set distribusi probabilitas pada ruang sampel . Sebuah parameterized model statistik adalah parameter ditetapkan bersama dengan fungsi , yang ditunjuk untuk setiap titik parameter distribusi probabilitas pada . Di sini adalah himpunan semua $\mathcal{S}$ $\Theta$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $\mathcal{\theta \in \Theta}$ $P \theta$ $\mathcal{S}$ $\mathcal{P}(\mathcal{S})$ distribusi probabilitas pada . Dalam banyak hal berikut, penting untuk membedakan antara model sebagai fungsi , dan set distribusi terkait . $\mathcal{S}$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $P\Theta \subset \mathcal{P} (\mathcal{S})$

Jadi model statistik menggunakan distribusi probabilitas untuk menggambarkan data dalam istilah mereka. Model parametrik juga dijelaskan dalam hal set parameter hingga.

Ini tidak berarti bahwa semua metode statistik memerlukan distribusi probabilitas. Sebagai contoh, regresi linier sering digambarkan dalam hal asumsi normalitas , tetapi sebenarnya cukup kuat untuk menyimpang dari normalitas dan kita perlu asumsi tentang normalitas kesalahan untuk interval kepercayaan dan pengujian hipotesis. Jadi untuk regresi untuk bekerja kita tidak perlu asumsi seperti itu, tetapi untuk memiliki model statistik yang ditentukan sepenuhnya kita perlu menggambarkannya dalam hal variabel acak, jadi kita perlu distribusi probabilitas. Saya menulis tentang ini karena Anda sering dapat mendengar orang mengatakan bahwa mereka menggunakan model regresi untuk data mereka - dalam kebanyakan kasus seperti itu mereka lebih berarti bahwa mereka menggambarkan data dalam hal hubungan linier antara nilai target dan prediktor menggunakan beberapa parameter, daripada bersikeras pada kondisi normalitas.

McCullagh, P. (2002). Apa itu model statistik? Catatan statistik, 1225-1267.

Wasserman, L. (2013). Semua statistik: kursus singkat dalam inferensi statistik. Peloncat.

Tim
sumber

4

@ JCLeitão itu sebabnya saya menambahkan pemberitahuan;) OLS klasik hanya tentang menyesuaikan garis. Asumsi normal hanya tentang kebisingan sementara ide intinya adalah bahwa kita memodelkan E (y) sebagai fungsi linier X. Normalitas diperlukan untuk interval kepercayaan dan pengujian, tetapi regresi adalah tentang menyesuaikan garis dan kesalahan lebih kurang penting. (Secara longgar berbicara.)

Tim

Terima kasih atas jawaban Anda. Bisakah Anda memberikan 2 definisi ringkas untuk diringkas? (juga saya tidak mengerti baris terakhir

In much of the following, it is important to distinguish between the model as a function and the associated set of distributions

) Apakah Anda hanya membuat komentar tentang ambiguitas yang melekat antara dua makna yang berbagi istilah yang sama modelatau apakah saya kehilangan sesuatu?

AlanSTACK

@Alan dua definisi ringkas disediakan dalam dua paragraf pertama, sementara yang lebih ketat dalam kutipan dan referensi - dapatkah Anda menjelaskan apa yang tidak jelas? Seperti tentang baris terakhir dari kutipan: pada dasarnya dikatakan bahwa model didefinisikan dalam hal distribusi probabilitas dan parameter dan baik untuk diingat bahwa ada dua aspek, kadang-kadang baik untuk membedakannya. Saya merekomendasikan makalah yang dikutip untuk diskusi yang ketat (ini tersedia secara gratis di bawah tautan).

Tim

8

Anggap sebagai seperangkat tiket . Anda dapat menulis barang di tiket. Biasanya tiket dimulai dengan nama orang atau objek dunia nyata yang "diwakilinya" atau "model." Ada banyak ruang kosong di setiap tiket untuk menulis hal-hal lain. $\mathcal{S}$

Anda dapat membuat salinan setiap tiket sebanyak yang Anda inginkan. Sebuah model probabilitas untuk populasi dunia nyata ini atau proses terdiri dari membuat satu atau lebih salinan setiap tiket, pencampuran mereka, dan menempatkan mereka dalam sebuah kotak. Jika Anda - analis - dapat memastikan bahwa proses menggambar satu tiket secara acak dari kotak ini mengemulasikan semua perilaku penting dari apa yang Anda pelajari, maka Anda dapat belajar banyak tentang dunia dengan memikirkan kotak ini. Karena beberapa tiket mungkin lebih banyak di dalam kotak daripada yang lain, mereka mungkin memiliki peluang berbeda untuk ditarik. Teori probabilitas mempelajari peluang ini. $\mathbb{P}$

Ketika angka - angka ditulis di tiket (secara konsisten), mereka menimbulkan distribusi (probabilitas). Sebuah distribusi probabilitas hanya menggambarkan proporsi tiket di kotak yang jumlahnya terletak dalam setiap interval tertentu.

Karena kita biasanya tidak tahu persis bagaimana perilaku dunia, kita harus membayangkan kotak yang berbeda di mana tiket muncul dengan frekuensi relatif yang berbeda. Himpunan kotak-kotak ini adalah . Kami melihat dunia sebagai yang memadai dijelaskan oleh perilaku salah satu kotak di . Adalah tujuan Anda untuk membuat tebakan yang masuk akal tentang kotak itu, berdasarkan apa yang Anda lihat pada tiket yang telah Anda tarik. $\mathcal{P}$ $\mathcal{P}$

Sebagai contoh (yang praktis dan realistis, bukan mainan buku teks), misalkan Anda sedang mempelajari tingkat dari reaksi kimia karena bervariasi dengan suhu. Misalkan teori kimia memprediksi bahwa dalam kisaran suhu antara dan derajat, laju tersebut sebanding dengan suhu. $y$ $0$ $100$

Anda berencana untuk mempelajari reaksi ini pada dan derajat, membuat beberapa pengamatan pada setiap suhu. Karenanya, Anda membuat jumlah kotak yang sangat, sangat besar. Anda akan mengisi setiap kotak dengan tiket. Ada konstanta laju yang ditulis pada masing-masing. Semua tiket dalam kotak yang diberikan memiliki konstanta tarif yang sama. Kotak yang berbeda menggunakan konstanta laju yang berbeda. $0$ $100$

Dengan menggunakan kurs konstan yang tertulis pada tiket apa pun, Anda juga menuliskan kurs pada dan kurs pada derajat: panggil ini dan . Tapi ini belum cukup untuk model yang bagus. Ahli kimia juga tahu bahwa tidak ada zat yang murni, tidak ada kuantitas yang diukur secara tepat, dan bentuk lain dari variabilitas pengamatan terjadi. Untuk membuat model "kesalahan" ini, Anda membuat sangat banyak salinan tiket Anda. Pada setiap salinan Anda mengubah nilai dan . Pada sebagian besar dari mereka Anda mengubahnya hanya sedikit. Pada sangat sedikit, Anda mungkin banyak mengubahnya. Anda menuliskan nilai yang berubah sebanyak yang Anda rencanakan untuk diamati pada setiap suhu. Ini $0$ $100$ $y_0$ $y_{100}$ $y_0$ $y_{100}$ pengamatan menunjukkan kemungkinan hasil yang dapat diamati dari percobaan Anda. Ke dalam kotak pergi setiap set seperti tiket ini: itu adalah model probabilitas untuk apa yang Anda mungkin mengamati untuk tingkat konstan yang diberikan.

Apa yang Anda lakukan mengamati dimodelkan dengan menggambar tiket dari kotak yang dan membaca hanya pengamatan tertulis di sana. Anda tidak bisa melihat nilai yang mendasari (benar) dari atau . Anda tidak bisa membaca konstanta laju (benar). Itu tidak diberikan oleh percobaan Anda. $y_0$ $y_{100}$

Setiap model statistik harus membuat beberapa asumsi tentang tiket dalam kotak (hipotetis) ini. Misalnya, kami berharap bahwa ketika Anda mengubah nilai-nilai dan , Anda melakukannya tanpa secara konsisten meningkatkan atau secara konsisten menurunkan salah satu (secara keseluruhan, di dalam kotak): itu akan menjadi bentuk bias sistematis. $y_0$ $y_{100}$

Karena pengamatan yang ditulis pada setiap tiket adalah angka, mereka menimbulkan distribusi probabilitas. Asumsi yang dibuat tentang kotak biasanya diungkapkan dalam hal sifat distribusi tersebut, seperti apakah mereka harus rata-rata nol, simetris, memiliki bentuk "kurva lonceng", tidak berkorelasi, atau apa pun.

Itu benar-benar semua yang ada untuk itu. Banyak cara bahwa skala dua belas nada primitif memunculkan semua musik klasik Barat, koleksi kotak berisi tiket adalah konsep sederhana yang dapat digunakan dalam cara yang sangat kaya dan kompleks. Ia dapat memodelkan apa saja, mulai dari flip koin ke perpustakaan video, basis data interaksi Situs web, ansambel mekanika kuantum, dan apa pun yang dapat diamati dan direkam.

whuber
sumber

3

Definisi distribusi sebagai penetapan probabilitas untuk setiap peristiwa yang mungkin berlaku untuk distribusi diskrit, tetapi menjadi lebih sulit untuk distribusi kontinu, di mana misalnya angka apa pun pada garis nyata dapat menjadi hasilnya. Sangat sering ketika berbicara tentang distribusi, kami menganggap mereka memiliki parameter tetap seperti distribusi binomial yang memiliki dua parameter: pertama, jumlah pengamatan dan kedua probabilitas dari pengamatan tunggal menjadi suatu peristiwa. $\pi$

Model statistik parametrik khas menggambarkan bagaimana parameter distribusi bergantung pada hal-hal tertentu seperti faktor (variabel yang memiliki nilai diskrit) dan kovariat (variabel kontinu). Misalnya, jika dalam distribusi normal Anda mengasumsikan bahwa rata-rata dapat dijelaskan oleh beberapa angka tetap ("intersep") dan beberapa angka ("koefisien regresi") dikalikan nilai kovariat, Anda mendapatkan model regresi linier dengan istilah kesalahan yang didistribusikan secara normal. Untuk distribusi binomial, satu model yang umum digunakan ("regresi logistik" $\pi$ $\pi/(1-\pi)$ $\text{intercept}+\beta_1 \text{covariate}_1+\ldots$

Björn
sumber

2

Ya, tapi ... Model tidak hanya tentang parameter tetapi juga bisa tentang struktur masalah (misalnya model probabilstic yang menyerupai proses menghasilkan data yang diasumsikan); ada juga model non-parametrik.

Tim

2

Distribusi probabilitas memberikan semua informasi tentang bagaimana kuantitas acak berfluktuasi. Dalam praktiknya, kita biasanya tidak memiliki distribusi probabilitas penuh dari jumlah yang kita minati. Kita mungkin tahu atau berasumsi sesuatu tentang itu tanpa mengetahui atau berasumsi bahwa kita tahu segalanya tentang itu. Sebagai contoh, kita mungkin berasumsi bahwa beberapa kuantitas terdistribusi secara normal tetapi tidak tahu apa-apa tentang mean dan varians. Kemudian kami memiliki koleksi kandidat untuk distribusi untuk dipilih; dalam contoh kita, itu semua kemungkinan distribusi normal. Kumpulan distribusi ini membentuk model statistik. Kami menggunakannya dengan mengumpulkan data dan kemudian membatasi kelas kandidat kami sehingga semua kandidat yang tersisa konsisten dengan data dalam arti yang tepat.

Ian
sumber

2

Model ditentukan oleh PDF, tetapi ini bukan PDF.

Distribusi probabilitas (PDF) adalah fungsi yang menetapkan probabilitas ke angka dan hasilnya harus sesuai dengan aksioma probabilitas, seperti dijelaskan Tim .

Model sepenuhnya ditentukan oleh distribusi probabilitas, tetapi lebih dari itu. Dalam contoh melempar koin, model kami bisa menjadi "koin itu adil" + "setiap lemparan independen". Model ini ditentukan oleh PDF yang merupakan binomial dengan p = 0,5.

$P(x_1, x_2, x_3, ...)$

Satu perbedaan antara model dan PDF adalah bahwa model dapat ditafsirkan sebagai hipotesis statistik. Misalnya, dalam melempar koin, kita dapat mempertimbangkan model di mana koin itu adil (p = 0,5), dan bahwa setiap lemparan independen (binomial), dan mengatakan bahwa ini adalah hipotesis kami, yang ingin kami uji terhadap hipotesis yang bersaing. .

$p$ $p$

Jorge Leitao
sumber

Bisakah Anda menguraikan kalimat terakhir Anda? Itu tampaknya menjadi bagian utama dari statistik nonparametrik, bagi saya.

Ian

Saya selalu menafsirkan model non-parametrik sebagai kurang membatasi pada PDF x_i, tetapi itu masih membutuhkan PDF untuk statistik yang mereka gunakan. Misalnya korelasi peringkat Kendal mengasumsikan normalitas untuk menghitung nilai-p . Tapi bisa jadi ada contohnya. Saya akan tertarik.

Jorge Leitao

Saya hanya tidak mengerti apa yang Anda maksud ketika Anda mengatakan "tidak masuk akal untuk berbicara tentang PDF yang bersaing". Inilah yang sebenarnya kami lakukan, bahkan dalam statistik parametrik: kami memiliki banyak PDF yang kami pikir mungkin valid untuk masalah tersebut, kami mengambil beberapa data, dan kami menyimpulkan dari data bahwa beberapa subset dari PDF kami lebih baik. Lalu kami mengukur apa yang kami maksud dengan "lebih baik". (Juga, dalam konteks dasar, Anda benar-benar tidak boleh menggunakan "PDF" untuk semuanya. Dalam pengertian distribusi, ini pada akhirnya berhasil, tetapi ini adalah mesin yang cukup canggih ...)

Ian

A model is specified by a PDFSaya tidak setuju. Model mungkin juga ditentukan oleh banyak PDF. Dan model mungkin ditentukan tanpa PDF: pikirkan sesuatu seperti SVM atau pohon regresi.

Ricardo Cruz

2

Anda mengajukan pertanyaan yang sangat penting, Alan, dan telah menerima beberapa jawaban bagus di atas. Saya ingin menawarkan jawaban yang lebih sederhana, dan juga menunjukkan dimensi tambahan pada perbedaan yang belum diatasi oleh jawaban di atas. Untuk mempermudah, semua yang akan saya katakan di sini berkaitan dengan model statistik parametrik .

$y = a x^2 + b x + c$ $y = m x + b$ $F = -k x$ $m$ $b$ $k$

Jadi, jawaban singkat saya # 1 untuk pertanyaan Anda adalah: model statistik adalah keluarga distribusi.

Poin selanjutnya yang ingin saya sampaikan terkait dengan kualifikasi, statistik . Seperti yang Judea Pearl tunjukkan dalam "aturan emas analisis sebab akibat" [1, p350],

Tidak ada klaim kausal yang dapat ditetapkan dengan metode statistik murni, baik itu skor kecenderungan, regresi, stratifikasi, atau desain berbasis distribusi lainnya.

$F=-kx$ yaitu pernyataan tentang distribusi probabilitas.

Dengan demikian, Jawaban saya # 2 untuk pertanyaan Anda adalah: model biasanya mewujudkan ide-ide kausal yang tidak dapat diungkapkan dalam bentuk distribusi murni.

[1]: Mutiara, Yudea. Kausalitas: Model, Penalaran dan Inferensi. Edisi ke-2. Cambridge, Inggris; New York: Cambridge University Press, 2009. Tautan ke §11.3.5, termasuk yang dikutip hal. 351.

David C. Norris
sumber

Maafkan ketidaktahuan saya, tetapi apa yang Anda maksud dengan kata itu causal? Apakah ada makna yang lebih bernuansa terhadapnya atau apakah itu hanya merujuk pada pengertian causalitydan hubungan yang terikat antara causesdan effects? Terima kasih atas jawaban Anda, btw.

AlanSTACK

Pengetahuan kausal melibatkan efek intervensi . Jika Anda memiliki pengetahuan kausal, maka Anda tahu bagaimana suatu sistem akan merespons tindakan yang Anda buat. (Lihat refrain umum, "asosiasi bukan sebab-akibat.") Salah satu cara untuk menghargai bagaimana pengetahuan kausal berada di luar provinsi statistik semata adalah dengan mempertimbangkan contoh Hukum Hooke yang saya sebutkan di atas. Tergantung pada bagaimana pegas digunakan (misalnya, dalam skala ikan vs pistol mainan pegas), the

F

$F$ mungkin menyebabkan

x

$x$ atau sebaliknya. Namun

F = - k x

$F=-kx$ adalah bertentangan dengan kausalitas di sini (karena

=

$=$ adalah hubungan simetris).

David C. Norris

Dalam istilah awam, apa perbedaan antara model dan distribusi?

Jawaban: