Jawaban (definisi) yang didefinisikan di Wikipedia bisa dibilang sedikit samar bagi mereka yang tidak terbiasa dengan matematika / statistik yang lebih tinggi.
Dalam istilah matematika, model statistik biasanya dianggap sebagai pasangan ( ), di mana adalah himpunan pengamatan yang mungkin, yaitu ruang sampel, dan adalah seperangkat distribusi probabilitas pada . S P S
Dalam probabilitas dan statistik, distribusi probabilitas memberikan probabilitas untuk setiap subset terukur dari kemungkinan hasil eksperimen acak, survei, atau prosedur inferensi statistik. Contoh ditemukan ruang sampel yang non-numerik, di mana distribusi akan menjadi distribusi kategorikal.
Saya seorang siswa sekolah menengah yang sangat tertarik pada bidang ini sebagai hobi dan saat ini saya berjuang dengan perbedaan antara apa yang merupakan statistical model
danprobability distribution
Pemahaman saya saat ini, dan sangat mendasar, adalah ini:
model statistik adalah upaya matematika untuk memperkirakan distribusi yang diukur
distribusi probabilitas adalah deskripsi yang diukur dari percobaan yang menetapkan probabilitas untuk setiap hasil yang mungkin dari peristiwa acak
kebingungan semakin diperparah oleh kecenderungan dalam literatur untuk melihat kata "distribusi" dan "model" digunakan secara bergantian - atau setidaknya dalam situasi yang sangat mirip (misalnya distribusi binomial vs model binomial)
Dapatkah seseorang memverifikasi / mengoreksi definisi saya, dan mungkin menawarkan pendekatan yang lebih formal (walaupun masih dalam bahasa Inggris sederhana) untuk konsep-konsep ini?
sumber
Jawaban:
Distribusi probabilitas adalah fungsi matematika yang menggambarkan variabel acak. Sedikit lebih tepatnya, ini adalah fungsi yang menetapkan probabilitas ke angka dan outputnya harus setuju dengan aksioma probabilitas .
Model statistik adalah deskripsi abstrak dan ideal tentang beberapa fenomena dalam istilah matematika menggunakan distribusi probabilitas. Mengutip Wasserman (2013):
Dalam banyak kasus kami menggunakan distribusi sebagai model (Anda dapat memeriksa contoh ini ). Anda dapat menggunakan distribusi binomial sebagai model jumlah kepala dalam serangkaian lemparan koin. Dalam kasus seperti itu kami mengasumsikan bahwa distribusi ini menggambarkan, dengan cara yang disederhanakan, hasil yang sebenarnya. Ini tidak berarti bahwa ini adalah satu-satunya cara bagaimana Anda dapat menggambarkan fenomena seperti itu, tidak juga bahwa distribusi binomial adalah sesuatu yang dapat digunakan hanya untuk tujuan ini. Model dapat menggunakan satu atau lebih distribusi, sementara model Bayesian juga menentukan distribusi sebelumnya.
Lebih formal ini dibahas oleh McCullaugh (2002):
Jadi model statistik menggunakan distribusi probabilitas untuk menggambarkan data dalam istilah mereka. Model parametrik juga dijelaskan dalam hal set parameter hingga.
Ini tidak berarti bahwa semua metode statistik memerlukan distribusi probabilitas. Sebagai contoh, regresi linier sering digambarkan dalam hal asumsi normalitas , tetapi sebenarnya cukup kuat untuk menyimpang dari normalitas dan kita perlu asumsi tentang normalitas kesalahan untuk interval kepercayaan dan pengujian hipotesis. Jadi untuk regresi untuk bekerja kita tidak perlu asumsi seperti itu, tetapi untuk memiliki model statistik yang ditentukan sepenuhnya kita perlu menggambarkannya dalam hal variabel acak, jadi kita perlu distribusi probabilitas. Saya menulis tentang ini karena Anda sering dapat mendengar orang mengatakan bahwa mereka menggunakan model regresi untuk data mereka - dalam kebanyakan kasus seperti itu mereka lebih berarti bahwa mereka menggambarkan data dalam hal hubungan linier antara nilai target dan prediktor menggunakan beberapa parameter, daripada bersikeras pada kondisi normalitas.
McCullagh, P. (2002). Apa itu model statistik? Catatan statistik, 1225-1267.
Wasserman, L. (2013). Semua statistik: kursus singkat dalam inferensi statistik. Peloncat.
sumber
In much of the following, it is important to distinguish between the model as a function and the associated set of distributions
) Apakah Anda hanya membuat komentar tentang ambiguitas yang melekat antara dua makna yang berbagi istilah yang samamodel
atau apakah saya kehilangan sesuatu?Anggap sebagai seperangkat tiket . Anda dapat menulis barang di tiket. Biasanya tiket dimulai dengan nama orang atau objek dunia nyata yang "diwakilinya" atau "model." Ada banyak ruang kosong di setiap tiket untuk menulis hal-hal lain.S
Anda dapat membuat salinan setiap tiket sebanyak yang Anda inginkan. Sebuah model probabilitas untuk populasi dunia nyata ini atau proses terdiri dari membuat satu atau lebih salinan setiap tiket, pencampuran mereka, dan menempatkan mereka dalam sebuah kotak. Jika Anda - analis - dapat memastikan bahwa proses menggambar satu tiket secara acak dari kotak ini mengemulasikan semua perilaku penting dari apa yang Anda pelajari, maka Anda dapat belajar banyak tentang dunia dengan memikirkan kotak ini. Karena beberapa tiket mungkin lebih banyak di dalam kotak daripada yang lain, mereka mungkin memiliki peluang berbeda untuk ditarik. Teori probabilitas mempelajari peluang ini.P
Ketika angka - angka ditulis di tiket (secara konsisten), mereka menimbulkan distribusi (probabilitas). Sebuah distribusi probabilitas hanya menggambarkan proporsi tiket di kotak yang jumlahnya terletak dalam setiap interval tertentu.
Karena kita biasanya tidak tahu persis bagaimana perilaku dunia, kita harus membayangkan kotak yang berbeda di mana tiket muncul dengan frekuensi relatif yang berbeda. Himpunan kotak-kotak ini adalah . Kami melihat dunia sebagai yang memadai dijelaskan oleh perilaku salah satu kotak di P . Adalah tujuan Anda untuk membuat tebakan yang masuk akal tentang kotak itu, berdasarkan apa yang Anda lihat pada tiket yang telah Anda tarik.P P
Sebagai contoh (yang praktis dan realistis, bukan mainan buku teks), misalkan Anda sedang mempelajari tingkat dari reaksi kimia karena bervariasi dengan suhu. Misalkan teori kimia memprediksi bahwa dalam kisaran suhu antara 0 dan 100 derajat, laju tersebut sebanding dengan suhu.y 0 100
Anda berencana untuk mempelajari reaksi ini pada dan 100 derajat, membuat beberapa pengamatan pada setiap suhu. Karenanya, Anda membuat jumlah kotak yang sangat, sangat besar. Anda akan mengisi setiap kotak dengan tiket. Ada konstanta laju yang ditulis pada masing-masing. Semua tiket dalam kotak yang diberikan memiliki konstanta tarif yang sama. Kotak yang berbeda menggunakan konstanta laju yang berbeda.0 100
Dengan menggunakan kurs konstan yang tertulis pada tiket apa pun, Anda juga menuliskan kurs pada dan kurs pada 100 derajat: panggil ini y 0 dan y 100 . Tapi ini belum cukup untuk model yang bagus. Ahli kimia juga tahu bahwa tidak ada zat yang murni, tidak ada kuantitas yang diukur secara tepat, dan bentuk lain dari variabilitas pengamatan terjadi. Untuk membuat model "kesalahan" ini, Anda membuat sangat banyak salinan tiket Anda. Pada setiap salinan Anda mengubah nilai y 0 dan y 100 . Pada sebagian besar dari mereka Anda mengubahnya hanya sedikit. Pada sangat sedikit, Anda mungkin banyak mengubahnya. Anda menuliskan nilai yang berubah sebanyak yang Anda rencanakan untuk diamati pada setiap suhu. Ini0 100 y0 y100 y0 y100 pengamatan menunjukkan kemungkinan hasil yang dapat diamati dari percobaan Anda. Ke dalam kotak pergi setiap set seperti tiket ini: itu adalah model probabilitas untuk apa yang Anda mungkin mengamati untuk tingkat konstan yang diberikan.
Apa yang Anda lakukan mengamati dimodelkan dengan menggambar tiket dari kotak yang dan membaca hanya pengamatan tertulis di sana. Anda tidak bisa melihat nilai yang mendasari (benar) dari atau y 100 . Anda tidak bisa membaca konstanta laju (benar). Itu tidak diberikan oleh percobaan Anda.y0 y100
Setiap model statistik harus membuat beberapa asumsi tentang tiket dalam kotak (hipotetis) ini. Misalnya, kami berharap bahwa ketika Anda mengubah nilai-nilai dan y 100 , Anda melakukannya tanpa secara konsisten meningkatkan atau secara konsisten menurunkan salah satu (secara keseluruhan, di dalam kotak): itu akan menjadi bentuk bias sistematis.y0 y100
Karena pengamatan yang ditulis pada setiap tiket adalah angka, mereka menimbulkan distribusi probabilitas. Asumsi yang dibuat tentang kotak biasanya diungkapkan dalam hal sifat distribusi tersebut, seperti apakah mereka harus rata-rata nol, simetris, memiliki bentuk "kurva lonceng", tidak berkorelasi, atau apa pun.
Itu benar-benar semua yang ada untuk itu. Banyak cara bahwa skala dua belas nada primitif memunculkan semua musik klasik Barat, koleksi kotak berisi tiket adalah konsep sederhana yang dapat digunakan dalam cara yang sangat kaya dan kompleks. Ia dapat memodelkan apa saja, mulai dari flip koin ke perpustakaan video, basis data interaksi Situs web, ansambel mekanika kuantum, dan apa pun yang dapat diamati dan direkam.
sumber
Definisi distribusi sebagai penetapan probabilitas untuk setiap peristiwa yang mungkin berlaku untuk distribusi diskrit, tetapi menjadi lebih sulit untuk distribusi kontinu, di mana misalnya angka apa pun pada garis nyata dapat menjadi hasilnya. Sangat sering ketika berbicara tentang distribusi, kami menganggap mereka memiliki parameter tetap seperti distribusi binomial yang memiliki dua parameter: pertama, jumlah pengamatan dan kedua probabilitas dari pengamatan tunggal menjadi suatu peristiwa.π
Model statistik parametrik khas menggambarkan bagaimana parameter distribusi bergantung pada hal-hal tertentu seperti faktor (variabel yang memiliki nilai diskrit) dan kovariat (variabel kontinu). Misalnya, jika dalam distribusi normal Anda mengasumsikan bahwa rata-rata dapat dijelaskan oleh beberapa angka tetap ("intersep") dan beberapa angka ("koefisien regresi") dikalikan nilai kovariat, Anda mendapatkan model regresi linier dengan istilah kesalahan yang didistribusikan secara normal. Untuk distribusi binomial, satu model yang umum digunakan ("regresi logistik"π π/(1−π) intercept+β1covariate1+…
sumber
Distribusi probabilitas memberikan semua informasi tentang bagaimana kuantitas acak berfluktuasi. Dalam praktiknya, kita biasanya tidak memiliki distribusi probabilitas penuh dari jumlah yang kita minati. Kita mungkin tahu atau berasumsi sesuatu tentang itu tanpa mengetahui atau berasumsi bahwa kita tahu segalanya tentang itu. Sebagai contoh, kita mungkin berasumsi bahwa beberapa kuantitas terdistribusi secara normal tetapi tidak tahu apa-apa tentang mean dan varians. Kemudian kami memiliki koleksi kandidat untuk distribusi untuk dipilih; dalam contoh kita, itu semua kemungkinan distribusi normal. Kumpulan distribusi ini membentuk model statistik. Kami menggunakannya dengan mengumpulkan data dan kemudian membatasi kelas kandidat kami sehingga semua kandidat yang tersisa konsisten dengan data dalam arti yang tepat.
sumber
Model ditentukan oleh PDF, tetapi ini bukan PDF.
Distribusi probabilitas (PDF) adalah fungsi yang menetapkan probabilitas ke angka dan hasilnya harus sesuai dengan aksioma probabilitas, seperti dijelaskan Tim .
Model sepenuhnya ditentukan oleh distribusi probabilitas, tetapi lebih dari itu. Dalam contoh melempar koin, model kami bisa menjadi "koin itu adil" + "setiap lemparan independen". Model ini ditentukan oleh PDF yang merupakan binomial dengan p = 0,5.
Satu perbedaan antara model dan PDF adalah bahwa model dapat ditafsirkan sebagai hipotesis statistik. Misalnya, dalam melempar koin, kita dapat mempertimbangkan model di mana koin itu adil (p = 0,5), dan bahwa setiap lemparan independen (binomial), dan mengatakan bahwa ini adalah hipotesis kami, yang ingin kami uji terhadap hipotesis yang bersaing. .
sumber
A model is specified by a PDF
Saya tidak setuju. Model mungkin juga ditentukan oleh banyak PDF. Dan model mungkin ditentukan tanpa PDF: pikirkan sesuatu seperti SVM atau pohon regresi.Anda mengajukan pertanyaan yang sangat penting, Alan, dan telah menerima beberapa jawaban bagus di atas. Saya ingin menawarkan jawaban yang lebih sederhana, dan juga menunjukkan dimensi tambahan pada perbedaan yang belum diatasi oleh jawaban di atas. Untuk mempermudah, semua yang akan saya katakan di sini berkaitan dengan model statistik parametrik .
Jadi, jawaban singkat saya # 1 untuk pertanyaan Anda adalah: model statistik adalah keluarga distribusi.
Poin selanjutnya yang ingin saya sampaikan terkait dengan kualifikasi, statistik . Seperti yang Judea Pearl tunjukkan dalam "aturan emas analisis sebab akibat" [1, p350],
Dengan demikian, Jawaban saya # 2 untuk pertanyaan Anda adalah: model biasanya mewujudkan ide-ide kausal yang tidak dapat diungkapkan dalam bentuk distribusi murni.
[1]: Mutiara, Yudea. Kausalitas: Model, Penalaran dan Inferensi. Edisi ke-2. Cambridge, Inggris; New York: Cambridge University Press, 2009. Tautan ke §11.3.5, termasuk yang dikutip hal. 351.
sumber
causal
? Apakah ada makna yang lebih bernuansa terhadapnya atau apakah itu hanya merujuk pada pengertiancausality
dan hubungan yang terikat antaracauses
daneffects
? Terima kasih atas jawaban Anda, btw.