Apakah model cocok dengan data atau data cocok dengan model?

20

Apakah ada perbedaan konseptual atau prosedural antara pemasangan model ke data dan fitting data ke model? Contoh dari kata-kata pertama dapat dilihat di https://courses.washington.edu/matlab1/ModelFitting.html , dan yang kedua di https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

enjayes
sumber
7
+1 Saya tidak terkesan oleh tautan kedua, tetapi saya terhibur.
The Laconic
Banyak model yang cocok dengan data saat ini, tetapi data biasanya paling cocok dengan satu model
Agnius Vasiliauskas

Jawaban:

35

Hampir setiap sumber atau orang yang pernah berinteraksi dengan saya kecuali sumber Wolfram yang Anda tautkan merujuk pada proses yang sesuai dengan model untuk data . Ini masuk akal, karena model adalah objek dinamis dan datanya statis (alias tetap dan konstan).

Untuk menjelaskannya, saya menyukai pendekatan Larry Wasserman untuk ini. Dalam ceritanya, model statistik adalah kumpulan distribusi. Misalnya, koleksi semua distribusi normal:

{Normal(μ,σ):μ,σR,σ>0}

atau himpunan semua distribusi Poisson:

{Poisson(λ):λR,λ>0}

Menyesuaikan distribusi ke data adalah algoritma apa pun yang menggabungkan model statistik dengan sekumpulan data (data tetap), dan memilih dengan tepat salah satu distribusi dari model tersebut sebagai yang "terbaik" mencerminkan data.

Modelnya adalah sesuatu yang berubah (semacam): kita menciutkannya dari seluruh kumpulan kemungkinan menjadi satu pilihan terbaik. Data hanyalah data; tidak ada yang terjadi sama sekali.

Matthew Drury
sumber
16

Di bidang pemodelan Rasch adalah umum untuk menyesuaikan data dengan model. Model ini diasumsikan benar dan merupakan tugas analis untuk menemukan data yang sesuai dengannya. The artikel Wikipedia pada Rasch berisi rincian lebih lanjut tentang bagaimana dan mengapa.

Tetapi saya setuju dengan yang lain bahwa secara umum dalam statistik kami menyesuaikan model dengan data karena kami dapat mengubah model tetapi dirasa sebagai bentuk yang buruk untuk memilih atau memodifikasi data.

Nyonya
sumber
7

Biasanya, data yang diamati diperbaiki sementara model bisa berubah-ubah (misalnya karena parameter diperkirakan), jadi itu adalah model yang dibuat agar sesuai dengan data, bukan sebaliknya . (Biasanya orang memaksudkan kasus ini ketika mereka mengatakan ekspresi apa pun.)

Ketika orang mengatakan mereka mencocokkan data dengan model, saya mendapati diri saya mencoba untuk mencari tahu apa yang mereka lakukan terhadap data? .

[Sekarang jika Anda mengubah data , itu bisa dibilang 'pas data dengan model', tetapi orang hampir tidak pernah mengatakan itu untuk kasus ini.]

Glen_b -Reinstate Monica
sumber
5
Menghapus outlier juga (bisa dibilang) akan menjadi "pas data ke model".
Federico Poloni
1
Ungkapan mungkin masuk akal jika mereka menganggapnya "pas (data ke model)". Artinya, Anda sedang melakukan proses pemasangan, dan proses pemasangan itu dimulai dari data dan mengubahnya menjadi model. Saya setuju itu adalah interpretasi yang kurang umum / akurat versus parse "(pas X) ke Y", tapi saya meletakkannya di sana sebagai alasan mengapa seseorang mungkin secara logis mengatakannya.
RM
1
@FedericoPoloni Outliers biasanya ditentukan secara terpisah dari model yang nanti ingin Anda gunakan. Jadi bahkan jika kita ingin menyebutnya data pas, itu tidak akan menjadi model, tetapi untuk sesuatu yang lain.
BartoszKP
1
+1. Ada alasan yang disebut "data" - itulah yang diberikan , lihat asal kata Latin
Christoph Hanck
2

Biasanya, kami menganggap data kami sesuai dengan "dunia nyata" dan membuat modifikasi berarti kami menjauh dari pemodelan "dunia nyata". Sebagai contoh, seseorang harus berhati-hati menghapus outlier karena meskipun itu membuat perhitungan lebih bagus, outlier masih menjadi bagian dari data kami.

Saat menguji model atau memperkirakan properti estimator menggunakan bootstrap atau teknik resampling lainnya, kami dapat mensimulasikan data baru menggunakan model estimasi dan data asli kami. Ini membuat asumsi bahwa model itu benar, dan kami tidak mengubah data asli kami.

qwr
sumber