Dalam analisis regresi, apa perbedaan antara proses dan model pembuatan data?

19

Dalam analisis regresi, apa perbedaan antara 'proses pembuatan data' dan 'model'?

Babi terbang
sumber
1
Proses pembuatan data tidak pernah diketahui, kami memilih model dengan harapan kami memperkirakan proses pembuatan data dengan cukup. Itu adalah salah satu jawaban yang mungkin, akan membantu jika Anda memberikan lebih banyak konteks, jadi lebih jelas apa jenis jawaban yang Anda cari. Lihat obrolan, klub jurnal yang sedang berlangsung membahas artikel tempat masalah ini diangkat.
mpiktas
3
Jawaban atas pertanyaan ini akan bervariasi, sebagaimana seharusnya, karena "proses pembuatan data" dan "model" digunakan dalam berbagai cara oleh berbagai penulis. @ Weijie, apakah Anda memiliki referensi tertentu dalam pikiran?
whuber

Jawaban:

15

Kita semua memiliki pengertian yang baik tentang apa yang dimaksud dengan "model", walaupun definisi teknisnya akan bervariasi di antara berbagai disiplin ilmu. Untuk membandingkan ini dengan DGP, saya mulai dengan melihat lima hit teratas (menghitung dua hit dengan penulis yang sama dengan satu) di Googling "proses pembuatan data".

  1. Sebuah makalah tentang bagaimana Angkatan Udara AS sebenarnya membuat data dalam dukungan logistik.

  2. Abstrak makalah yang diterbitkan dalam Lingkungan dan Perencanaan A tentang bagaimana "populasi mikro sintetis" dibuat melalui komputer "model simulasi."

  3. Sebuah halaman web pada "generasi data sintetik"; yaitu, simulasi "untuk mengeksplorasi efek karakteristik data tertentu pada ... model."

  4. Abstrak makalah konferensi dalam penambangan data, menyatakan bahwa "data dalam database adalah hasil dari proses pembuatan data yang mendasarinya (dgp)."

  5. Sebuah bab buku yang mencirikan data bunga sebagai "yang timbul dari beberapa transformasi dari yang mendasari [stochastic] proses V t ... beberapa atau semua [yang] mungkin tidak teramati ..."WtVt

Tautan ini menunjukkan tiga penggunaan yang sedikit berbeda namun terkait erat dengan istilah "proses pembuatan data." Yang paling umum adalah dalam konteks simulasi statistik. Yang lain merujuk pada sarana aktual dimana data dibuat dalam situasi yang sedang berlangsung (logistik) dan ke model probabilitas untuk prosedur pembuatan data yang sedang berlangsung, dimaksudkan untuk tidak dianalisis secara langsung. Dalam kasus terakhir, teks membedakan proses stokastik yang tidak dapat diamati, yang dimodelkan secara matematis, dari angka aktual yang akan dianalisis.

Ini menyarankan dua jawaban yang sedikit berbeda dapat dipertahankan:

  1. Dalam konteks simulasi atau membuat data "sintetis" untuk analisis, "proses pembuatan data" adalah cara untuk membuat data untuk studi selanjutnya, biasanya dengan menggunakan generator nomor acak pseudo komputer. Analisis secara implisit akan mengadopsi beberapa model yang menggambarkan sifat matematika DGP ini.

  2. Dalam konteks analisis statistik, kita mungkin ingin membedakan fenomena dunia nyata (DGP) dari pengamatan yang akan dianalisis. Kami memiliki model untuk fenomena dan pengamatan serta model untuk bagaimana keduanya terhubung.

(X,Y)i(X1i,X2i,,Xpi,Yi)i=1,2,,nXjiYiYiXβσ2βσ

whuber
sumber
Anda menulis kata-kata "penyebab" atau "terkait". Saya punya pertanyaan tentang ini. Dari jawaban Anda tampaknya konsep DGP tidak menyiratkan sebab-akibat. Namun "hubungan" ini lebih dari sekadar korelasi (atau jenis hubungan apa pun) atau tidak? Lihat juga ini pertanyaan saya yang terkait: stats.stackexchange.com/questions/399671/…
markowitz
@markowitz "Korelasi," sebenarnya, mengacu pada momen kedua dari variabel acak bivariat. Saya menggunakan "terkait" dalam arti yang lebih luas "tidak [secara statistik] independen."
whuber
Saya tahu, dan tepat untuk alasan ini saya menyatakan "atau segala jenis asosiasi [hanya statistik]". Dapatkah saya mengulangi pertanyaan saya sebagai: Namun apakah "hubungan" ini lebih dari sekadar asosiasi atau tidak? Mulai dari konsep "true model", kadang-kadang digunakan sebagai sinonim dari DGP, sepertinya sesuatu yang lebih. Jika demikian, saya tidak mengerti persis apa itu. Tautan saya sebelumnya memberi contoh.
markowitz
@ Markowitz Saya khawatir saya tidak mengerti apa yang ingin Anda tanyakan. Itu mungkin karena saya tidak yakin apa yang Anda maksud tepatnya dengan "hubungan" atau "hubungan." Saya memang melihat tautan Anda, tetapi penggunaan bahasa Inggris yang tidak biasa tidak memberikan sesuatu yang berarti bagi saya.
whuber
Saya minta maaf untuk bahasa Inggris saya. Saya mencoba mengubah pertanyaan yang ditautkan dalam arti yang lebih jelas. Saya harap ini bisa dimengerti.
markowitz
4

DGP adalah model yang sebenarnya. Model tersebut adalah apa yang kami coba, dengan menggunakan keterampilan terbaik kami, untuk mewakili keadaan alam yang sebenarnya. DGP dipengaruhi oleh "noise". Kebisingan bisa bermacam-macam:

  1. Intervensi satu kali
  2. Level bergeser
  3. Tren
  4. Perubahan Musiman
  5. Perubahan Parameter Model
  6. Perubahan Varian

Jika Anda tidak mengontrol 6 item ini, maka kemampuan Anda untuk mengidentifikasi DGP yang sebenarnya berkurang.

Tom Reilly
sumber
4

Jawaban Whuber sangat bagus, tetapi perlu ditambahkan penekanan pada fakta bahwa model statistik tidak harus menyerupai model penghasil data dalam segala hal untuk menjadi model yang sesuai untuk eksplorasi data yang inferensial. Liu dan Meng menjelaskan hal itu dengan sangat jelas dalam makalah arXived terbaru mereka ( http://arxiv.org/abs/1510.08539 ):

Kesalahpahaman 1. Model probabilitas harus menggambarkan pembuatan data.

θ). Tidak ada titik ini lebih jelas daripada dalam aplikasi yang melibatkan percobaan komputer di mana pola probabilistik digunakan untuk menggambarkan data mengikuti pola deterministik yang diketahui (tapi sangat rumit) (Kennedy dan O'Hagan, 2001; Conti et al., 2009). Kita membutuhkan model deskriptif, belum tentu model generatif. Lihat Lehmann (1990), Breiman (2001) dan Hansen dan Yu (2001) untuk informasi lebih lanjut tentang hal ini.

Michael Lew
sumber
+1. Saya terutama menyukai perbedaan antara model data deskriptif dan generatif .
whuber