Dalam analisis regresi, apa perbedaan antara 'proses pembuatan data' dan 'model'?
econometrics
Babi terbang
sumber
sumber
Jawaban:
Kita semua memiliki pengertian yang baik tentang apa yang dimaksud dengan "model", walaupun definisi teknisnya akan bervariasi di antara berbagai disiplin ilmu. Untuk membandingkan ini dengan DGP, saya mulai dengan melihat lima hit teratas (menghitung dua hit dengan penulis yang sama dengan satu) di Googling "proses pembuatan data".
Sebuah makalah tentang bagaimana Angkatan Udara AS sebenarnya membuat data dalam dukungan logistik.
Abstrak makalah yang diterbitkan dalam Lingkungan dan Perencanaan A tentang bagaimana "populasi mikro sintetis" dibuat melalui komputer "model simulasi."
Sebuah halaman web pada "generasi data sintetik"; yaitu, simulasi "untuk mengeksplorasi efek karakteristik data tertentu pada ... model."
Abstrak makalah konferensi dalam penambangan data, menyatakan bahwa "data dalam database adalah hasil dari proses pembuatan data yang mendasarinya (dgp)."
Sebuah bab buku yang mencirikan data bunga sebagai "yang timbul dari beberapa transformasi dari yang mendasari [stochastic] proses V t ... beberapa atau semua [yang] mungkin tidak teramati ..."Wt Vt
Tautan ini menunjukkan tiga penggunaan yang sedikit berbeda namun terkait erat dengan istilah "proses pembuatan data." Yang paling umum adalah dalam konteks simulasi statistik. Yang lain merujuk pada sarana aktual dimana data dibuat dalam situasi yang sedang berlangsung (logistik) dan ke model probabilitas untuk prosedur pembuatan data yang sedang berlangsung, dimaksudkan untuk tidak dianalisis secara langsung. Dalam kasus terakhir, teks membedakan proses stokastik yang tidak dapat diamati, yang dimodelkan secara matematis, dari angka aktual yang akan dianalisis.
Ini menyarankan dua jawaban yang sedikit berbeda dapat dipertahankan:
Dalam konteks simulasi atau membuat data "sintetis" untuk analisis, "proses pembuatan data" adalah cara untuk membuat data untuk studi selanjutnya, biasanya dengan menggunakan generator nomor acak pseudo komputer. Analisis secara implisit akan mengadopsi beberapa model yang menggambarkan sifat matematika DGP ini.
Dalam konteks analisis statistik, kita mungkin ingin membedakan fenomena dunia nyata (DGP) dari pengamatan yang akan dianalisis. Kami memiliki model untuk fenomena dan pengamatan serta model untuk bagaimana keduanya terhubung.
sumber
DGP adalah model yang sebenarnya. Model tersebut adalah apa yang kami coba, dengan menggunakan keterampilan terbaik kami, untuk mewakili keadaan alam yang sebenarnya. DGP dipengaruhi oleh "noise". Kebisingan bisa bermacam-macam:
Jika Anda tidak mengontrol 6 item ini, maka kemampuan Anda untuk mengidentifikasi DGP yang sebenarnya berkurang.
sumber
Jawaban Whuber sangat bagus, tetapi perlu ditambahkan penekanan pada fakta bahwa model statistik tidak harus menyerupai model penghasil data dalam segala hal untuk menjadi model yang sesuai untuk eksplorasi data yang inferensial. Liu dan Meng menjelaskan hal itu dengan sangat jelas dalam makalah arXived terbaru mereka ( http://arxiv.org/abs/1510.08539 ):
sumber
DGP adalah realitas virtual dan resep unik untuk simulasi. Model adalah kumpulan DGP atau cara yang memungkinkan data dihasilkan.
Baca halaman pertama kursus mini ini oleh Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf
sumber