Kembali pada bulan April, saya menghadiri ceramah di seri seminar kelompok Statistik Departemen Matematika UMD yang disebut "To Explain or To Predict?". Pembicaraan diberikan oleh Prof. Galit Shmueli yang mengajar di Smith Business School UMD. Ceramahnya didasarkan pada penelitian yang dia lakukan untuk makalah yang berjudul "Pemodelan Prediktif vs Penjelasan dalam Penelitian IS" , dan makalah kerja lanjutan berjudul "Untuk Menjelaskan atau Memprediksi?" .
Argumen Dr. Shmueli adalah bahwa istilah yang prediktif dan jelas dalam konteks pemodelan statistik telah digabungkan, dan bahwa literatur statistik tidak memiliki diskusi menyeluruh tentang perbedaan. Dalam makalahnya, ia membandingkan keduanya dan berbicara tentang implikasi praktisnya. Saya mendorong Anda untuk membaca koran.
Pertanyaan yang ingin saya ajukan kepada komunitas praktisi adalah:
- Bagaimana Anda mendefinisikan latihan prediksi vs latihan penjelasan / deskriptif? Akan berguna jika Anda dapat berbicara tentang aplikasi spesifik.
- Pernahkah Anda jatuh ke dalam perangkap menggunakan satu ketika bermaksud menggunakan yang lain? Tentu saja aku punya. Bagaimana Anda tahu yang mana yang harus digunakan?
sumber
Jawaban:
Dalam satu kalimat
Pemodelan prediktif adalah semua tentang "apa yang mungkin terjadi?", Sedangkan pemodelan penjelasan adalah semua tentang "apa yang bisa kita lakukan?"
Dalam banyak kalimat
Saya pikir perbedaan utama adalah apa yang dimaksudkan untuk dilakukan dengan analisis. Saya akan menyarankan penjelasan jauh lebih penting untuk intervensi daripada prediksi. Jika Anda ingin melakukan sesuatu untuk mengubah suatu hasil, maka Anda sebaiknya berusaha menjelaskan mengapa memang demikian adanya. Pemodelan penjelasan, jika dilakukan dengan baik, akan memberi tahu Anda cara mengintervensi (input mana yang harus disesuaikan). Namun, jika Anda hanya ingin memahami seperti apa masa depan, tanpa niat (atau kemampuan) untuk melakukan intervensi, maka pemodelan prediktif lebih mungkin lebih tepat.
Sebagai contoh yang sangat longgar, menggunakan "data kanker".
Pemodelan prediktif menggunakan "data kanker" akan sesuai (atau setidaknya berguna) jika Anda mendanai bangsal kanker di rumah sakit yang berbeda. Anda tidak benar-benar perlu menjelaskan mengapa orang terkena kanker, tetapi Anda hanya perlu perkiraan akurat tentang berapa banyak layanan yang akan dibutuhkan. Pemodelan penjelasan mungkin tidak akan banyak membantu di sini. Misalnya, mengetahui bahwa merokok mengarah pada risiko kanker yang lebih tinggi tidak dengan sendirinya memberi tahu Anda apakah akan memberikan lebih banyak dana ke bangsal A atau bangsal B.
Pemodelan penjelasan "data kanker" akan sesuai jika Anda ingin menurunkan tingkat kanker nasional - pemodelan prediktif akan cukup usang di sini. Kemampuan untuk secara akurat memprediksi tingkat kanker hampir tidak mungkin membantu Anda memutuskan bagaimana cara menguranginya. Namun, mengetahui bahwa merokok mengarah pada risiko kanker yang lebih tinggi adalah informasi yang berharga - karena jika Anda menurunkan angka merokok (misalnya dengan membuat rokok lebih mahal), ini mengarah pada lebih banyak orang dengan risiko lebih kecil, yang (semoga) mengarah pada penurunan yang diharapkan pada kanker. tarif.
Melihat masalah dengan cara ini, saya akan berpikir bahwa pemodelan penjelas terutama akan fokus pada variabel yang mengendalikan pengguna, baik secara langsung maupun tidak langsung. Mungkin ada kebutuhan untuk mengumpulkan variabel lain, tetapi jika Anda tidak dapat mengubah variabel apa pun dalam analisis, maka saya ragu bahwa pemodelan penjelasan akan berguna, kecuali mungkin memberi Anda keinginan untuk mendapatkan kontrol atau pengaruh terhadap variabel-variabel tersebut. yang penting. Pemodelan prediktif, secara kasar, hanya mencari hubungan antar variabel, apakah dikendalikan oleh pengguna atau tidak. Anda hanya perlu mengetahui input / fitur / variabel independen / dll. Untuk membuat prediksi, tetapi Anda harus dapat memodifikasi atau memengaruhi input / fitur / variabel independen / dll. Untuk melakukan intervensi dan mengubah hasil .
sumber
Menurut saya perbedaannya adalah sebagai berikut:
Penjelasan / Deskriptif
Ketika mencari jawaban penjelas / deskriptif, fokus utama adalah pada data yang kami miliki dan kami berusaha untuk menemukan hubungan yang mendasari antara data setelah kebisingan telah diperhitungkan.
Contoh: Benarkah berolahraga secara teratur (katakanlah 30 menit per hari) menurunkan tekanan darah? Untuk menjawab pertanyaan ini, kami dapat mengumpulkan data dari pasien tentang regimen olahraga mereka dan nilai tekanan darah mereka dari waktu ke waktu. Tujuannya adalah untuk melihat apakah kita dapat menjelaskan variasi tekanan darah dengan variasi dalam rejimen olahraga.
Tekanan darah dipengaruhi oleh tidak hanya berolahraga dengan berbagai faktor lain juga seperti jumlah natrium yang dimakan seseorang, dll. Faktor-faktor lain ini akan dianggap bising dalam contoh di atas karena fokusnya adalah pada menggoda hubungan antara rejimen latihan dan tekanan darah.
Ramalan
Saat melakukan latihan prediksi, kami mengekstrapolasi ke yang tidak diketahui menggunakan hubungan yang diketahui antara data yang kami miliki. Hubungan yang diketahui dapat muncul dari analisis penjelas / deskriptif atau teknik lainnya.
Contoh: Jika saya berolahraga 1 jam per hari sampai sejauh mana tekanan darah saya cenderung turun? Untuk menjawab pertanyaan ini, kami dapat menggunakan hubungan yang sebelumnya tidak ditemukan antara tekanan darah dan olahraga untuk melakukan prediksi.
Dalam konteks di atas, fokusnya bukan pada penjelasan, meskipun model penjelasan dapat membantu dengan proses prediksi. Ada juga pendekatan yang tidak jelas (misalnya, jaring saraf) yang bagus dalam memprediksi hal yang tidak diketahui tanpa perlu menambah pengetahuan kita tentang sifat hubungan yang mendasar antara variabel.
sumber
Salah satu masalah praktis yang muncul di sini adalah pemilihan variabel dalam pemodelan. Variabel dapat menjadi variabel penjelas yang penting (misalnya, signifikan secara statistik) tetapi mungkin tidak berguna untuk tujuan prediksi (yaitu, dimasukkannya dalam model menyebabkan akurasi prediksi yang lebih buruk). Saya melihat kesalahan ini hampir setiap hari di surat kabar yang diterbitkan.
Perbedaan lain adalah perbedaan antara analisis komponen utama dan analisis faktor. PCA sering digunakan dalam prediksi, tetapi tidak begitu berguna untuk penjelasan. FA melibatkan langkah rotasi tambahan yang dilakukan untuk meningkatkan interpretasi (dan karenanya penjelasan). Ada posting yang bagus hari ini di blog Galit Shmueli tentang ini .
Pembaruan: kasus ketiga muncul dalam deret waktu ketika suatu variabel mungkin merupakan variabel penjelas penting tetapi tidak tersedia untuk masa depan. Sebagai contoh, pinjaman rumah mungkin sangat terkait dengan PDB tetapi itu tidak banyak digunakan untuk memprediksi pinjaman rumah di masa depan kecuali kita juga memiliki prediksi PDB yang baik.
sumber
Meskipun beberapa orang merasa lebih mudah untuk memikirkan perbedaan dalam hal model / algoritma yang digunakan (misalnya, neural nets = prediktif), itu hanya satu aspek tertentu dari perbedaan menjelaskan / memprediksi. Berikut adalah satu set slide yang saya gunakan dalam kursus penambangan data saya untuk mengajarkan regresi linier dari kedua sudut. Bahkan dengan regresi linier saja dan dengan contoh kecil ini berbagai masalah muncul yang mengarah pada model yang berbeda untuk tujuan penjelas vs prediksi (pilihan variabel, pemilihan variabel, ukuran kinerja, dll.)
Galit
sumber
Contoh: Contoh klasik yang saya lihat adalah dalam konteks memprediksi kinerja manusia. Self-efficacy (yaitu, sejauh mana seseorang berpikir bahwa mereka dapat melakukan tugas dengan baik) seringkali merupakan prediktor yang kuat untuk kinerja tugas. Jadi, jika Anda memasukkan self-efficacy ke dalam regresi berganda bersama dengan variabel lain seperti kecerdasan dan tingkat pengalaman sebelumnya, Anda sering menemukan bahwa self-efficacy adalah prediktor yang kuat.
Ini telah mengarahkan beberapa peneliti untuk menyarankan bahwa self-efficacy menyebabkan kinerja tugas. Dan intervensi yang efektif adalah intervensi yang berfokus pada peningkatan rasa kemanjuran diri seseorang.
Namun, model teoritis alternatif melihat self-efficacy sebagian besar sebagai konsekuensi dari kinerja tugas. Yaitu, Jika Anda baik, Anda akan tahu itu. Dalam kerangka ini intervensi harus fokus pada peningkatan kompetensi aktual dan tidak dirasakan kompetensi.
Dengan demikian, termasuk variabel seperti self-efficacy dapat meningkatkan prediksi, tetapi dengan asumsi Anda mengadopsi model self-efficacy-as-konsekuensi, itu tidak boleh dimasukkan sebagai prediktor jika tujuan dari model ini adalah untuk menjelaskan proses sebab-akibat yang mempengaruhi kinerja.
Ini tentu saja memunculkan masalah tentang bagaimana mengembangkan dan memvalidasi model teoritis kausal. Ini jelas bergantung pada beberapa studi, idealnya dengan beberapa manipulasi eksperimental, dan argumen yang koheren tentang proses dinamis.
Proksimal versus distal : Saya telah melihat masalah serupa ketika para peneliti tertarik pada efek dari penyebab distal dan proksimal. Penyebab proksimal cenderung memprediksi lebih baik daripada penyebab distal. Namun, minat teoritis mungkin dalam memahami cara-cara di mana penyebab distal dan proksimal beroperasi.
Masalah pemilihan variabel : Akhirnya, masalah besar dalam penelitian ilmu sosial adalah masalah pemilihan variabel. Dalam setiap studi yang diberikan, ada jumlah variabel tak terbatas yang bisa diukur tetapi tidak. Dengan demikian, interpretasi model perlu mempertimbangkan implikasi ini ketika membuat interpretasi teoritis.
sumber
Pemodelan Statistik: Two Cultures (2001) oleh L. Breiman, mungkin, makalah terbaik tentang hal ini. Kesimpulan utamanya (lihat juga balasan dari ahli statistik terkemuka lainnya di akhir dokumen) adalah sebagai berikut:
sumber
Saya belum membaca karyanya di luar abstrak makalah terkait, tetapi perasaan saya adalah bahwa perbedaan antara "penjelasan" dan "prediksi" harus dibuang dan diganti dengan perbedaan antara tujuan dari praktisi, yang merupakan " kausal "atau" prediktif ". Secara umum, saya pikir "penjelasan" adalah kata yang tidak jelas sehingga hampir tidak ada artinya. Misalnya, apakah Hukum Hooke jelas atau prediktif? Di ujung lain dari spektrum, apakah sistem rekomendasi yang dapat diprediksi akurat model sebab-akibat yang baik dari peringkat item eksplisit? Saya pikir kita semua berbagi intuisi bahwa tujuan ilmu pengetahuan adalah penjelasan, sedangkan tujuan teknologi adalah prediksi; dan intuisi ini entah bagaimana hilang dengan pertimbangan alat yang kita gunakan, seperti algoritma pembelajaran yang diawasi,
Setelah mengatakan semua itu, mungkin satu-satunya kata yang akan saya terapkan pada model dapat ditafsirkan. Regresi biasanya dapat ditafsirkan; Jaring saraf dengan banyak lapisan seringkali tidak begitu. Saya pikir orang kadang-kadang secara naif berasumsi bahwa model yang dapat ditafsirkan menyediakan informasi sebab-akibat, sementara model yang tidak dapat ditafsirkan hanya memberikan informasi prediktif. Sikap ini agak membingungkan saya.
sumber
Saya masih sedikit tidak jelas tentang apa pertanyaannya. Karena itu, menurut saya perbedaan mendasar antara model prediksi dan penjelasan adalah perbedaan dalam fokus mereka.
Model Penjelasan
Menurut definisi model penjelas memiliki sebagai fokus utama mereka tujuan menjelaskan sesuatu di dunia nyata. Dalam kebanyakan kasus, kami berusaha menawarkan penjelasan yang sederhana dan bersih. Secara sederhana saya maksudkan bahwa kami lebih suka kekikiran (jelaskan fenomena dengan parameter sesedikit mungkin) dan dengan bersih saya maksudkan bahwa kami ingin membuat pernyataan dalam bentuk berikut: "efek perubahan oleh satu unit berubah oleh memegang semua yang lain konstan ". Mengingat tujuan penjelasan yang sederhana dan jelas ini, model penjelas berusaha untuk menghukum model yang kompleks (dengan menggunakan kriteria yang sesuai seperti AIC) dan lebih memilih untuk mendapatkan variabel independen ortogonal (baik melalui eksperimen terkontrol atau melalui transformasi data yang sesuai).y βx y β
Model Prediktif
Tujuan dari model prediksi adalah untuk memprediksi sesuatu. Dengan demikian, mereka cenderung kurang fokus pada kekikiran atau kesederhanaan tetapi lebih pada kemampuan mereka untuk memprediksi variabel dependen.
Namun, hal di atas agak berbeda secara buatan karena model penjelasan dapat digunakan untuk prediksi dan kadang-kadang model prediksi dapat menjelaskan sesuatu.
sumber
seperti yang telah dikatakan orang lain, pembedaan itu agak tidak berarti, kecuali sejauh tujuan dari peneliti yang bersangkutan.
Brad Efron, salah satu komentator pada makalah The Two Cultures , melakukan pengamatan berikut (seperti yang dibahas dalam pertanyaan saya sebelumnya ):
Bidang-bidang tertentu (mis. Kedokteran) menempatkan beban berat pada pemasangan model sebagai proses penjelas (distribusi, dll.), Sebagai sarana untuk memahami proses dasar yang menghasilkan data. Bidang lain kurang peduli dengan ini, dan akan senang dengan model "kotak hitam" yang memiliki keberhasilan prediksi yang sangat tinggi. Ini juga bisa masuk ke proses pembangunan model.
sumber
Dengan hormat, pertanyaan ini bisa lebih fokus. Pernahkah orang menggunakan satu istilah ketika yang lain lebih tepat? Ya tentu saja. Kadang-kadang itu cukup jelas dari konteksnya, atau Anda tidak ingin menjadi jagoan. Terkadang orang hanya ceroboh atau malas dalam terminologi mereka. Ini berlaku bagi banyak orang, dan saya jelas tidak lebih baik.
Apa nilai potensial di sini (membahas penjelasan vs prediksi pada CV), adalah untuk memperjelas perbedaan antara dua pendekatan. Singkatnya, perbedaan berpusat pada peran kausalitas. Jika Anda ingin memahami beberapa dinamika di dunia, dan menjelaskan mengapa sesuatu terjadi seperti itu, Anda perlu mengidentifikasi hubungan sebab akibat di antara variabel yang relevan. Untuk memprediksi, Anda dapat mengabaikan kausalitas. Misalnya, Anda dapat memprediksi efek dari pengetahuan tentang penyebabnya; Anda dapat memprediksi keberadaan sebab dari pengetahuan bahwa efeknya terjadi; dan Anda dapat memperkirakan tingkat perkiraan satu efek dengan mengetahui efek lain yang didorong oleh penyebab yang sama. Mengapa seseorang ingin melakukan ini? Untuk meningkatkan pengetahuan mereka tentang apa yang mungkin terjadi di masa depan, sehingga mereka dapat merencanakannya. Sebagai contoh, dewan pembebasan bersyarat mungkin ingin dapat memprediksi probabilitas bahwa terpidana akan menerima kembali jika pembebasan bersyarat. Namun, ini tidak cukup untuk penjelasan. Tentu saja, memperkirakan hubungan kausal sejati antara dua variabel bisa sangat sulit. Selain itu, model yang menangkap (apa yang dianggap sebagai) hubungan kausal yang sebenarnya sering lebih buruk untuk membuat prediksi. Jadi mengapa melakukannya? Pertama, sebagian besar dilakukan dalam sains, di mana pemahaman dilakukan untuk kepentingannya sendiri. Kedua, jika kita dapat secara andal memilih penyebab yang sebenarnya, dan dapat mengembangkan kemampuan untuk memengaruhi mereka, kita dapat mengerahkan beberapa pengaruh atas dampaknya.
Sehubungan dengan strategi pemodelan statistik, tidak ada perbedaan besar. Terutama perbedaannya terletak pada bagaimana melakukan penelitian. Jika tujuan Anda adalah untuk dapat memprediksi, cari tahu informasi apa yang akan tersedia bagi pengguna model ketika mereka perlu membuat prediksi. Informasi yang tidak dapat mereka akses tidak ada nilainya. Jika mereka kemungkinan besar ingin dapat memprediksi pada tingkat tertentu (atau dalam kisaran yang sempit) dari para prediktor, cobalah untuk memusatkan kisaran sampel dari prediktor pada tingkat itu dan melakukan oversample di sana. Misalnya, jika dewan pembebasan bersyarat sebagian besar ingin tahu tentang penjahat dengan 2 keyakinan utama, Anda mungkin mengumpulkan info tentang penjahat dengan 1, 2, dan 3 hukuman. Di sisi lain, menilai status kausal suatu variabel pada dasarnya memerlukan eksperimen. Itu adalah, unit eksperimental perlu ditugaskan secara acak ke tingkat yang telah ditentukan dari variabel penjelas. Jika ada kekhawatiran tentang apakah sifat efek kausal tergantung pada beberapa variabel lain, variabel tersebut harus dimasukkan dalam percobaan. Jika tidak mungkin untuk melakukan percobaan yang benar, maka Anda menghadapi situasi yang jauh lebih sulit, yang terlalu rumit untuk masuk ke sini.
sumber
Sebagian besar jawaban telah membantu memperjelas pemodelan apa untuk penjelasan dan pemodelan untuk prediksi dan mengapa mereka berbeda. Sejauh ini yang tidak jelas adalah bagaimana mereka berbeda. Jadi, saya pikir saya akan menawarkan contoh yang mungkin berguna.
Misalkan kita diinteretkan dalam memodelkan IPK Perguruan Tinggi sebagai fungsi persiapan akademik. Sebagai langkah persiapan akademik, kami memiliki:
Strategi untuk Prediksi
Jika tujuannya adalah prediksi, saya dapat menggunakan semua variabel ini secara bersamaan dalam model linier dan perhatian utama saya adalah akurasi prediksi. Mana pun dari variabel terbukti paling berguna untuk memprediksi IPK Perguruan Tinggi akan dimasukkan dalam model akhir.
Strategi untuk Penjelasan
Jika tujuannya adalah penjelasan, saya mungkin lebih peduli tentang pengurangan data dan berpikir dengan hati-hati tentang korelasi antara variabel independen. Perhatian utama saya adalah menafsirkan koefisien.
Contoh
Dalam masalah multivariat tipikal dengan prediktor berkorelasi, tidak jarang untuk mengamati koefisien regresi yang "tidak terduga". Dengan adanya keterkaitan antar variabel independen, tidak akan mengejutkan untuk melihat koefisien parsial untuk beberapa variabel yang tidak dalam arah yang sama dengan hubungan urutan nol mereka dan yang mungkin tampak kontra intuitif dan sulit untuk dijelaskan.
Misalnya, anggap model menyarankan bahwa (dengan Skor Tes Aptitude dan Jumlah Tes AP Berhasil Dipertimbangkan) IPK SMA lebih tinggi dikaitkan dengan IPK Perguruan Tinggi yang lebih rendah . Ini bukan masalah untuk prediksi, tetapi itu menimbulkan masalah untuk model penjelasan di mana hubungan seperti itu sulit untuk ditafsirkan . Model ini mungkin memberikan yang terbaik dari prediksi sampel tetapi tidak banyak membantu kita memahami hubungan antara persiapan akademik dan IPK Perguruan Tinggi.
Sebaliknya, strategi penjelas mungkin mencari beberapa bentuk pengurangan variabel, seperti komponen utama, analisis faktor, atau SEM untuk:
Strategi seperti ini mungkin mengurangi kekuatan prediksi model, tetapi mereka dapat menghasilkan pemahaman yang lebih baik tentang bagaimana Persiapan Akademik terkait dengan IPK Perguruan Tinggi.
sumber
Saya ingin menawarkan pandangan yang berpusat pada model tentang masalah ini.
Pemodelan prediktif adalah apa yang terjadi di sebagian besar analisis. Sebagai contoh, seorang peneliti membuat model regresi dengan sekelompok prediktor. Koefisien regresi kemudian mewakili perbandingan prediksi antara kelompok. Aspek prediktif berasal dari model probabilitas: kesimpulan dilakukan berkaitan dengan model superpopulasi yang mungkin telah menghasilkan populasi yang diamati atau sampel. Tujuan dari model ini adalah untuk memprediksi hasil baru untuk unit yang muncul dari populasi super ini. Seringkali, ini adalah tujuan yang sia-sia karena segala sesuatu selalu berubah, terutama di dunia sosial. Atau karena model Anda adalah tentang unit langka seperti negara dan Anda tidak dapat menarik sampel baru. Kegunaan model dalam hal ini diserahkan kepada apresiasi analis.
Ketika Anda mencoba untuk menggeneralisasi hasil ke grup lain atau unit masa depan, ini masih prediksi tetapi dari jenis yang berbeda. Kami dapat menyebutnya peramalan misalnya. Poin kuncinya adalah bahwa kekuatan prediksi model yang diperkirakan, secara default, bersifat deskriptif . Anda membandingkan hasil di seluruh kelompok dan membuat hipotesis model probabilitas untuk perbandingan ini, tetapi Anda tidak dapat menyimpulkan bahwa perbandingan ini merupakan efek kausal.
Alasannya adalah bahwa kelompok-kelompok ini mungkin menderita bias seleksi . Yaitu, mereka mungkin secara alami memiliki skor yang lebih tinggi dalam hasil yang menarik, terlepas dari pengobatan (intervensi sebab akibat hipotetis). Atau mereka mungkin terkena efek efek ukuran yang berbeda dari kelompok lain. Inilah sebabnya, terutama untuk data pengamatan, model estimasi umumnya tentang perbandingan prediksi dan bukan penjelasan. Penjelasan adalah tentang identifikasi dan estimasi efek kausal dan memerlukan eksperimen yang dirancang dengan baik atau penggunaan variabel instrumen secara bijaksana. Dalam hal ini, perbandingan prediktif dipotong dari bias seleksi dan mewakili efek kausal. Model demikian dapat dianggap sebagai penjelasan.
Saya menemukan bahwa berpikir dalam istilah-istilah ini sering menjelaskan apa yang sebenarnya saya lakukan ketika membuat model untuk beberapa data.
sumber
Kita dapat belajar lebih banyak daripada yang kita pikirkan dari model "prediksi" kotak hitam. Kuncinya adalah menjalankan berbagai jenis analisis sensitivitas dan simulasi untuk benar-benar memahami bagaimana model OUTPUT dipengaruhi oleh perubahan dalam ruang INPUT. Dalam hal ini bahkan model yang murni prediksi dapat memberikan wawasan yang jelas. Ini adalah poin yang sering diabaikan atau disalahpahami oleh komunitas riset. Hanya karena kita tidak mengerti mengapa suatu algoritma berfungsi tidak berarti algoritma tersebut tidak memiliki kekuatan penjelas ...
Secara keseluruhan dari sudut pandang utama, balasan singkat probabilityislogic benar-benar benar ...
sumber
Ada perbedaan antara apa yang dia sebut aplikasi jelas dan prediktif dalam statistik. Dia mengatakan kita harus tahu setiap kali kita menggunakan satu atau yang lain mana yang tepat digunakan. Dia mengatakan kita sering campuran mereka, maka penggabungan .
Saya setuju bahwa dalam aplikasi ilmu sosial , perbedaan itu masuk akal, tetapi dalam ilmu alam mereka dan harus sama. Juga, saya menyebutnya inferensi vs ramalan , dan setuju bahwa dalam ilmu sosial seseorang tidak boleh mencampuradukkannya.
Saya akan mulai dengan ilmu alam. Dalam fisika kita fokus pada menjelaskan, kita mencoba memahami bagaimana dunia bekerja, apa yang menyebabkan apa, dll. Jadi, fokusnya adalah pada kausalitas, kesimpulan dan semacamnya. Di sisi lain, aspek prediktif juga merupakan bagian dari proses ilmiah. Faktanya, cara Anda membuktikan teori, yang sudah menjelaskan pengamatan dengan baik (pikirkan in-sample), adalah dengan memprediksi pengamatan baru kemudian periksa bagaimana prediksi bekerja. Setiap teori yang kurang kemampuan prediksi akan memiliki kesulitan besar untuk diterima dalam fisika. Itu sebabnya eksperimen seperti Michelson-Morley sangat penting.
Dalam ilmu sosial, sayangnya, fenomena yang mendasarinya tidak stabil, tidak dapat diulang, tidak dapat diproduksi kembali. Jika Anda menyaksikan pembusukan inti, Anda akan mendapatkan hasil yang sama setiap kali Anda mengamatinya, dan hasil yang sama yang saya atau pria dapatkan seratus tahun yang lalu. Bukan di bidang ekonomi atau keuangan. Juga, kemampuan untuk melakukan eksperimen sangat terbatas, hampir tidak ada untuk semua tujuan praktis, kami hanya mengamati dan melakukan sampel acakpengamatan. Saya dapat terus berjalan tetapi gagasan bahwa fenomena yang kita hadapi sangat tidak stabil, maka teori-teori kita tidak memiliki kualitas yang sama seperti dalam fisika. Oleh karena itu, salah satu cara kita menghadapi situasi ini adalah dengan memfokuskan pada kesimpulan (ketika Anda mencoba memahami apa yang menyebabkan apa atau dampak apa) atau memperkirakan (katakan saja apa yang Anda pikir akan terjadi pada ini atau yang mengabaikan struktur).
sumber
Model Struktural akan memberikan penjelasan dan model prediksi akan memberikan prediksi. Model struktural akan memiliki variabel laten. Model struktural adalah puncak simultan dari regresi dan analisis faktor
Variabel laten dimanifestasikan dalam bentuk multi collinearity dalam model prediksi (regresi).
sumber