Apa arti standar kesalahan dari koefisien dalam regresi ketika seluruh populasi dimasukkan?
Saya sangat bingung dengan pertanyaan ini. Karena menurut saya, kesalahan standar tidak masuk akal ketika seluruh populasi dimasukkan - tidak perlu ada inferensi statistik karena Anda sudah memiliki seluruh populasi.
Tapi itu sangat banyak digunakan bahkan oleh banyak artikel yang diterbitkan di jurnal-jurnal top. Misalnya, jika saya memeriksa hubungan antara tingkat pertumbuhan PDB suatu negara dan kepadatan penduduknya, saya menjalankan regresi:
dengan semua 195 negara di bumi. Dalam hal ini, semua negara (populasi) dimasukkan. Tetapi semua literatur masih berbicara tentang signifikansi statistik dari koefisien.
Bisakah seseorang menjelaskan apakah ini merupakan penyimpangan dari inferensi statistik ketika melakukan regresi terhadap seluruh populasi?
sumber
Jawaban:
Saya awalnya menandai pertanyaan ini untuk moderator untuk memeriksa apakah akan lebih baik untuk bermigrasi ke statistik situs SE Cross Validated. Tetapi karena OP memperkenalkan contoh ekonometrik yang sangat spesifik, saya percaya konsep "populasi / sampel" (sangat dalam) dapat didiskusikan dengan bermanfaat untuk keperluan contoh ini.
Masalah pertama adalah yang dibahas dalam jawaban @AdamBailey: jika seseorang mempertimbangkan "semua negara di dunia" untuk tahun atau tahun tertentu, dan label data sebagai "populasi", maka tahun berikutnya harus menjadi milik populasi yang berbeda. Jika itu milik populasi yang berbeda, lalu bagaimana kita menggunakan hasil dari satu populasi untuk membuat kesimpulan untuk populasi lain? Jadi memang, di sini "populasi" kita adalah dua dimensi , negara dan periode waktu - dan dalam pengertian itu, dengan cakrawala waktu terbuka, kita hanya memiliki sampel di tangan kita.
Jadi data kami hanyalah salah satu realisasi gabungan yang mungkin dari variabel acak ini. Realisasi ini muncul tidak hanya sebagai hasil dari hubungan deterministik / rekayasa / kausalitas (tercermin dalam koefisien), tetapi juga di bawah pengaruh faktor-faktor acak yang inheren. Dalam pengertian itu, data bukanlah gambar "murni / tipikal" dari "populasi" - itu berisi kebisingan, gangguan non-struktural, guncangan satu kali, dll.
Kemudian ketidakpastian ini akan berlanjut ke estimasi koefisien yang kami coba perkirakan, karena kami mengasumsikan bahwa koefisien ini menggambarkan hubungan sebab akibat atau ko-pergerakan sebelum elemen acak yang memengaruhi nilai akhir dari variabel dependen.
Karena kedua aspek di atas, berbicara tentang "kesalahan estimasi standar" benar-benar valid, dalam hal ini juga, dan kemudian menerapkan tes statistik seperti biasa.
sumber
Penting untuk mempertimbangkan apa sebenarnya populasi tentang kesimpulan yang diambil. Mudah untuk mengabaikan aspek waktu dalam konteks ini.
Misalkan misalnya tujuannya adalah untuk meramalkan PDB dua tahun ke depan untuk setiap negara di dunia. Maka populasi yang menarik adalah seperangkat pasangan bentuk "negara, tahun". Ini bukan hanya "semua negara", dan bahkan jika model perkiraan telah diestimasi dengan regresi pada data tahun terakhir dan terakhir untuk setiap negara, itu tidak berarti bahwa seluruh populasi yang menarik telah dimasukkan.
Jika seseorang benar-benar mulai dari dataset lengkap untuk seluruh populasi yang diminati, maka yang bisa dilakukan adalah menghitung statistik ringkasan. Itu bisa termasuk deviasi standar, tetapi tidak pantas untuk menyebut kesalahan standar ini, karena istilah itu berkaitan dengan distribusi sampling sedangkan satu-satunya "sampel" dalam kasus ini adalah seluruh populasi.
sumber