Regresi atas seluruh populasi

9

Apa arti standar kesalahan dari koefisien dalam regresi ketika seluruh populasi dimasukkan?

Saya sangat bingung dengan pertanyaan ini. Karena menurut saya, kesalahan standar tidak masuk akal ketika seluruh populasi dimasukkan - tidak perlu ada inferensi statistik karena Anda sudah memiliki seluruh populasi.

Tapi itu sangat banyak digunakan bahkan oleh banyak artikel yang diterbitkan di jurnal-jurnal top. Misalnya, jika saya memeriksa hubungan antara tingkat pertumbuhan PDB suatu negara dan kepadatan penduduknya, saya menjalankan regresi:

GDPsaya=α+βPHaihalsaya+γXsaya+ϵsaya

dengan semua 195 negara di bumi. Dalam hal ini, semua negara (populasi) dimasukkan. Tetapi semua literatur masih berbicara tentang signifikansi statistik dari koefisien.

Bisakah seseorang menjelaskan apakah ini merupakan penyimpangan dari inferensi statistik ketika melakukan regresi terhadap seluruh populasi?

Akira Osawa
sumber
Pertanyaan ini telah dijawab dalam jaringan statistik. Lihat di sini . Pada dasarnya, statistik tidak memiliki relevansi. "Regresi" adalah perangkat matematika murni.
luchonacho
@luchonacho Pendapat saya adalah bahwa pertanyaan ini sesuai dengan topik di sini sehubungan dengan konten yang secara alami kita tumpang tindih dengan stats.SE). Saya setuju bahwa itu pada dasarnya adalah duplikat. Saya menemukan diskusi tentang apa yang harus dilakukan dengan duplikat lintas-situs di sini: meta.stackexchange.com/questions/172307/…
jmbejara
@ jmbejara Terima kasih untuk referensi. Senang mendengarnya.
luchonacho
Ini sepertinya referensi terkait lainnya. Ini membahas teknik terkait yang disebut inferensi pengacakan seperti yang dibahas dalam Athey Imbens (2017). jasonkerwin.com/nonparibus/2017/09/25/…
jmbejara

Jawaban:

3

Saya awalnya menandai pertanyaan ini untuk moderator untuk memeriksa apakah akan lebih baik untuk bermigrasi ke statistik situs SE Cross Validated. Tetapi karena OP memperkenalkan contoh ekonometrik yang sangat spesifik, saya percaya konsep "populasi / sampel" (sangat dalam) dapat didiskusikan dengan bermanfaat untuk keperluan contoh ini.

Masalah pertama adalah yang dibahas dalam jawaban @AdamBailey: jika seseorang mempertimbangkan "semua negara di dunia" untuk tahun atau tahun tertentu, dan label data sebagai "populasi", maka tahun berikutnya harus menjadi milik populasi yang berbeda. Jika itu milik populasi yang berbeda, lalu bagaimana kita menggunakan hasil dari satu populasi untuk membuat kesimpulan untuk populasi lain? Jadi memang, di sini "populasi" kita adalah dua dimensi , negara dan periode waktu - dan dalam pengertian itu, dengan cakrawala waktu terbuka, kita hanya memiliki sampel di tangan kita.

GDPsaya,saya=1,..n

Jadi data kami hanyalah salah satu realisasi gabungan yang mungkin dari variabel acak ini. Realisasi ini muncul tidak hanya sebagai hasil dari hubungan deterministik / rekayasa / kausalitas (tercermin dalam koefisien), tetapi juga di bawah pengaruh faktor-faktor acak yang inheren. Dalam pengertian itu, data bukanlah gambar "murni / tipikal" dari "populasi" - itu berisi kebisingan, gangguan non-struktural, guncangan satu kali, dll.

Kemudian ketidakpastian ini akan berlanjut ke estimasi koefisien yang kami coba perkirakan, karena kami mengasumsikan bahwa koefisien ini menggambarkan hubungan sebab akibat atau ko-pergerakan sebelum elemen acak yang memengaruhi nilai akhir dari variabel dependen.

Karena kedua aspek di atas, berbicara tentang "kesalahan estimasi standar" benar-benar valid, dalam hal ini juga, dan kemudian menerapkan tes statistik seperti biasa.

Alecos Papadopoulos
sumber
5

Penting untuk mempertimbangkan apa sebenarnya populasi tentang kesimpulan yang diambil. Mudah untuk mengabaikan aspek waktu dalam konteks ini.

Misalkan misalnya tujuannya adalah untuk meramalkan PDB dua tahun ke depan untuk setiap negara di dunia. Maka populasi yang menarik adalah seperangkat pasangan bentuk "negara, tahun". Ini bukan hanya "semua negara", dan bahkan jika model perkiraan telah diestimasi dengan regresi pada data tahun terakhir dan terakhir untuk setiap negara, itu tidak berarti bahwa seluruh populasi yang menarik telah dimasukkan.

Jika seseorang benar-benar mulai dari dataset lengkap untuk seluruh populasi yang diminati, maka yang bisa dilakukan adalah menghitung statistik ringkasan. Itu bisa termasuk deviasi standar, tetapi tidak pantas untuk menyebut kesalahan standar ini, karena istilah itu berkaitan dengan distribusi sampling sedangkan satu-satunya "sampel" dalam kasus ini adalah seluruh populasi.

Adam Bailey
sumber
Terima kasih banyak. Untuk membuatnya lebih jelas, saya memperbarui pertanyaan, apakah 'semua negara' dalam hal ini dianggap seluruh populasi? Jika tidak ada, itu berarti mereka adalah 'sampel' dari beberapa 'populasi super' - anggap ada jutaan negara di 'alam semesta paralel', dan 195 negara di bumi terdistribusi secara independen dan identik di antara mereka dan disampel secara acak. Bukankah itu asumsi yang terlalu dibuat-buat?
Akira Osawa