Misalkan saya memiliki banyak kota dengan ukuran populasi yang berbeda, dan saya ingin melihat apakah ada hubungan linier positif antara jumlah toko minuman keras di kota dan jumlah DUI. Di mana saya menentukan apakah hubungan ini signifikan atau tidak berdasarkan uji-t dari estimasi koefisien regresi.
Sekarang jelas pop. ukuran sebuah kota akan berkorelasi positif dengan jumlah DUI serta jumlah toko minuman keras. Jadi jika saya menjalankan regresi linier sederhana pada hanya toko minuman keras dan melihat apakah koefisien regresi secara statistik signifikan, saya mungkin akan mengalami masalah multikolinieritas, dan terlalu memperkirakan dampak toko minuman keras pada DUI.
Manakah dari dua metode yang harus saya gunakan untuk memperbaiki ini?
Saya harus membagi jumlah toko minuman keras di kota ini dengan penduduknya untuk mendapatkan nilai toko minuman keras per kapita dan kemudian mundur.
Saya harus mundur pada toko dan ukuran minuman keras, dan kemudian melihat apakah koefisien toko minuman keras signifikan ketika mengontrol ukuran.
Beberapa metode lain?
Jujur saya tidak bisa memutuskan mana yang tampaknya lebih masuk akal. Saya terombang-ambing di antara mereka, tergantung mana yang saya pikirkan saya bisa meyakinkan diri sendiri bahwa itu adalah cara yang benar.
Di satu sisi, toko minuman keras per kapita tampaknya merupakan variabel yang tepat untuk digunakan, karena DUI dilakukan oleh perorangan, tetapi itu tampaknya tidak terlalu ketat secara statistik. Di sisi lain, mengendalikan ukuran tampaknya secara statistik ketat, tetapi agak tidak langsung. Selain itu, jika saya skala ulang setelah menghitung toko-toko minuman keras variabel per kapita, saya mendapatkan koefisien regresi yang sangat mirip antara dua metode, tetapi metode 1 menghasilkan nilai-p yang lebih kecil.
Jawaban:
Saya akan mundur "DUI per kapita" (Y) pada "liquer store per kapita" (X) dan "ukuran populasi" (Z). Dengan cara ini Y Anda mencerminkan kecenderungan mengemudi dalam keadaan mabuk orang perkotaan, sedangkan X adalah karakteristik populasi kota tertentu. Z adalah variabel kontrol untuk berjaga-jaga jika ada efek ukuran pada Y. Saya tidak berpikir Anda akan melihat masalah multikolinieritas dalam pengaturan ini.
Penyiapan ini lebih menarik daripada model Anda 1. Di sini, basis Anda adalah untuk menganggap bahwa jumlah DUI sebanding dengan populasi, sementara akan menangkap nonlinier, misalnya orang di kota besar lebih cenderung mengemudi dalam keadaan mabuk. Juga X mencerminkan lingkungan budaya dan hukum secara langsung, sudah disesuaikan dengan ukuran. Anda mungkin berakhir dengan X yang kira-kira sama untuk kota-kota dengan ukuran berbeda di Sough. Ini juga memungkinkan Anda memperkenalkan variabel kontrol lain seperti Merah / Biru, Pesisir / Kontinental dll.βZ
sumber
Jika memperkirakan model Anda dengan kuadrat terkecil biasa, regresi kedua Anda agak bermasalah.
Dan Anda mungkin ingin berpikir tentang bagaimana variasi istilah kesalahan Anda berbeda dengan ukuran kota.
Regresi (2) setara dengan regresi Anda (1) di mana pengamatan ditimbang oleh kuadrat dari populasi kota:
Untuk setiap kota , biarkan menjadi mabuk dalam insiden per kapita, biarkan menjadi toko minuman keras per kapita, dan biarkan menjadi populasi kota.y i x i n isaya ysaya xsaya nsaya
Regresi (1) adalah: Jika Anda menjalankan regresi (2) tanpa konstanta, Anda pada dasarnya telah meningkatkan setiap pengamatan regresi (1) oleh populasi, yaitu, Anda menjalankan:
Ini adalah kuadrat terkecil , dan bobot yang Anda lamar adalah kuadrat dari populasi kota. Itu banyak beban yang kamu berikan di kota terbesar ?!
Perhatikan bahwa jika Anda memiliki pengamatan untuk setiap individu di kota dan menetapkan nilai rata-rata untuk setiap kota pada masing-masing individu, itu sama dengan menjalankan regresi di mana Anda menimbang setiap kota berdasarkan populasi (bukan kuadrat populasi).
sumber
Saya menjalankan beberapa percobaan pada data simulasi untuk melihat metode mana yang paling berhasil. Silakan baca temuan saya di bawah ini.
Mari kita lihat dua skenario yang berbeda - Pertama di mana tidak ada hubungan langsung antara DUI & toko minuman keras & Kedua di mana kita memiliki hubungan langsung. Kemudian periksa setiap metode untuk melihat metode mana yang paling berhasil.
Kasus 1: Tidak ada hubungan langsung tetapi keduanya terkait dengan populasi
Sekarang data disimulasikan, mari kita lihat bagaimana masing-masing metode tarif.
Nbr_Liquor_Stores sangat signifikan, seperti yang diharapkan. Meskipun hubungannya tidak langsung.
Nbr_Liquor_Stores tidak memiliki signifikansi. Tampaknya bekerja, tetapi jangan langsung menyimpulkan.
Nbr_Liquor_Stores tidak signifikan, p-value juga cukup dekat dengan Metode 1.
(Nbr_Liquor_Stores / popln) sangat signifikan! Tidak mengharapkan itu, mungkin metode ini bukan yang terbaik untuk pernyataan masalah Anda.
Kasus 2: Hubungan langsung dengan Populasi & Nbr_Liquor_Stores
Mari kita lihat kinerja masing-masing metode dalam skenario ini.
Diharapkan, tetapi bukan metode yang bagus untuk membuat kesimpulan kausal.
Itu mengejutkan bagi saya, saya mengharapkan metode ini untuk menangkap hubungan tetapi tidak mengambilnya. Jadi metode ini gagal dalam skenario ini!
Nbr_Liquor_Stores signifikan, p-value masuk akal. Pemenang yang jelas bagi saya.
TLDR; Metode 2 menghasilkan nilai-p paling akurat di berbagai skenario.
sumber