Kami meminta 60 orang untuk mendaftarkan sebanyak mungkin waralaba restoran di Atlanta. Daftar keseluruhan mencakup lebih dari 70 restoran, tetapi kami menghilangkan yang disebutkan oleh kurang dari 10% orang, meninggalkan kami dengan 45. Untuk 45 ini, kami menghitung proporsi informan yang mendaftar waralaba, dan kami tertarik pada memodelkan proporsi ini sebagai fungsi dari anggaran iklan waralaba (log-transformed) dan bertahun-tahun sejak menjadi waralaba.
Jadi saya menulis kode ini:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Seperti yang diperkirakan, kedua variabel menunjukkan efek yang kuat dan signifikan.
Tetapi meskipun saya tahu bahwa data proporsional tidak boleh dimodelkan dengan regresi OLS, saya kemudian menulis kode ini:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
Dalam hal ini, "anggaran" masih merupakan prediktor yang signifikan, tetapi "tahun" relatif lemah dan tidak signifikan.
Itu membuat saya khawatir bahwa kepercayaan pada estimasi meningkat secara artifisial oleh agregasi. Bukankah binomial glm pada dasarnya membuat vektor data sehingga model didasarkan pada 45 * 55 = 2.475 baris? Apakah itu tepat mengingat hanya ada 45 restoran dan 55 informan? Apakah ini panggilan untuk pemodelan efek campuran?
sumber
family=quasibinomial
lm
danglm(...,family=binomial)
, tetapi salah satu yang penting adalah bahwa GLM binomial membuat asumsi kuat tentang varians. Jika data tidak tersebar secara berlebihan, maka agregasi / disagregasi tidak membuat perbedaan.Jawaban:
Untuk data proporsional, seseorang dapat mengambil logaritma variabel dependen sebelum pemasangan karena logaritma mengubah perkalian menjadi penjumlahan. Dalam nada yang sama, jika seseorang juga mengambil logaritma variabel independen, jika mereka juga proporsional, maka kesesuaian yang dihasilkan untuk regresi linier berganda mengimplikasikan model produk fungsi daya, bukan yang aditif, yaitu, . Yaitu, satu yang cocok . Untuk variabel proporsional, ini biasanya memberikan signifikansi lebih tinggi daripada pemasangan linier, dan lebih kuat, dan memiliki lebih tinggi .Y=cXk11Xk22...Xknn ln(Y)=ln(c)+k1ln(X1)+k2ln(X2)...+knln(Xn) R2
Sekarang jika garis regresi yang tidak diubah (idealnya regresi bivariat, misalnya, regresi Deming) tidak masuk akal melalui {0,0}, maka itu menjadi sedikit lebih rumit, dan satu meminimalkan fungsi kerugian proporsional yang diimbangi daripada menggunakan yang biasa. kotak.
sumber