Menafsirkan proporsi yang menjumlahkan satu sebagai variabel independen dalam regresi linier

13

Saya akrab dengan konsep variabel kategori dan masing-masing pengkodean variabel dummy yang memungkinkan kita untuk menyesuaikan satu level sebagai dasar untuk menghindari kolinearitas. Saya juga terbiasa dengan cara menginterpretasikan estimasi parameter dari model seperti itu: Perubahan yang diprediksi dalam hasil untuk level pas yang diberikan dari prediktor kategoris, relatif terhadap kategori baseline.

Apa yang saya tidak yakin tentang adalah bagaimana menafsirkan seperangkat variabel independen yang proporsi yang menjumlahkan satu . Kita lagi memiliki collinearity jika kita memasukkan semua proporsi dalam model, jadi mungkin kita harus meninggalkan satu kategori sebagai baseline. Saya juga berasumsi saya akan melihat tipe III SS untuk keseluruhan uji signifikansi variabel ini. Namun, bagaimana kita menginterpretasikan estimasi parameter untuk level-level yang sesuai dengan model vs yang dianggap sebagai baseline?

Contoh : Pada tingkat kode pos, variabel independen adalah proporsi batuan metamorf, batuan beku dan sedimen. Seperti yang Anda ketahui, ini adalah tiga jenis batuan utama, dan semua batuan diklasifikasikan sebagai salah satunya. Dengan demikian, proporsi di ketiga jumlah ke 1. Hasilnya adalah tingkat radon rata-rata dalam kode pos masing-masing.

Jika saya cocok, mengatakan, metamorf dan batuan beku proporsi sebagai prediktor dalam model, meninggalkan sedimen sebagai dasar, jenis keseluruhan III SS F -test dari dua tingkat dipasang akan menandakan apakah jenis batuan, secara keseluruhan, adalah penting prediktor hasil (tingkat radon rata-rata). Kemudian, saya bisa melihat nilai p individu (berdasarkan distribusi t ) untuk menentukan apakah satu atau kedua jenis batuan berbeda secara signifikan dari baseline.

Namun, ketika datang ke perkiraan parameter, otak saya terus ingin menafsirkannya murni sebagai perubahan yang diprediksi dalam hasil antara kelompok (jenis batuan), dan saya tidak mengerti bagaimana memasukkan fakta bahwa mereka cocok sebagai proporsi .

Jika perkiraan untuk metamorf adalah, katakanlah, 0,43, interpretasinya tidak hanya bahwa tingkat radon rata-rata yang diprediksi meningkat sebesar 0,43 unit ketika batuan itu metamorf vs sedimen. Namun, interpretasi ini juga tidak hanya untuk beberapa jenis peningkatan unit (katakanlah 0,1) dalam proporsi jenis batuan metamorf, karena ini tidak mencerminkan fakta bahwa itu juga relatif terhadap garis dasar ( sedimen ), dan, juga, perubahan itu proporsi metamorfik secara inheren mengubah proporsi kecocokan tingkat batuan lainnya dalam model, beku .β

Apakah ada yang punya sumber yang menyediakan interpretasi model seperti itu, atau bisakah Anda memberikan contoh singkat di sini jika tidak?

Meg
sumber
2
+1 Seringkali proporsi tidak memiliki hubungan linier dengan respons. Jika reparameterisasi seperti ingin memperbaiki model, mereka juga akan mengizinkan interpretasi yang alami dan sederhana. Sudahkah Anda memeriksa linearitas dalam data Anda? π i = exp ( λ i )(π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
whuber
1
Tidak, tapi saya kira itu akan bermasalah, terutama karena banyak "proporsi" benar-benar keluar sebagai 0 dan 1, atau nilai yang sangat dekat dengan 0 dan 1, dan dengan demikian pada dasarnya bertindak sebagai biner. Dengan demikian, kemungkinan kita akan membuat kelompok yang sebenarnya dari mereka (dan menghapus proporsi), tetapi ini masih menarik minat saya mengenai interpretasi yang benar, secara hipotesis.
Meg
Cukup adil - ini pertanyaan yang bagus.
whuber
2
πλiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1
2
λi=log(πi)
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi

Jawaban:

8

Sebagai tindak lanjut dan apa yang menurut saya jawaban yang benar (tampaknya masuk akal bagi saya): Saya memposting pertanyaan ini ke listserv ASA Connect, dan mendapat respons berikut dari Thomas Sexton di Stony Brook:

"Perkiraan model regresi linier Anda seperti:

ln (Radon) = (ekspresi linear dalam variabel lain) + 0.43M + 0.92I

di mana M dan I mewakili persentase batuan metamorf dan batuan beku, masing-masing, dalam kode ZIP. Anda dibatasi oleh:

M + I + S = 100

di mana S mewakili persentase batuan sedimen dalam kode ZIP.

Interpretasi dari 0,43 adalah bahwa peningkatan satu poin persentase dalam M dikaitkan dengan peningkatan 0,43 dalam ln (Radon) yang menahan semua variabel lain dalam model tetap . Dengan demikian, nilai I tidak dapat berubah, dan satu-satunya cara untuk memiliki peningkatan satu poin persentase dalam M sambil memenuhi kendala adalah memiliki penurunan satu poin persentase dalam S, kategori yang dihilangkan.

Tentu saja, perubahan ini tidak dapat terjadi dalam kode ZIP di mana S = 0, tetapi penurunan M dan peningkatan yang sesuai dalam S akan dimungkinkan dalam kode ZIP tersebut. "

Berikut adalah tautan ke utas ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-ae4f-43f9-b390d0fmc

Saya memposting ini sebagai jawaban yang benar yang diterima, tetapi saya masih terbuka untuk diskusi lebih lanjut jika ada yang menambahkan sesuatu.

Meg
sumber
Satu saran adalah pergi ke utas ASA, karena ada beberapa diskusi yang mempertanyakan jawaban yang diberikan di sini.
Maxim.K
@ Maxim.K: Apakah Anda mengacu pada utas ASA saya sendiri yang saya tautkan di atas? Jika demikian, ya, ada banyak peringatan yang belum terjawab, dan saya masih belum sepenuhnya yakin dengan jawaban yang "benar" (jika memang ada). Inilah sebabnya saya menambahkan kualifikasi, "Saya memposting ini sebagai jawaban yang benar yang diterima, tetapi saya masih terbuka untuk diskusi lebih lanjut jika ada yang punya sesuatu untuk ditambahkan."
Meg