Apa artinya (secara intuitif) untuk mempertahankan variabel lain konstan dalam regresi?

9

Saya mencari penjelasan 1) mekanis dan 2) intuitif untuk bagaimana efek dari variabel individu ditentukan memegang variabel lain konstan.

Dalam contoh menggunakan data survei, apa sebenarnya artinya mengatakan:

"Dengan usia, jenis kelamin, dan penghasilan yang konstan, pengaruh pendidikan adalah ___"

Pemahaman saya adalah bahwa dengan regresi kami berusaha untuk menciptakan kembali pengaturan eksperimental, dan dalam contoh di atas mencoba untuk membandingkan sub-populasi dengan usia, jenis kelamin, pendapatan, dll yang sama, tetapi dengan tingkat pendidikan yang berbeda, dan memperkirakan perbedaan dalam berarti dari subpopulasi tersebut. Pertanyaan:

  1. Apakah intuisi ini benar?
  2. Apakah subpopulasi ini tentu ada? Bagaimana jika survei tidak mengandung responden dengan nilai yang persis sama pada kontrol?
  3. Bagaimana ketidakpastian tentang perkiraan subpopulasi ini ditentukan?
FlacoT
sumber
Apakah turunan parsial "intuitif" bagi Anda?
Aksakal

Jawaban:

5

Intuisi adalah subjek yang rumit, tergantung pada latar belakang orang tersebut. Sebagai contoh, saya belajar statistik setelah mempelajari fisika matematika. Bagi saya intuisi adalah turunan parsial. Pertimbangkan model regresi

ysaya=Sebuah+bxxsaya+bzzsaya+εsaya
Ini dapat dinyatakan kembali sebagai
ysaya=f(xsaya,zsaya)+εsaya,
dimana f(x,z)=bxx+bzz

Ambil turunan total dari fungsif():

df=fxdx+fzdz

Ini adalah bagaimana turunan parsial wrt x didefinisikan:

fx=limΔx0f(x+Δx,z)-f(x,z)Δx
Anda memegang z konstan, dan menjauh dari x. Derivatif parsial memberitahu Anda seberapa sensitiff untuk perubahan x. Anda dapat melihat bahwa beta (koefisien) adalah kemiringan pada variabel yang diminati:
fx=bx

Dengan kata lain, dalam model linier sederhana koefisien Anda adalah turunan parsial (kemiringan) berkaitan dengan variabel. Itulah arti "memegang konstan" bagi saya secara intuitif.

Aksakal
sumber
1
Saya menghargai intuisi ini, tetapi bagian dari deskripsi Anda mungkin secara tak terduga menjadi masalah bagi sebagian orang. Saya akan menarik perhatian Anda pada (1) cara mendefinisikan turunan parsial untuk regresi kategori dan (2) memutuskan bagaimana mendefinisikan turunan parsial ketika regressor adalah fungsi dari regressor lain, seperti dalam regresi polinomial atau ketika interaksi dimasukkan.
whuber
2
  1. Intuisi itu benar pada dasarnya. Saya akan mencoba menjawab dengan cara yang singkat dan intuitif juga-
  2. Sub populasi tersebut pasti ada karena Anda menahannya secara konstan dengan: (a) mengambil sampel subjek Anda berkenaan dengan kovariat berspekulasi Anda ATAU (b) Anda memberi batasan pada variabilitasnya (yaitu varians = 0). Ini dilakukan dengan mengambil 1 kelompok (mis. Pria saja, berambut pirang, dll.) Jika variabel kategorinya atau dengan mengambil rata-rata kovariat yang diberikan (usia, pendidikan, pendapatan, dan sebagainya).
pengguna122677
sumber
6
Jawaban ini tampaknya mengecualikan semua aplikasi regresi yang mungkin untuk dataset non-eksperimental atau observasi (kecuali mungkin yang dapat diperbesar dengan lebih banyak pengamatan, yang jarang terjadi). Karena itu tampaknya tidak perlu membatasi, dan jadi mungkin tidak adil terhadap konsep yang mendasarinya.
whuber
2

Ketika user122677 menjawab, intuisi itu benar: Dalam regresi linier, setiap koefisien adalah jumlah perubahan dalam hasil ketika satu nilai variabel ditingkatkan oleh satu unit sementara semua variabel lainnya tetap konstan. Dengan kata lain, koefisien adalah turunan parsial dari prediksi model terhadap masing-masing variabel.

Bagaimanapun, berhati-hatilah bahwa jika model kita memasukkan variabel interaksi tidak dapat diubah tanpa mengubah interaksi dan karenanya interpretasi satu koefisien ini tidak masuk akal sebagai perubahan nyata. Hal yang sama terjadi dengan regresi polinomial, di mana tidak ada istilah yang dapat berubah tanpa mengubah istilah lainnya.

Tentang keberadaan sub-populasi itu, mereka tidak perlu ada. Dalam beberapa desain eksperimental mereka bisa ada, tetapi dalam studi observasional dengan variabel kontinu mereka sangat tidak mungkin ada. Sebagai contoh:

  • Dalam desain lengkap eksperimen dengan variabel biner (atau diskrit hingga) semua kombinasi nilai variabel ada dalam sampel.
  • Dalam penelitian observasional dengan variabel kontinu, setiap observasi sangat mungkin untuk mendapatkan nilai unik untuk semua variabel dan karenanya tidak mungkin ada dua elemen dengan semua variabel sama kecuali satu.
Pere
sumber