Memahami regresi - peran model

46

Bagaimana model regresi dapat digunakan jika Anda tidak tahu fungsi yang Anda cari parameternya?

Saya melihat sebuah penelitian yang mengatakan bahwa ibu yang menyusui anak-anak mereka cenderung menderita diabetes di kemudian hari. Penelitian ini berasal dari survei terhadap sekitar 1.000 ibu dan dikontrol untuk faktor-faktor lain-lain dan model loglinear digunakan.

Sekarang apakah ini berarti bahwa mereka memperhitungkan semua faktor yang menentukan kemungkinan diabetes cocok dalam fungsi yang baik (mungkin secara eksponensial) yang diterjemahkan dengan rapi menjadi model linier dengan log dan bahwa apakah wanita yang disusui ternyata secara statistik signifikan?

Saya kehilangan sesuatu yang saya yakin tetapi, bagaimana mereka bisa tahu modelnya?

Jonathan Andrews
sumber
Terima kasih banyak. Saya ingin meluangkan sedikit waktu untuk memikirkan jawaban Anda dan mungkin, jika Anda tidak keberatan saya coba menuliskannya dalam istilah saya untuk pandangan Anda. Saya suka deskripsi proses ini yang berasal dari seri Taylor. Saya harus mengambil pengetahuan saya tentang regresi secara sembarangan dan melalui Ekonomi dan Matematika untuk Ekonom dan hubungan dengan Taylor dapat dicatat karena tidak ada.
Jonathan Andrews
Saya telah menggabungkan akun Anda; tapi tolong, daftarkan di sini stats.stackexchange.com/users/login sehingga Anda tidak akan kehilangan itu lagi.

Jawaban:

43

Ini membantu untuk melihat regresi sebagai pendekatan linier dari bentuk sebenarnya. Misalkan hubungan yang sebenarnya adalah

y=f(x1,...,xk)

dengan faktor yang menjelaskan . Kemudian urutan pertama perkiraan Taylor untuk sekitar nol adalah:x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

di mana adalah kesalahan aproksimasi. Sekarang tunjukkan dan dan Anda memiliki regresi:εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

Jadi, meskipun Anda tidak tahu hubungan yang sebenarnya, jika kecil Anda mendapatkan perkiraan, dari mana Anda masih bisa menyimpulkan kesimpulan yang berguna.ε

mpiktas
sumber
1
Hai, penjelasan yang sangat bagus tapi tapi saya tidak berhasil memahami bagian "sigma" dalam ekspansi seri taylor. Bagaimana Anda mengurangi persamaan ini yang ditemukan di sini: mathworld.wolfram.com/TaylorSeries.html di bawah "Serangkaian fungsi nyata Taylor dalam dua variabel" untuk Anda?
Arun
1
@Arun, ambil dalam rumus (32). n=1
mpiktas
18

Sisi lain dari jawaban, yang melengkapi jawaban mpiktas tetapi tidak disebutkan sejauh ini, adalah:

"Mereka tidak, tetapi begitu mereka mengasumsikan beberapa struktur model, mereka dapat memeriksanya dengan data".

Dua hal dasar yang bisa salah adalah: Bentuk fungsi, misalnya itu bahkan tidak linier dalam log. Jadi, Anda akan mulai dengan merencanakan residu yang sesuai dengan nilai yang diharapkan. Atau pilihan distribusi kondisional , mis. Jumlah yang diamati overdispersikan relatif terhadap Poisson. Jadi, Anda akan menguji versi Binomial Negatif dari model yang sama, atau melihat apakah kovariat ekstra memperhitungkan variasi ekstra.

Anda juga ingin memeriksa outliers, pengamatan berpengaruh, dan sejumlah hal lainnya. Tempat yang masuk akal untuk membaca tentang memeriksa jenis masalah model ini adalah bab.5 dari Cameron dan Trivedi 1998. (Pasti ada tempat yang lebih baik bagi para peneliti yang berorientasi epidemiologis untuk memulai - mungkin orang lain dapat menyarankannya.)

Jika diagnostik ini menunjukkan bahwa model gagal mencocokkan data, Anda akan mengubah aspek yang relevan dari model dan memulai seluruh proses lagi.

conjugateprior
sumber
1
+1 Ini adalah kunci yang mencegah semuanya melambaikan tangan: Anda tidak tahu, tetapi Anda mencoba sesuatu dan kemudian melihat seberapa baik itu cocok dan dengan cara apa itu tidak cocok dengan data Anda.
Wayne
15

Pertanyaan pertama yang sangat bagus! Saya setuju dengan jawaban mpiktas, yaitu jawaban singkatnya adalah "mereka tidak, tetapi mereka berharap memiliki pendekatan terhadap model yang tepat yang memberikan kira-kira jawaban yang tepat".

Dalam jargon epidemiologi, model ketidakpastian ini adalah salah satu sumber dari apa yang dikenal sebagai ' residual confounding '. Lihat halaman Steve Simon 'Apa yang mengacaukan residu?' untuk deskripsi singkat yang baik, atau makalah Heiko Becher tahun 1992 dalam Statistics in Medicine (berlangganan diperlukan) untuk perawatan yang lebih lama, lebih matematis, atau makalah yang lebih baru dari Fewell, Davey Smith & Sterne di American Journal of Epidemiology (berlangganan diperlukan) ).

Ini adalah salah satu alasan mengapa epidemiologi efek kecil sulit dan temuannya sering kontroversial - jika ukuran efek yang diukur kecil, sulit untuk mengesampingkan residu perancu atau sumber bias lainnya sebagai penjelasan.

onestop
sumber
1
Saya berpendapat bahwa kesalahan spesifikasi model - yang tampaknya menjadi apa yang dibicarakan OP, agak berbeda dari residu perancu. Membingungkan membutuhkan kovariat. Anda dapat mengacaukan regresi hanya dengan salah spesifikasi dari paparan dan hasil.
Fomite
13

Ada kutipan terkenal "Pada dasarnya, semua model salah, tetapi beberapa berguna" dari George Box . Ketika memasang model seperti ini, kami mencoba (atau harus) memikirkan proses pembuatan data dan fisik, dunia nyata, hubungan antara respons dan kovariat. Kami mencoba untuk mengungkapkan hubungan ini dalam model yang sesuai dengan data. Atau dengan kata lain, konsisten dengan data. Dengan demikian model empiris dihasilkan.

Apakah itu berguna atau tidak ditentukan kemudian - apakah itu memberikan prediksi yang baik dan andal, misalnya, untuk wanita yang tidak cocok dengan model? Apakah koefisien model dapat diinterpretasikan dan digunakan secara ilmiah? Apakah ukuran efeknya bermakna?

Pasang kembali Monica - G. Simpson
sumber
3

Jawaban yang sudah Anda dapatkan adalah jawaban yang sangat bagus, tapi saya akan memberikan (mudah-mudahan) jawaban pelengkap dari sudut pandang seorang Epidemiologis. Saya benar-benar memiliki tiga pemikiran tentang ini:

Pertama, tidak. Lihat juga: Semua model salah, beberapa model berguna. Tujuannya bukan untuk menghasilkan angka tunggal dan pasti yang dianggap sebagai "kebenaran" dari fungsi yang mendasarinya. Tujuannya adalah untuk menghasilkan estimasi fungsi itu, dengan kuantifikasi ketidakpastian di sekitarnya, yang merupakan perkiraan yang masuk akal dan berguna dari fungsi yang mendasarinya.

Ini terutama berlaku untuk ukuran efek besar. Pesan "ambil" dari studi yang menemukan risiko relatif 3.0 tidak terlalu berbeda jika hubungan "benar" adalah 2,5 atau 3,2. Seperti yang disebutkan @onestop, ini semakin sulit dengan perkiraan ukuran efek yang kecil, karena perbedaan antara 0,9, 1,0 dan 1,1 bisa sangat besar dari sudut pandang kesehatan dan kebijakan.

Kedua, ada proses tersembunyi di sebagian besar makalah Epidemiologi. Itulah proses pemilihan model yang sebenarnya . Kami cenderung melaporkan model yang kami dapatkan, tidak semua model yang kami pertimbangkan (karena itu akan melelahkan, jika tidak ada yang lain). Ada banyak langkah pembuatan model, diagram konseptual, diagnostik, statistik kecocokan, analisis sensitivitas, bersumpah di depan komputer dan mencoret-coret papan tulis yang terlibat dalam analisis bahkan studi pengamatan kecil.

Karena saat Anda sedang membuat asumsi, banyak dari mereka yang juga asumsi Anda dapat memeriksa.

Ketiga, terkadang kita tidak melakukannya. Dan kemudian kita pergi ke konferensi dan berdebat satu sama lain tentang hal itu;)

Jika Anda tertarik pada mur dan baut Epidemiologi sebagai bidang, dan bagaimana kami melakukan penelitian, tempat terbaik untuk memulai mungkin Epidemiologi Modern Edisi 3 oleh Rothman, Greenland, dan Lash. Ini adalah gambaran yang cukup teknis dan sangat baik tentang bagaimana penelitian Epi dilakukan.

Fomite
sumber
1
+1, ini adalah pelengkap yang baik untuk apa yang ada di sini. Sangat menyenangkan melihat bahwa kontribusi yang bermanfaat masih dapat dibuat, bahkan setelah begitu banyak kontribusi bagus lainnya sudah ada.
gung - Reinstate Monica