Bagaimana model regresi dapat digunakan jika Anda tidak tahu fungsi yang Anda cari parameternya?
Saya melihat sebuah penelitian yang mengatakan bahwa ibu yang menyusui anak-anak mereka cenderung menderita diabetes di kemudian hari. Penelitian ini berasal dari survei terhadap sekitar 1.000 ibu dan dikontrol untuk faktor-faktor lain-lain dan model loglinear digunakan.
Sekarang apakah ini berarti bahwa mereka memperhitungkan semua faktor yang menentukan kemungkinan diabetes cocok dalam fungsi yang baik (mungkin secara eksponensial) yang diterjemahkan dengan rapi menjadi model linier dengan log dan bahwa apakah wanita yang disusui ternyata secara statistik signifikan?
Saya kehilangan sesuatu yang saya yakin tetapi, bagaimana mereka bisa tahu modelnya?
sumber
Jawaban:
Ini membantu untuk melihat regresi sebagai pendekatan linier dari bentuk sebenarnya. Misalkan hubungan yang sebenarnya adalah
dengan faktor yang menjelaskan . Kemudian urutan pertama perkiraan Taylor untuk sekitar nol adalah:x1,...,xk y f
di mana adalah kesalahan aproksimasi. Sekarang tunjukkan dan dan Anda memiliki regresi:ε α0=f(0,...,0) αk=∂f(0)∂xk
Jadi, meskipun Anda tidak tahu hubungan yang sebenarnya, jika kecil Anda mendapatkan perkiraan, dari mana Anda masih bisa menyimpulkan kesimpulan yang berguna.ε
sumber
Sisi lain dari jawaban, yang melengkapi jawaban mpiktas tetapi tidak disebutkan sejauh ini, adalah:
"Mereka tidak, tetapi begitu mereka mengasumsikan beberapa struktur model, mereka dapat memeriksanya dengan data".
Dua hal dasar yang bisa salah adalah: Bentuk fungsi, misalnya itu bahkan tidak linier dalam log. Jadi, Anda akan mulai dengan merencanakan residu yang sesuai dengan nilai yang diharapkan. Atau pilihan distribusi kondisional , mis. Jumlah yang diamati overdispersikan relatif terhadap Poisson. Jadi, Anda akan menguji versi Binomial Negatif dari model yang sama, atau melihat apakah kovariat ekstra memperhitungkan variasi ekstra.
Anda juga ingin memeriksa outliers, pengamatan berpengaruh, dan sejumlah hal lainnya. Tempat yang masuk akal untuk membaca tentang memeriksa jenis masalah model ini adalah bab.5 dari Cameron dan Trivedi 1998. (Pasti ada tempat yang lebih baik bagi para peneliti yang berorientasi epidemiologis untuk memulai - mungkin orang lain dapat menyarankannya.)
Jika diagnostik ini menunjukkan bahwa model gagal mencocokkan data, Anda akan mengubah aspek yang relevan dari model dan memulai seluruh proses lagi.
sumber
Pertanyaan pertama yang sangat bagus! Saya setuju dengan jawaban mpiktas, yaitu jawaban singkatnya adalah "mereka tidak, tetapi mereka berharap memiliki pendekatan terhadap model yang tepat yang memberikan kira-kira jawaban yang tepat".
Dalam jargon epidemiologi, model ketidakpastian ini adalah salah satu sumber dari apa yang dikenal sebagai ' residual confounding '. Lihat halaman Steve Simon 'Apa yang mengacaukan residu?' untuk deskripsi singkat yang baik, atau makalah Heiko Becher tahun 1992 dalam Statistics in Medicine (berlangganan diperlukan) untuk perawatan yang lebih lama, lebih matematis, atau makalah yang lebih baru dari Fewell, Davey Smith & Sterne di American Journal of Epidemiology (berlangganan diperlukan) ).
Ini adalah salah satu alasan mengapa epidemiologi efek kecil sulit dan temuannya sering kontroversial - jika ukuran efek yang diukur kecil, sulit untuk mengesampingkan residu perancu atau sumber bias lainnya sebagai penjelasan.
sumber
Ada kutipan terkenal "Pada dasarnya, semua model salah, tetapi beberapa berguna" dari George Box . Ketika memasang model seperti ini, kami mencoba (atau harus) memikirkan proses pembuatan data dan fisik, dunia nyata, hubungan antara respons dan kovariat. Kami mencoba untuk mengungkapkan hubungan ini dalam model yang sesuai dengan data. Atau dengan kata lain, konsisten dengan data. Dengan demikian model empiris dihasilkan.
Apakah itu berguna atau tidak ditentukan kemudian - apakah itu memberikan prediksi yang baik dan andal, misalnya, untuk wanita yang tidak cocok dengan model? Apakah koefisien model dapat diinterpretasikan dan digunakan secara ilmiah? Apakah ukuran efeknya bermakna?
sumber
Jawaban yang sudah Anda dapatkan adalah jawaban yang sangat bagus, tapi saya akan memberikan (mudah-mudahan) jawaban pelengkap dari sudut pandang seorang Epidemiologis. Saya benar-benar memiliki tiga pemikiran tentang ini:
Pertama, tidak. Lihat juga: Semua model salah, beberapa model berguna. Tujuannya bukan untuk menghasilkan angka tunggal dan pasti yang dianggap sebagai "kebenaran" dari fungsi yang mendasarinya. Tujuannya adalah untuk menghasilkan estimasi fungsi itu, dengan kuantifikasi ketidakpastian di sekitarnya, yang merupakan perkiraan yang masuk akal dan berguna dari fungsi yang mendasarinya.
Ini terutama berlaku untuk ukuran efek besar. Pesan "ambil" dari studi yang menemukan risiko relatif 3.0 tidak terlalu berbeda jika hubungan "benar" adalah 2,5 atau 3,2. Seperti yang disebutkan @onestop, ini semakin sulit dengan perkiraan ukuran efek yang kecil, karena perbedaan antara 0,9, 1,0 dan 1,1 bisa sangat besar dari sudut pandang kesehatan dan kebijakan.
Kedua, ada proses tersembunyi di sebagian besar makalah Epidemiologi. Itulah proses pemilihan model yang sebenarnya . Kami cenderung melaporkan model yang kami dapatkan, tidak semua model yang kami pertimbangkan (karena itu akan melelahkan, jika tidak ada yang lain). Ada banyak langkah pembuatan model, diagram konseptual, diagnostik, statistik kecocokan, analisis sensitivitas, bersumpah di depan komputer dan mencoret-coret papan tulis yang terlibat dalam analisis bahkan studi pengamatan kecil.
Karena saat Anda sedang membuat asumsi, banyak dari mereka yang juga asumsi Anda dapat memeriksa.
Ketiga, terkadang kita tidak melakukannya. Dan kemudian kita pergi ke konferensi dan berdebat satu sama lain tentang hal itu;)
Jika Anda tertarik pada mur dan baut Epidemiologi sebagai bidang, dan bagaimana kami melakukan penelitian, tempat terbaik untuk memulai mungkin Epidemiologi Modern Edisi 3 oleh Rothman, Greenland, dan Lash. Ini adalah gambaran yang cukup teknis dan sangat baik tentang bagaimana penelitian Epi dilakukan.
sumber