Hampir semua yang saya baca tentang regresi linier dan GLM bermuara pada ini: mana adalah fungsi dan tidak bertambah atau tidak berkurang adalah parameter yang Anda memperkirakan dan menguji hipotesis tentang. Ada lusinan fungsi tautan dan transformasi dan untuk menjadikan fungsi linear dari .f ( x , β ) x β y x y f ( x , β )
Sekarang, jika Anda menghapus persyaratan yang tidak meningkat / tidak berkurang untuk , saya hanya tahu dua pilihan untuk memasang model linier parametrik: fungsi trig dan polinomial. Keduanya menciptakan ketergantungan buatan antara setiap prediksi dan seluruh rangkaian , menjadikannya sangat tidak kuat kecuali jika ada alasan sebelumnya untuk percaya bahwa data Anda sebenarnya dihasilkan oleh proses siklus atau polinomial.y X
Ini bukan semacam kasus tepi esoteris. Ini adalah hubungan yang wajar dan masuk akal antara air dan hasil panen (setelah plot cukup dalam di bawah air, hasil panen akan mulai berkurang), atau antara kalori yang dikonsumsi saat sarapan dan kinerja pada kuis matematika, atau jumlah pekerja di pabrik dan jumlah widget yang mereka hasilkan ... singkatnya, hampir semua kasus nyata yang menggunakan model linier tetapi dengan data yang mencakup rentang yang cukup luas sehingga Anda dapat melewati pengembalian yang semakin berkurang ke hasil negatif.
Saya mencoba mencari istilah 'cekung', 'cembung', 'lengkung', 'non-monotonik', 'bak mandi', dan saya lupa berapa banyak yang lain. Beberapa pertanyaan relevan dan bahkan lebih sedikit jawaban yang dapat digunakan. Jadi, secara praktis, jika Anda memiliki data berikut (kode R, y adalah fungsi dari variabel kontinu x dan kelompok variabel diskrit):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Anda mungkin pertama kali mencoba transformasi Box-Cox dan melihat apakah itu masuk akal secara mekanistik, dan jika gagal, Anda mungkin cocok dengan model kuadrat nonlinier dengan fungsi tautan logistik atau asimptotik.
Jadi, mengapa Anda menyerah model parametrik sepenuhnya dan kembali pada metode kotak hitam seperti splines ketika Anda mengetahui bahwa dataset lengkap terlihat seperti ini ...
plot(y~x,updown,col=group);
Pertanyaan saya adalah:
- Istilah apa yang harus saya cari untuk menemukan fungsi tautan yang mewakili kelas hubungan fungsional ini?
atau
- Apa yang harus saya baca dan / atau cari untuk belajar sendiri bagaimana merancang fungsi tautan ke kelas hubungan fungsional ini atau memperluas yang sudah ada yang saat ini hanya untuk tanggapan monoton?
atau
- Heck, bahkan tag StackExchange apa yang paling tepat untuk jenis pertanyaan ini!
R
Kode Anda memiliki kesalahan sintaksis:group
tidak boleh dikutip. (2) Plotnya indah: titik-titik merah menunjukkan hubungan linier sedangkan yang hitam bisa cocok dalam beberapa cara, termasuk regresi linier piecewise (diperoleh dengan model changepoint) dan mungkin bahkan sebagai eksponensial. Saya tidak merekomendasikan ini, karena pilihan pemodelan harus diinformasikan oleh pemahaman tentang apa yang menghasilkan data dan termotivasi oleh teori dalam disiplin ilmu yang relevan. Mereka mungkin menjadi awal yang lebih baik untuk penelitian Anda.Jawaban:
Pernyataan dalam pertanyaan tentang fungsi tautan dan monotonitas adalah herring merah. Mendasari mereka tampaknya menjadi asumsi implisit bahwa model linear yang digeneralisasi (GLM), dengan mengekspresikan ekspektasi respon sebagai fungsi monoton f dari kombinasi linear X β dari variabel penjelas X , tidak cukup fleksibel untuk menjelaskan non- tanggapan monoton. Itu tidak benar.Y f Xβ X
Mungkin contoh yang berhasil akan menerangi titik ini. Dalam sebuah studi tahun 1948 (diterbitkan secara anumerta pada tahun 1977 dan tidak pernah ditinjau oleh rekan sejawat), J. Tolkien melaporkan hasil percobaan penyiraman tanaman di mana 13 kelompok dari 24 bunga matahari ( Helianthus Gondorensis ) diberi jumlah air terkontrol mulai dari perkecambahan hingga tiga bulan. pertumbuhan. Jumlah total yang diterapkan bervariasi dari satu inci hingga 25 inci dengan peningkatan dua inci.
Ada respons positif yang jelas terhadap penyiraman dan respons negatif yang kuat terhadap penyiraman berlebih. Pekerjaan sebelumnya, berdasarkan model kinetik hipotetis dari pengangkutan ion, telah berhipotesis bahwa dua mekanisme yang bersaing mungkin menjelaskan perilaku ini: satu menghasilkan respons linear terhadap sejumlah kecil air (sebagaimana diukur dalam peluang log untuk bertahan hidup), sementara yang lain- -sebuah faktor penghambat - bertindak secara eksponensial (yang merupakan efek yang sangat non-linear). Dengan sejumlah besar air, faktor penghambat akan membanjiri efek positif dari air dan cukup meningkatkan mortalitas.
R
Tidak ada kesulitan teknis; perhitungan hanya membutuhkan 1/30 detik.
R
Jawaban atas pertanyaan adalah:
Tidak ada : itu bukan tujuan dari fungsi tautan.
Tidak ada : ini didasarkan pada kesalahpahaman tentang bagaimana respons dimodelkan.
Jelas, orang pertama-tama harus fokus pada variabel penjelas apa yang akan digunakan atau membangun ketika membangun model regresi. Seperti yang disarankan dalam contoh ini, cari panduan dari pengalaman dan teori masa lalu.
sumber
Tampak bersalah pada tanaman sekarat di mejanya .... rupanya tidak
Dalam komentarnya, @whuber mengatakan bahwa "pilihan-pilihan pemodelan harus diinformasikan oleh pemahaman tentang apa yang menghasilkan data dan dimotivasi oleh teori-teori dalam disiplin ilmu yang relevan", yang Anda tanyakan bagaimana cara seseorang melakukan hal ini.
Kinetika Michaelis dan Menten sebenarnya adalah contoh yang sangat berguna. Persamaan-persamaan itu dapat diturunkan dengan memulai dengan beberapa asumsi (misalnya, substrat berada dalam kesetimbangan dengan kompleknya, enzim tidak dikonsumsi) dan beberapa prinsip yang diketahui (hukum aksi massa). Biologi Matematika Murray: Suatu Pengantar berjalan melalui derivasi pada bab 6 (saya berani bertaruh banyak buku lain juga!).
Secara umum, ini membantu untuk membangun "repertoar" model dan asumsi. Saya yakin bidang Anda memiliki beberapa model yang umum diterima dan telah teruji waktu. Sebagai contoh, jika sesuatu sedang diisi atau dikosongkan, saya akan mencari eksponensial untuk memodelkan tegangannya sebagai fungsi waktu. Sebaliknya, jika saya melihat bentuk seperti eksponensial dalam plot waktu-tegangan, tebakan pertama saya adalah bahwa sesuatu di dalam rangkaian itu mengeluarkan kapasitif dan, jika saya tidak tahu apa itu, saya akan mencoba menemukannya. Idealnya, teori dapat membantu Anda membangun model dan menyarankan eksperimen baru.
sumber
Saya mendapat respons yang agak informal dari sudut pandang seseorang yang menghabiskan setengah dari kehidupan ilmiahnya di bangku cadangan dan separuh lainnya di komputer, bermain dengan statistik. Saya mencoba memasukkan komentar, tapi itu terlalu panjang.
Anda tahu, jika saya adalah seorang ilmuwan yang mengamati jenis hasil yang Anda dapatkan, saya akan senang. Berbagai hubungan monotonik itu membosankan dan sulit dibedakan. Namun, jenis hubungan yang Anda tunjukkan kepada kami menyarankan efek yang sangat khusus. Ini memberi kita taman bermain yang luar biasa bagi ahli teori untuk mengemukakan hipotesis tentang apa hubungan itu, bagaimana perubahannya pada ekstrem. Ini memberikan taman bermain yang bagus bagi ilmuwan bangku untuk mencari tahu apa yang terjadi dan bereksperimen secara luas pada kondisi.
Dalam arti tertentu, saya lebih suka memiliki kasus yang Anda perlihatkan dan tidak tahu bagaimana cara menyesuaikan model yang sederhana (tetapi dapat membuat hipotesis baru) daripada memiliki hubungan yang sederhana, mudah untuk dimodelkan tetapi lebih sulit untuk diselidiki secara mekanis. Namun, saya belum menemukan kasus seperti itu dalam latihan saya.
Akhirnya, ada satu pertimbangan lagi. Jika Anda mencari tes yang menunjukkan bahwa hitam berbeda dari merah (dalam data Anda) - sebagai mantan ilmuwan bangku, saya katakan mengapa repot? Cukup jelas dari gambar.
sumber
Untuk data seperti itu, saya mungkin setidaknya akan mempertimbangkan linear splines.
Anda dapat melakukannya dengan mudah atau mudah.
Jika Anda mengambil pendekatan seperti itu, masalah Anda akan memilih jumlah simpul dan simpul lokasi; salah satu solusinya mungkin dengan mempertimbangkan sejumlah lokasi yang memungkinkan, dan menggunakan sesuatu seperti laso atau metode regularisasi dan seleksi lainnya untuk mengidentifikasi satu set kecil; Anda harus memperhitungkan efek dari seleksi tersebut dalam inferensi.
sumber
gam
dalam paket Rmgcv
.Saya tidak punya waktu untuk membaca seluruh posting Anda, tetapi tampaknya perhatian utama Anda adalah bahwa bentuk-bentuk respons fungsional mungkin bergeser dengan perawatan. Ada beberapa teknik untuk mengatasi hal ini, tetapi mereka intensif data.
Untuk contoh spesifik Anda:
G adalah pertumbuhan W adalah air T adalah pengolahan
Dekade terakhir telah melihat banyak penelitian dalam regresi semiparametrik, dan daging sapi ini tentang bentuk-bentuk fungsional semakin dan semakin mudah dikelola. Tetapi pada akhir hari, statistik bermain dengan angka, dan hanya berguna karena membangun intuisi tentang fenomena yang sedang diamati. Hal ini pada gilirannya membutuhkan pemahaman tentang cara angka dimainkan. Nada posting Anda menunjukkan kesediaan untuk membuang bayi keluar dengan air mandi.
sumber