Apakah ahli statistik berasumsi seseorang tidak dapat menyirami tanaman secara berlebihan, atau apakah saya hanya menggunakan istilah pencarian yang salah untuk regresi curvilinear?

18

Hampir semua yang saya baca tentang regresi linier dan GLM bermuara pada ini: mana adalah fungsi dan tidak bertambah atau tidak berkurang adalah parameter yang Anda memperkirakan dan menguji hipotesis tentang. Ada lusinan fungsi tautan dan transformasi dan untuk menjadikan fungsi linear dari .f ( x , β ) x β y x y f ( x , β )y=f(x,β)f(x,β)xβyxyf(x,β)

Sekarang, jika Anda menghapus persyaratan yang tidak meningkat / tidak berkurang untuk , saya hanya tahu dua pilihan untuk memasang model linier parametrik: fungsi trig dan polinomial. Keduanya menciptakan ketergantungan buatan antara setiap prediksi dan seluruh rangkaian , menjadikannya sangat tidak kuat kecuali jika ada alasan sebelumnya untuk percaya bahwa data Anda sebenarnya dihasilkan oleh proses siklus atau polinomial.y Xf(x,β)yX

Ini bukan semacam kasus tepi esoteris. Ini adalah hubungan yang wajar dan masuk akal antara air dan hasil panen (setelah plot cukup dalam di bawah air, hasil panen akan mulai berkurang), atau antara kalori yang dikonsumsi saat sarapan dan kinerja pada kuis matematika, atau jumlah pekerja di pabrik dan jumlah widget yang mereka hasilkan ... singkatnya, hampir semua kasus nyata yang menggunakan model linier tetapi dengan data yang mencakup rentang yang cukup luas sehingga Anda dapat melewati pengembalian yang semakin berkurang ke hasil negatif.

Saya mencoba mencari istilah 'cekung', 'cembung', 'lengkung', 'non-monotonik', 'bak mandi', dan saya lupa berapa banyak yang lain. Beberapa pertanyaan relevan dan bahkan lebih sedikit jawaban yang dapat digunakan. Jadi, secara praktis, jika Anda memiliki data berikut (kode R, y adalah fungsi dari variabel kontinu x dan kelompok variabel diskrit):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

Scatterplot

Anda mungkin pertama kali mencoba transformasi Box-Cox dan melihat apakah itu masuk akal secara mekanistik, dan jika gagal, Anda mungkin cocok dengan model kuadrat nonlinier dengan fungsi tautan logistik atau asimptotik.

Jadi, mengapa Anda menyerah model parametrik sepenuhnya dan kembali pada metode kotak hitam seperti splines ketika Anda mengetahui bahwa dataset lengkap terlihat seperti ini ...

plot(y~x,updown,col=group);

Pertanyaan saya adalah:

  • Istilah apa yang harus saya cari untuk menemukan fungsi tautan yang mewakili kelas hubungan fungsional ini?

atau

  • Apa yang harus saya baca dan / atau cari untuk belajar sendiri bagaimana merancang fungsi tautan ke kelas hubungan fungsional ini atau memperluas yang sudah ada yang saat ini hanya untuk tanggapan monoton?

atau

  • Heck, bahkan tag StackExchange apa yang paling tepat untuk jenis pertanyaan ini!
f1r3br4nd
sumber
4
Saya tidak tahu apa yang Anda tanyakan. Anda ingin mencocokkan fungsi non-monoton ... apa sebenarnya masalah Anda dengan regresi polinomial atau regresi sinus lagi ?? Juga ... "fungsi tautan" ... Anda tetap menggunakan kata itu ... Saya tidak berpikir itu berarti apa yang Anda pikirkan artinya. x
Jake Westfall
5
(1) RKode Anda memiliki kesalahan sintaksis: grouptidak boleh dikutip. (2) Plotnya indah: titik-titik merah menunjukkan hubungan linier sedangkan yang hitam bisa cocok dalam beberapa cara, termasuk regresi linier piecewise (diperoleh dengan model changepoint) dan mungkin bahkan sebagai eksponensial. Saya tidak merekomendasikan ini, karena pilihan pemodelan harus diinformasikan oleh pemahaman tentang apa yang menghasilkan data dan termotivasi oleh teori dalam disiplin ilmu yang relevan. Mereka mungkin menjadi awal yang lebih baik untuk penelitian Anda.
whuber
1
@ terima kasih! Memperbaiki kode. Mengenai motivasi teoretis: dari mana ini berasal? Kolaborator ilmuwan bangku saya akan dengan senang hati mendikotomasikan variabel prediktor dan melakukan uji-t pada mereka. Jadi jatuh ke saya menemukan cara untuk berhenti membuang-buang data dengan menemukan hubungan matematika yang menangkap transisi dari "y berkorelasi positif dengan x" menjadi "y memiliki sedikit respons terhadap x" hingga "y berkorelasi negatif dengan x". Jika gagal, saya harus merekapitulasi apa yang, misalnya, Michaelis dan Menten lakukan ketika mereka menemukan hubungan antara enzim, substrat, dan produk.
f1r3br4nd
1
Apakah poin-poin di mana hal-hal itu 'ketegaran' diketahui sebelumnya?
Glen_b -Reinstate Monica
3
+1 untuk judul provokatif dan tindak lanjut yang benar-benar masuk akal
Stumpy Joe Pete

Jawaban:

45

Pernyataan dalam pertanyaan tentang fungsi tautan dan monotonitas adalah herring merah. Mendasari mereka tampaknya menjadi asumsi implisit bahwa model linear yang digeneralisasi (GLM), dengan mengekspresikan ekspektasi respon sebagai fungsi monoton f dari kombinasi linear X β dari variabel penjelas X , tidak cukup fleksibel untuk menjelaskan non- tanggapan monoton. Itu tidak benar.YfXβX


Mungkin contoh yang berhasil akan menerangi titik ini. Dalam sebuah studi tahun 1948 (diterbitkan secara anumerta pada tahun 1977 dan tidak pernah ditinjau oleh rekan sejawat), J. Tolkien melaporkan hasil percobaan penyiraman tanaman di mana 13 kelompok dari 24 bunga matahari ( Helianthus Gondorensis ) diberi jumlah air terkontrol mulai dari perkecambahan hingga tiga bulan. pertumbuhan. Jumlah total yang diterapkan bervariasi dari satu inci hingga 25 inci dengan peningkatan dua inci.

Gambar 1

Ada respons positif yang jelas terhadap penyiraman dan respons negatif yang kuat terhadap penyiraman berlebih. Pekerjaan sebelumnya, berdasarkan model kinetik hipotetis dari pengangkutan ion, telah berhipotesis bahwa dua mekanisme yang bersaing mungkin menjelaskan perilaku ini: satu menghasilkan respons linear terhadap sejumlah kecil air (sebagaimana diukur dalam peluang log untuk bertahan hidup), sementara yang lain- -sebuah faktor penghambat - bertindak secara eksponensial (yang merupakan efek yang sangat non-linear). Dengan sejumlah besar air, faktor penghambat akan membanjiri efek positif dari air dan cukup meningkatkan mortalitas.

κYnx

Binomial(n,f(β0+β1xβ2exp(κx)))
fxκβ0β1β2f1(E[Y])x1β0xβ1exp(κx)β2

κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

Tidak ada kesulitan teknis; perhitungan hanya membutuhkan 1/30 detik.

Gambar 2

E[Y]

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Jawaban atas pertanyaan adalah:

Istilah apa yang harus saya cari untuk menemukan fungsi tautan yang mewakili kelas hubungan fungsional ini?

Tidak ada : itu bukan tujuan dari fungsi tautan.

Apa yang harus saya ... cari untuk ... memperluas [fungsi tautan] yang ada yang saat ini hanya untuk tanggapan monoton?

Tidak ada : ini didasarkan pada kesalahpahaman tentang bagaimana respons dimodelkan.

Jelas, orang pertama-tama harus fokus pada variabel penjelas apa yang akan digunakan atau membangun ketika membangun model regresi. Seperti yang disarankan dalam contoh ini, cari panduan dari pengalaman dan teori masa lalu.

whuber
sumber
jawaban yang luar biasa! Apakah ini data sebenarnya tolkien dari novel?
Cam.Davidson.Pilon
1
@Cam. Data tidak berhasil masuk ke pemotongan akhir :-). (Saya kira, konteksnya agak
merdu
1
κ
5
κκχ2(1)
1
@zipzapboing Contoh yang saya berikan di sini istimewa karena diinformasikan oleh teori yang mendasarinya. Ketika informasi tersebut tersedia, itu bisa menjadi panduan yang kuat untuk memilih model. Namun, dalam banyak kasus, tidak ada informasi seperti itu, atau hanya satu yang berharap bahwa respons yang diharapkan dapat bervariasi secara monoton dengan para regressor. Mungkin alasan paling mendasar yang bisa seseorang tunjukkan adalah harapan bahwa responsnya bervariasi secara berbeda dengan para regressor dan bahwa, untuk rentang regressor dalam data, perubahan turunannya kecil: respons linear akan mendekati perkiraan itu dengan baik.
whuber
9

Tampak bersalah pada tanaman sekarat di mejanya .... rupanya tidak

Dalam komentarnya, @whuber mengatakan bahwa "pilihan-pilihan pemodelan harus diinformasikan oleh pemahaman tentang apa yang menghasilkan data dan dimotivasi oleh teori-teori dalam disiplin ilmu yang relevan", yang Anda tanyakan bagaimana cara seseorang melakukan hal ini.

Kinetika Michaelis dan Menten sebenarnya adalah contoh yang sangat berguna. Persamaan-persamaan itu dapat diturunkan dengan memulai dengan beberapa asumsi (misalnya, substrat berada dalam kesetimbangan dengan kompleknya, enzim tidak dikonsumsi) dan beberapa prinsip yang diketahui (hukum aksi massa). Biologi Matematika Murray: Suatu Pengantar berjalan melalui derivasi pada bab 6 (saya berani bertaruh banyak buku lain juga!).

Secara umum, ini membantu untuk membangun "repertoar" model dan asumsi. Saya yakin bidang Anda memiliki beberapa model yang umum diterima dan telah teruji waktu. Sebagai contoh, jika sesuatu sedang diisi atau dikosongkan, saya akan mencari eksponensial untuk memodelkan tegangannya sebagai fungsi waktu. Sebaliknya, jika saya melihat bentuk seperti eksponensial dalam plot waktu-tegangan, tebakan pertama saya adalah bahwa sesuatu di dalam rangkaian itu mengeluarkan kapasitif dan, jika saya tidak tahu apa itu, saya akan mencoba menemukannya. Idealnya, teori dapat membantu Anda membangun model dan menyarankan eksperimen baru.

y=k-(x+h)2BERSAMA2 menangkap dari kurang transpirasi?) dan banjir (bakteri memakan akar?) mungkin menyarankan bentuk spesifik untuk masing-masing bagian.

Matt Krause
sumber
8

Saya mendapat respons yang agak informal dari sudut pandang seseorang yang menghabiskan setengah dari kehidupan ilmiahnya di bangku cadangan dan separuh lainnya di komputer, bermain dengan statistik. Saya mencoba memasukkan komentar, tapi itu terlalu panjang.

Anda tahu, jika saya adalah seorang ilmuwan yang mengamati jenis hasil yang Anda dapatkan, saya akan senang. Berbagai hubungan monotonik itu membosankan dan sulit dibedakan. Namun, jenis hubungan yang Anda tunjukkan kepada kami menyarankan efek yang sangat khusus. Ini memberi kita taman bermain yang luar biasa bagi ahli teori untuk mengemukakan hipotesis tentang apa hubungan itu, bagaimana perubahannya pada ekstrem. Ini memberikan taman bermain yang bagus bagi ilmuwan bangku untuk mencari tahu apa yang terjadi dan bereksperimen secara luas pada kondisi.

Dalam arti tertentu, saya lebih suka memiliki kasus yang Anda perlihatkan dan tidak tahu bagaimana cara menyesuaikan model yang sederhana (tetapi dapat membuat hipotesis baru) daripada memiliki hubungan yang sederhana, mudah untuk dimodelkan tetapi lebih sulit untuk diselidiki secara mekanis. Namun, saya belum menemukan kasus seperti itu dalam latihan saya.

Akhirnya, ada satu pertimbangan lagi. Jika Anda mencari tes yang menunjukkan bahwa hitam berbeda dari merah (dalam data Anda) - sebagai mantan ilmuwan bangku, saya katakan mengapa repot? Cukup jelas dari gambar.

Januari
sumber
5

Untuk data seperti itu, saya mungkin setidaknya akan mempertimbangkan linear splines.

Anda dapat melakukannya dengan mudah atau mudah.

Jika Anda mengambil pendekatan seperti itu, masalah Anda akan memilih jumlah simpul dan simpul lokasi; salah satu solusinya mungkin dengan mempertimbangkan sejumlah lokasi yang memungkinkan, dan menggunakan sesuatu seperti laso atau metode regularisasi dan seleksi lainnya untuk mengidentifikasi satu set kecil; Anda harus memperhitungkan efek dari seleksi tersebut dalam inferensi.

Glen_b -Reinstate Monica
sumber
Tapi bukankah regresi spline pada dasarnya mengatakan "ada fungsi yang tidak diketahui yang menggambarkan bentuk respons dan kami hanya akan menguji hipotesis tentang bagaimana variabel lain menggeser kurva ini ke atas / bawah atau memiringkannya"? Bagaimana jika suatu perawatan mengubah bentuk itu sendiri - bagaimana seseorang menafsirkan istilah interaksi seperti itu jika itu signifikan?
f1r3br4nd
2
Seberapa umum alternatifnya? Bahkan untuk kasus umum ada berbagai pendekatan di mana Anda dapat membuat perbandingan kecocokan dengan asumsi fungsi nonparametrik yang identik dengan yang terpisah. Model aditif dan model aditif umum dapat menangani perbandingan seperti itu.
Glen_b -Reinstate Monica
Sebagai contoh kasus yang lebih umum daripada yang Anda diskusikan (dengan referensi yang membahas berbagai pendekatan lain), jika Anda dapat mengatasinya, lihat makalah ini J.Roca-Pardiñas et al (2006) "Bootstrap-based metode untuk menguji interaksi faktor-oleh-kurva dalam model aditif umum: menilai aktivitas saraf korteks prefrontal terkait dengan pengambilan keputusan ", Statistics in Medicine , 30 Juli; 25 (14): 2483-501. Dalam makalah itu mereka menggunakan bootstrap (dan binning untuk mengurangi beban komputasi), tetapi ada pendekatan lain yang disebutkan di sana.
Glen_b -Reinstate Monica
Referensi yang lebih mendasar dan lebih lama adalah sesuatu seperti Hastie dan Tibshirani (1990), Generalized Additive Models (mis. Lihat hal265). Juga, kita lihat di sini , khususnya, persamaan terakhir pada slide 34. Sekitar sana juga menjelaskan bagaimana menyesuaikan model seperti itu menggunakan gamdalam paket R mgcv.
Glen_b -Reinstate Monica
2

Saya tidak punya waktu untuk membaca seluruh posting Anda, tetapi tampaknya perhatian utama Anda adalah bahwa bentuk-bentuk respons fungsional mungkin bergeser dengan perawatan. Ada beberapa teknik untuk mengatasi hal ini, tetapi mereka intensif data.
Untuk contoh spesifik Anda:

G adalah pertumbuhan W adalah air T adalah pengolahan

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

Dekade terakhir telah melihat banyak penelitian dalam regresi semiparametrik, dan daging sapi ini tentang bentuk-bentuk fungsional semakin dan semakin mudah dikelola. Tetapi pada akhir hari, statistik bermain dengan angka, dan hanya berguna karena membangun intuisi tentang fenomena yang sedang diamati. Hal ini pada gilirannya membutuhkan pemahaman tentang cara angka dimainkan. Nada posting Anda menunjukkan kesediaan untuk membuang bayi keluar dengan air mandi.

generic_user
sumber