Bagaimana saya harus memodelkan interaksi antara variabel penjelas ketika salah satu dari mereka mungkin memiliki istilah kuadratik dan kubik?

10

Saya sungguh berharap bahwa saya telah mengutarakan pertanyaan ini sedemikian rupa sehingga dapat dijawab secara pasti - jika tidak, tolong beri tahu saya dan saya akan mencoba lagi! Saya juga harus menebak bahwa saya akan menggunakan R untuk analisis ini.

Saya memiliki beberapa ukuran plant performance (Ys)yang saya curigai dipengaruhi oleh empat perawatan yang saya lakukan-- flower thinning (X1), fertilization (X2), leaf clipping (X3), dan biased flower thinning (X4). Untuk semua Ys yang memungkinkan, N setidaknya 242, jadi ukuran sampel saya besar. Semua plot mengalami penipisan atau tidak, tetapi setiap plot juga mengalami satu (dan hanya satu) dari tiga perlakuan lainnya (atau tidak - ada juga plot kontrol). Ide dari desain ini adalah untuk menguji apakah tiga perawatan lain mampu baik "menutupi" atau "meningkatkan" efek penipisan. Jadi, secara desain, tiga perawatan terakhir (X2-X4) tidak dapat berinteraksi satu sama lain karena mereka tidak saling bersilangan, tetapi mereka masing - masing dapat berinteraksi dengan penipisan bunga - dan mungkin mereka lakukan.

Hipotesis eksplisit saya adalah bahwa 1) penipisan bunga akan signifikan dan bahwa 2) istilah interaksi, X1*X2, X1*X3, and X1*X4,antara penipisan bunga dan tiga perlakuan lainnya juga akan signifikan. Artinya, penipisan bunga harus diperhitungkan, tetapi cara-cara yang penting harus diubah secara signifikan oleh apa yang dilakukan tiga perawatan lainnya.

Saya ingin memasukkan semua informasi ini dalam model campuran:

Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)

Tapi ada satu penutupan: Saya punya alasan kuat untuk percaya bahwa efek penipisan pada Y adalah non-linear. Mereka mungkin kuadratik tetapi mungkin bahkan kubik dalam beberapa kasus. Ini karena efek penipisan pada kinerja sangat mungkin meningkat lebih cepat pada tingkat penipisan yang lebih tinggi. Jika saya mencoba memodelkan hubungan non-linear ini melalui persamaan di atas dengan menambahkan istilah kuadrat dan kubik untuk X1, saya kemudian tidak yakin bagaimana memodelkan istilah interaksi - saya harus menyertakan setiap kemungkinan kombinasi X1, (X1) ^ 2, dan (X1) ^ 3 * X2, X3 dan X4? Karena itu sepertinya banyak parameter untuk mencoba memperkirakan, bahkan dengan jumlah poin data yang saya miliki, dan saya tidak yakin bagaimana menafsirkan hasil yang akan saya dapatkan. Yang mengatakan, saya tidak punya alasan biologis untuk berpikir ini akan menjadi cara yang ceroboh untuk memodelkan situasi.

Jadi, saya punya tiga pemikiran untuk bagaimana mengatasi masalah ini:

  1. Pertama-tama, paskan model yang lebih kecil Y ~ X1 + X1^2 + X^3 + Random effects, dengan tujuan tunggal untuk mengetahui apakah hubungan antara penipisan dan Y adalah linier, kuadratik, atau kubik, dan kemudian ubah penipisan melalui akar kuadrat atau kubus untuk membuat linierisasi hubungan secara tepat. Dari sana, istilah interaksi dapat dimodelkan seperti di atas dengan variabel yang diubah.
  2. Asumsikan bahwa interaksi yang signifikan, jika terjadi, hanya mempengaruhi salah satu istilah X1 (yaitu hanya istilah linier, kuadratik, atau kubik), dan model interaksi yang sesuai. Saya bahkan tidak yakin apakah pendekatan ini masuk akal.
  3. Cukup paskan "model lengkap" dengan setiap istilah interaksi yang mungkin antara istilah penjarangan dan perawatan lain seperti yang dibahas di atas. Kemudian, pangkas istilah interaksi yang tidak signifikan dan gunakan grafik dan teknik lain untuk menginterpretasikan hasilnya.

Manakah dari pendekatan ini, jika ada, yang paling masuk akal dan mengapa, mengingat saya tertarik pada pengujian hipotesis dan bukan pemilihan model? Khususnya, jika # 1 di atas tidak masuk akal untuk dilakukan, mengapa begitu? Saya telah membaca artikel ini dan artikel ini dan telah mencoba untuk mencerna apa artinya bagi saya, tetapi sumber untuk membaca lebih lanjut juga akan sangat dihargai!

Bajcz
sumber

Jawaban:

7

Tak satu pun dari pendekatan itu akan berfungsi dengan baik. Pendekatan 3. mendekati, tetapi kemudian Anda mengatakan Anda akan memangkas persyaratan yang tidak signifikan. Ini bermasalah karena co-linearitas membuat mustahil untuk menemukan istilah mana yang harus dihapus, dan karena ini akan memberi Anda derajat kebebasan yang salah dalam tes hipotesis jika Anda ingin mempertahankan kesalahan tipe I.

Bergantung pada ukuran sampel dan sinyal yang efektif: rasio kebisingan dalam masalah Anda, saya sarankan memasang model dengan semua produk dan istilah efek utama, dan menafsirkan model menggunakan plot dan "chunk test" (beberapa tes df dari istilah terkait, yaitu, tes untuk interaksi keseluruhan, tes untuk interaksi nonlinear, tes untuk efek keseluruhan termasuk efek utama + interaksi, dll.). rmsPaket R membuat ini mudah dilakukan untuk model univariat standar dan untuk model longitudinal ketika adalah multivarian normal. Contoh:Y

# Fit a model with splines in x1 and x2 and tensor spline interaction surface
# for the two.  Model is additive and linear in x3.
# Note that splines typically fit better than ordinary polynomials
f <- ols(y ~ rcs(x1, 4) * rcs(x2, 4) + x3)
anova(f)   # get all meaningful hypothesis tests that can be inferred
           # from the model formula
bplot(Predict(f, x1, x2))    # show joint effects
plot(Predict(f, x1, x2=3))   # vary x1 and hold x2 constant

Saat Anda melihat anovatabel, Anda akan melihat garis berlabel All Interactionsyang untuk keseluruhan model menguji pengaruh gabungan semua istilah interaksi. Untuk seorang prediktor individu, ini hanya membantu ketika prediktor berinteraksi dengan lebih dari satu variabel. Ada opsi dalam printmetode untuk anova.rmsditampilkan oleh setiap baris dalam tabel dengan tepat parameter mana yang diuji terhadap nol. Semua ini bekerja dengan campuran prediktor kategori dan kontinu.

Jika Anda ingin menggunakan polinomial biasa, gunakan polalih-alih rcs.

Sayangnya saya belum menerapkan model efek campuran.

Frank Harrell
sumber
1
Terima kasih atas jawaban ini. Saya belum pernah menggunakan splines sebelumnya, tapi saya rasa saya mengerti contoh Anda. Saya punya beberapa pertanyaan lanjutan, apakah itu oke? 1. Ketika melihat hasil anova dari ols, seperti dalam contoh Anda, apa yang dimaksud dengan "Semua interaksi" di bawah faktor? Artinya, semua interaksi dengan apa? 2. Apakah pendekatan yang serupa diizinkan dalam pendekatan pemodelan campuran? Saya pikir saya terjebak dengan kebutuhan faktor acak. Apakah contoh Anda kompatibel dengan, misalnya, lme4? 3. Apakah ini akan berhasil jika beberapa perawatan yang berinteraksi bersifat kategoris? Sebagai contoh, bagaimana jika X2 adalah faktor 2-level?
Bajcz
2

Saya penggemar menggunakan regresi smoothing nonparametric untuk menilai bentuk fungsi hubungan antara variabel dependen dan prediktor, bahkan ketika saya kemudian akan memperkirakan model regresi parametrik. Sementara saya sangat sering menemukan hubungan nonlinier, saya tidak pernah menemukan istilah interaksi interaksi nonlinier, bahkan ketika efek utama sangat nonlinier. Saya bawa pulang: efek interaksi tidak perlu terdiri dari bentuk-bentuk fungsional yang sama dengan prediktor yang membentuknya.

Alexis
sumber
Jadi, untuk memperjelas, Anda bawa pulang adalah bahwa jika saya memilih opsi # 2, saya dapat dengan aman hanya memasukkan istilah interaksi dengan istilah X1 linier dan tidak khawatir tentang "istilah interaksi urutan lebih tinggi," misalnya X1 ^ 2 * X3 dan seterusnya?
Bajcz
1
@Bajcz Yah ... Saya kira saya mengatakan dua hal: (1) Saya telah berhasil bertahan dalam set data yang saya temui dengan interaksi linear saja, tetapi juga (2) Saya suka melihat (menggunakan regresi nonparametrik) dan biarkan data memberi tahu saya apakah saya harus mempertimbangkan alternatif nonlinier. [Mengambil model fit atau pendekatan pengujian hipotesis untuk istilah nonlinier adalah IMO cara yang salah untuk melakukannya, karena itu memerlukan, misalnya, kesimpulan berdasarkan, misalnya, seperangkat istilah polinomial yang sewenang-wenang, daripada data itu sendiri.]
Alexis
3
Tidak ada alasan besar untuk percaya bahwa interaksi lebih cenderung linier. Saya telah menemukan contoh interaksi nonlinier yang bagus. Gagasan "mencari" dan "membiarkan data memberi tahu Anda" dipenuhi dengan masalah inferensi termasuk masalah cakupan interval kepercayaan buruk.
Frank Harrell
1
@ FrankHarrell Terima kasih! Kalimat pertama Anda persis seperti poin yang saya coba sampaikan di (2) dalam komentar di atas (pengalaman masa lalu saya mungkin sangat beragam di masa depan). OTOH: tidak membiarkan data berbicara adalah strategi yang bagus untuk memasukkan kesimpulan tentang artefak asumsi pemodelan ke dalam kesimpulan tentang data aktual.
Alexis