Saya memiliki model (campuran) di mana salah satu prediktor saya harus apriori hanya terkait secara kuadratik dengan prediktor (karena manipulasi eksperimental). Oleh karena itu, saya hanya ingin menambahkan istilah kuadrat ke model. Dua hal yang membuat saya tidak melakukannya:
- Saya pikir saya membaca di mana Anda harus selalu menyertakan polinomial urutan rendah ketika memasang polinomial tingkat tinggi. Saya lupa di mana saya menemukannya dan dalam literatur saya melihat (misalnya, Faraway, 2002; Fox, 2002) saya tidak dapat menemukan penjelasan yang baik.
- Ketika saya menambahkan keduanya, istilah linear dan kuadratik, keduanya signifikan. Ketika saya menambahkan hanya satu dari mereka, mereka tidak signifikan. Namun, hubungan linier prediktor dan data tidak dapat ditafsirkan.
Konteks pertanyaan saya secara khusus menggunakan model campuran lme4
, tetapi saya ingin mendapatkan jawaban yang dapat menjelaskan mengapa itu atau mengapa tidak baik untuk memasukkan polinomial orde tinggi dan bukan polinomial orde bawah.
Jika perlu saya bisa memberikan data.
regression
polynomial
Henrik
sumber
sumber
Jawaban:
1. Mengapa termasuk istilah linear?
Sangat menarik untuk memperhatikan bahwa hubungan kuadratik dapat ditulis dalam dua cara:
(di mana, menyamakan koefisien, kami menemukan dan ). Nilai sesuai dengan ekstrum global hubungan (secara geometris, ia menempatkan verteks parabola).−2a2b=a1 a2b2+c=a0 x=b
Jika Anda tidak menyertakan istilah linear , kemungkinan dikurangi menjadia1x
(Di mana sekarang, jelas, dan diasumsikan model berisi konstanta ). Artinya, Anda memaksa .c=a0 a0 b=0
Sehubungan dengan ini, pertanyaan # 1 turun ke apakah Anda yakin bahwa ekstrem global harus terjadi pada . Jika ya, maka Anda dapat dengan aman menghilangkan istilah linear . Kalau tidak, Anda harus memasukkannya.x=0 a1x
2. Bagaimana memahami perubahan signifikansi saat istilah dimasukkan atau dikecualikan?
Ini dibahas dengan sangat rinci dalam utas terkait di https://stats.stackexchange.com/a/28493 .
Dalam kasus ini, signifikansi menunjukkan ada kelengkungan dalam hubungan dan signifikansi menunjukkan bahwa adalah nol: sepertinya Anda perlu memasukkan kedua istilah (dan juga konstanta, tentu saja).a2 a1 b
sumber
@whuber telah memberikan jawaban yang sangat bagus di sini. Saya hanya ingin menambahkan poin gratis kecil. Pertanyaannya menyatakan bahwa "hubungan linier prediktor dan data tidak dapat ditafsirkan". Ini mengisyaratkan kesalahpahaman yang umum, meskipun saya biasanya mendengarnya di ujung yang lain ('apa interpretasi dari istilah [kubik, dll] kuadrat?').
Ketika kita memiliki model dengan banyak kovariat yang berbeda , masing-masing [istilah] beta umumnya dapat diberikan interpretasinya sendiri. Misalnya, jika:
maka kita dapat menetapkan interpretasi terpisah untuk setiap beta / istilah. Misalnya, jika IPK sekolah menengah atas siswa 1 poin lebih tinggi - semuanya sama - kita harapkan IPK perguruan tinggi mereka menjadi poin lebih tinggi.β1
Penting untuk dicatat, bahwa tidak selalu diizinkan untuk menafsirkan model dengan cara ini. Satu kasus yang jelas adalah ketika ada interaksi di antara beberapa variabel, karena tidak mungkin untuk istilah individu berbeda dan masih memiliki semua yang lain tetap konstan - kebutuhan, istilah interaksi akan berubah juga. Jadi, ketika ada interaksi, kami tidak menafsirkan efek utama tetapi hanya efek sederhana , seperti yang dipahami dengan baik.
Situasi dengan istilah kekuasaan secara analog, tetapi sayangnya, tampaknya tidak dipahami secara luas. Pertimbangkan model berikut: (Dalam situasi ini, dimaksudkan untuk mewakili kovariat berkelanjutan prototipikal.) Tidak mungkin bagi untuk berubah tanpa juga berubah, dan sebaliknya. Sederhananya, ketika ada istilah polinomial dalam model, berbagai istilah berdasarkan kovariat yang sama tidak diberikan interpretasi yang terpisah. Istilah ( , , dll.) Tidak memiliki arti independen. Fakta bahwa
sumber
@ whuber jawaban di atas tepat pada target dalam menunjukkan bahwa menghilangkan istilah linear adalah model kuadratik "biasa" setara dengan mengatakan, "Saya benar-benar yakin bahwa ekstrem berada pada "x=0
Namun, Anda juga perlu memeriksa apakah perangkat lunak yang Anda gunakan memiliki "gotcha". Beberapa perangkat lunak dapat secara otomatis memusatkan data saat memasang polinomial dan menguji koefisiennya kecuali jika Anda mematikan polinomial centering. Artinya, ini mungkin cocok dengan persamaan yang terlihat seperti mana adalah rata-rata dari s Anda. Itu akan memaksa ekstrem berada di .Y=b0+b2(x−x¯)2 x¯ x x=x¯
Pernyataan Anda bahwa istilah linear dan kuadratik penting ketika keduanya dimasukkan perlu klarifikasi. Sebagai contoh, SAS dapat melaporkan tes Tipe I dan / atau Tipe III untuk contoh tersebut. Tipe I menguji linear sebelum memasukkan kuadratik. Tipe III menguji linear dengan kuadrat dalam model.
sumber
Brambor, Clark dan Golder (2006) (yang dilengkapi dengan lampiran internet ) memiliki pandangan yang sangat jelas tentang bagaimana memahami model interaksi dan bagaimana menghindari perangkap umum, termasuk mengapa Anda harus (hampir) selalu memasukkan persyaratan tingkat rendah ( "istilah konstitutif") dalam model interaksi.
Kegagalan untuk melakukannya dapat menghasilkan model yang kurang spesifik yang akan mengarah pada perkiraan yang bias. Ini dapat menyebabkan kesalahan inferensial.
sumber