Saya menyesuaikan model regresi linier berganda antara 4 variabel kategori (dengan masing-masing 4 level) dan output numerik. Dataset saya memiliki 43 pengamatan.
Regresi memberi saya nilai- berikut dari uji- untuk setiap koefisien kemiringan: . Dengan demikian, koefisien untuk prediktor ke-4 signifikan pada tingkat kepercayaan .
Di sisi lain, regresi memberi saya nilai- dari keseluruhan uji- dari hipotesis nol bahwa semua koefisien kemiringan saya sama dengan nol. Untuk dataset saya, nilai- ini adalah .
Pertanyaan saya: bagaimana saya harus menginterpretasikan hasil ini? Nilai- mana yang harus saya gunakan dan mengapa? Apakah koefisien untuk variabel ke-4 berbeda secara signifikan dari pada tingkat kepercayaan ?
Saya telah melihat pertanyaan yang terkait, dan statistik regresi sebuah , tapi ada situasi sebaliknya: tinggi -test -values dan rendah -test -nilai. Sejujurnya, saya tidak begitu mengerti mengapa kita perlu uji- selain uji- untuk melihat apakah koefisien regresi linier berbeda secara signifikan dari nol.
Jawaban:
Saya tidak yakin bahwa multikolinearitas adalah apa yang terjadi di sini. Tentu saja bisa , tetapi dari informasi yang diberikan saya tidak dapat menyimpulkan itu, dan saya tidak ingin memulai dari sana. Dugaan pertama saya adalah bahwa ini mungkin masalah perbandingan multipel. Artinya, jika Anda menjalankan tes yang cukup, sesuatu akan muncul, bahkan jika tidak ada apa pun di sana.
Salah satu masalah yang saya bahas adalah bahwa masalah beberapa perbandingan selalu dibahas dalam hal memeriksa banyak perbandingan berpasangan — misalnya, menjalankan uji-t pada setiap pasangan level yang unik. (Untuk perawatan lucu dari beberapa perbandingan, lihat di sini .) Ini membuat orang terkesan bahwa itu adalah satu-satunya tempat masalah ini muncul. Tetapi ini sama sekali tidak benar — masalah banyak perbandingan muncul di mana - mana. Misalnya, jika Anda menjalankan regresi dengan 4 variabel penjelas, masalah yang sama ada. Dalam percobaan yang dirancang dengan baik, IV dapat menjadi ortogonal, tetapi orang secara rutin khawatir tentang menggunakan koreksi Bonferroni pada set a-priori, kontras ortogonal, dan tidak berpikir dua kali tentang anova faktorial. Bagi saya, ini tidak konsisten.
Tes F global adalah apa yang disebut tes 'simultan'. Ini memeriksa untuk melihat apakah semua prediktor Anda tidak terkait dengan variabel respons. Tes simultan memberikan beberapa perlindungan terhadap masalah beberapa perbandingan tanpa harus menempuh rute Bonferroni yang kehilangan daya. Sayangnya, interpretasi saya tentang apa yang Anda laporkan adalah bahwa Anda memiliki temuan nol.
sumber
Saya ingin menyarankan bahwa fenomena ini (dari tes keseluruhan yang tidak signifikan meskipun ada variabel individu yang signifikan) dapat dipahami sebagai semacam "efek penutupan" agregat dan bahwa meskipun dapat muncul dari variabel penjelas multikolinier, ia tidak perlu melakukan itu sama sekali. Ini juga ternyata bukan disebabkan oleh beberapa penyesuaian perbandingan. Dengan demikian jawaban ini menambahkan beberapa kualifikasi untuk jawaban yang sudah muncul, yang sebaliknya menyarankan bahwa multikolinieritas atau beberapa perbandingan harus dipandang sebagai biang keladinya.
Untuk menetapkan masuk akalnya pernyataan-pernyataan ini, mari kita buat kumpulan variabel ortogonal yang sempurna - sama non-collinear mungkin - dan variabel dependen yang secara eksplisit ditentukan semata-mata oleh penjelasan pertama (ditambah sejumlah kesalahan acak yang baik) independen dari yang lain). Dalam
R
hal ini dapat dilakukan (direproduksi, jika Anda ingin bereksperimen) sebagaiTidak penting bahwa variabel penjelas adalah biner; yang penting adalah ortogonalitas mereka, yang dapat kita periksa untuk memastikan kode berfungsi seperti yang diharapkan, yang dapat dilakukan dengan memeriksa korelasi mereka. Memang, matriks korelasi itu menarik : koefisien kecil menyarankan
y
tidak ada hubungannya dengan salah satu variabel kecuali yang pertama (yang oleh desain) dan nol off-diagonal mengkonfirmasi ortogonalitas dari variabel penjelas:Mari kita jalankan serangkaian regresi , hanya menggunakan variabel pertama, lalu dua yang pertama, dan seterusnya. Untuk singkatnya dan perbandingan mudah, di masing-masing saya hanya menunjukkan garis untuk variabel pertama dan uji F keseluruhan:
Lihatlah bagaimana (a) signifikansi variabel pertama nyaris tidak berubah, (a ') variabel pertama tetap signifikan (p <0,05) bahkan ketika menyesuaikan untuk beberapa perbandingan ( misalnya , menerapkan Bonferroni dengan mengalikan nilai p-nominal dengan jumlah variabel penjelas), (b) koefisien variabel pertama hampir tidak berubah, tetapi (c) signifikansi keseluruhan tumbuh secara eksponensial, dengan cepat menggelembung ke tingkat yang tidak signifikan.
Saya menafsirkan ini sebagai menunjukkan bahwa termasuk variabel penjelas yang sebagian besar independen dari variabel dependen dapat "menutupi" nilai p keseluruhan regresi. Ketika variabel baru ortogonal dengan yang sudah ada dan ke variabel dependen, mereka tidak akan mengubah nilai-p individu. (Perubahan kecil yang terlihat di sini adalah karena kesalahan acak ditambahkan
y
, secara tidak sengaja, sedikit berkorelasi dengan semua variabel lainnya.) Satu pelajaran untuk menarik dari ini adalah bahwa kekikiran berharga : menggunakan beberapa variabel yang diperlukan dapat memperkuat signifikansi hasil.Saya tidak mengatakan bahwa ini perlu terjadi untuk dataset dalam pertanyaan, tentang yang sedikit yang telah diungkapkan. Tetapi pengetahuan bahwa efek masking ini dapat terjadi harus menginformasikan interpretasi kami tentang hasil serta strategi kami untuk pemilihan variabel dan pembangunan model.
sumber
rnorm(2^p, sd=2)
, harap dicatat bahwa argumen pertama adalah jumlah istilah, bukan mean. Rata-rata secara default adalah nol dan karena itu belum ditentukan secara eksplisit.rnorm()
Anda sering mengalami hal ini ketika Anda memiliki tingkat kolinearitas yang tinggi di antara variabel penjelas Anda. ANOVA F adalah tes bersama bahwa semua regressor secara bersama - sama tidak informatif. Ketika X Anda berisi informasi serupa, model tidak dapat menghubungkan kekuatan penjelas dengan satu regresi atau yang lain, tetapi kombinasi mereka dapat menjelaskan banyak variasi dalam variabel respons.
sumber