Saya belajar di kelas model linier saya bahwa jika dua prediktor berkorelasi dan keduanya termasuk dalam model, satu akan tidak signifikan. Sebagai contoh, asumsikan ukuran rumah dan jumlah kamar tidur berkorelasi. Ketika memperkirakan biaya rumah menggunakan dua prediktor ini, salah satunya dapat dijatuhkan karena keduanya memberikan banyak informasi yang sama. Secara intuitif, ini masuk akal, tetapi saya memiliki beberapa pertanyaan teknis:
- Bagaimana efek ini memanifestasikan dirinya dalam nilai-p dari koefisien regresi ketika hanya memasukkan satu atau termasuk kedua prediktor dalam model?
- Bagaimana varians koefisien regresi dapat dipengaruhi dengan memasukkan kedua prediktor dalam model atau hanya memiliki satu?
- Bagaimana saya tahu prediktor mana model yang akan dipilih menjadi kurang signifikan?
- Bagaimana cara memasukkan hanya satu atau termasuk kedua prediktor mengubah nilai / varians dari perkiraan biaya saya?
regression
multiple-regression
p-value
linear-model
multicollinearity
Vivek Subramanian
sumber
sumber
Jawaban:
Topik yang Anda tanyakan adalah multikolinieritas . Anda mungkin ingin membaca beberapa utas di CV yang dikategorikan di bawah tag multikolinieritas . @ whuber's jawaban yang terhubung di atas khususnya juga bernilai waktu Anda
Pernyataan bahwa "jika dua prediktor berkorelasi dan keduanya termasuk dalam model, satu akan tidak signifikan", tidak benar. Jika ada efek nyata dari suatu variabel, probabilitas bahwa variabel akan signifikan adalah fungsi dari beberapa hal, seperti besarnya efek, besarnya varians kesalahan, varians dari variabel itu sendiri, jumlah data Anda miliki, dan jumlah variabel lain dalam model. Apakah variabel berkorelasi juga relevan, tetapi tidak menimpa fakta-fakta ini. Pertimbangkan demonstrasi sederhana berikut ini di
R
:Korelasi antara kedua variabel paling rendah pada contoh pertama dan tertinggi pada ketiga, namun tidak satu pun variabel yang signifikan pada contoh pertama dan keduanya ada pada contoh terakhir. Besarnya efek identik dalam ketiga kasus, dan varians dari variabel dan kesalahan harus sama (mereka bersifat stokastik, tetapi diambil dari populasi dengan varians yang sama). Pola yang kita lihat di sini adalah terutama karena saya memanipulasi untuk setiap kasus.N
Konsep kunci untuk dipahami untuk menyelesaikan pertanyaan Anda adalah variance inflation factor (VIF). VIF adalah seberapa besar variasi koefisien regresi Anda lebih besar dari yang seharusnya jika variabel tersebut benar-benar tidak berkorelasi dengan semua variabel lain dalam model. Perhatikan bahwa VIF adalah faktor multiplikasi, jika variabel yang dimaksud tidak berkorelasi dengan VIF = 1. Pemahaman sederhana tentang VIF adalah sebagai berikut: Anda dapat memasukkan model yang memprediksi variabel (katakanlah, ) dari semua variabel lain dalam model Anda (katakanlah, ), dan dapatkan beberapa . VIF untuk akan menjadi . Katakanlah VIF untuk adalahX1 X2 R2 X1 1/(1−R2) X1 10 (sering dianggap sebagai ambang batas untuk multikolinieritas yang berlebihan), maka varian distribusi sampling dari koefisien regresi untuk akan menjadi lebih besar daripada jika sepenuhnya tidak berkorelasi dengan semua variabel lain dalam model. X1 10× X1
Memikirkan apa yang akan terjadi jika Anda memasukkan kedua variabel berkorelasi vs. hanya satu adalah serupa, tetapi sedikit lebih rumit daripada pendekatan yang dibahas di atas. Ini karena tidak termasuk variabel berarti model menggunakan lebih sedikit derajat kebebasan, yang mengubah varians residual dan segala sesuatu yang dihitung dari itu (termasuk varians dari koefisien regresi). Selain itu, jika variabel yang tidak termasuk benar-benar dikaitkan dengan respons, varians dalam respons karena variabel itu akan dimasukkan ke dalam varian residual, menjadikannya lebih besar daripada yang seharusnya. Dengan demikian, beberapa hal berubah secara bersamaan (variabel berkorelasi atau tidak dengan variabel lain, dan varians residual), dan efek yang tepat dari menjatuhkan / termasuk variabel lain akan tergantung pada bagaimana mereka bertukar.
Berbekal pemahaman tentang VIF, berikut adalah jawaban untuk pertanyaan Anda:
sumber
Ini lebih dari komentar, tetapi saya ingin memasukkan grafik dan beberapa kode.
Saya pikir pernyataan "jika dua prediktor berkorelasi dan keduanya termasuk dalam model, satu akan menjadi tidak signifikan" adalah salah jika Anda maksudkan "hanya satu." Signifikansi biner statistik tidak dapat digunakan untuk pemilihan variabel.
Inilah contoh tandingan saya menggunakan regresi persentase lemak tubuh pada lingkar paha, ketebalan lipatan kulit *, dan lingkar lengan tengah:
Seperti yang dapat Anda lihat dari tabel regresi, semuanya tidak signifikan, meskipun nilai-p sedikit berbeda.
Perintah Stata terakhir membuat grafik wilayah kepercayaan untuk 2 dari koefisien regresi (analog dua dimensi dari interval kepercayaan akrab) bersama dengan estimasi titik (titik merah). Elips percaya diri untuk ketebalan lipatan kulit dan koefisien lingkar paha panjang, sempit dan miring, yang mencerminkan kolinearitas pada regressor. Ada kovarian negatif yang tinggi di antara koefisien yang diestimasi. Elips mencakup bagian sumbu vertikal dan horizontal, yang berarti bahwa kita tidak dapat menolak hipotesis individu bahwa s adalah nol, meskipun kita dapat menolak nol bersama yang keduanya karena elips tidak mencakup asal. Dengan kata lain, baik paha dan trisep relevan untuk lemak tubuh, tetapi Anda tidak bisa menentukan yang mana pelakunya.β
Jadi, bagaimana kita tahu prediktor mana yang kurang signifikan? Variasi dalam regressor dapat diklasifikasikan menjadi dua jenis:
Dalam memperkirakan koefisien dari masing-masing regressor, hanya yang pertama yang akan digunakan. Variasi umum diabaikan karena tidak dapat dialokasikan, meskipun digunakan dalam prediksi dan penghitungan . Ketika ada sedikit informasi unik, kepercayaan akan rendah dan varians koefisien akan tinggi. Semakin tinggi multikolinieritas, semakin kecil variasi yang unik, dan semakin besar variansnya.R2
* Lipatan kulit adalah lebar lipatan kulit yang diambil di atas otot triceps, dan diukur menggunakan caliper.
sumber
Seperti @whuber catat, ini adalah pertanyaan yang rumit. Namun, kalimat pertama dari posting Anda adalah penyederhanaan yang luas. Sering terjadi bahwa dua (atau lebih) variabel akan dikorelasikan dan keduanya terkait dengan variabel dependen. Apakah mereka signifikan atau tidak tergantung pada ukuran efek dan ukuran sel.
Dalam contoh Anda, anggaplah bahwa, untuk ukuran rumah tertentu, orang lebih suka kamar yang lebih sedikit (setidaknya di NYC, ini tidak masuk akal - ini akan menunjukkan bangunan yang lebih tua, dinding yang lebih padat dll, dan mungkin menjadi penanda untuk lingkungan). Maka keduanya bisa menjadi signifikan, berlawanan arah!
Atau, anggap kedua variabel itu adalah ukuran rumah dan lingkungan - ini akan berkorelasi, tentu saja, rumah yang lebih besar di lingkungan yang lebih baik - tetapi keduanya masih bisa signifikan dan keduanya terkait dengan harga rumah.
Juga, hanya menggunakan kompleksitas topeng "berkorelasi". Variabel dapat sangat terkait tanpa dikorelasikan.
sumber