Apa yang harus dilakukan dengan variabel collinear

11

Penafian: Ini untuk proyek pekerjaan rumah.

Saya mencoba untuk datang dengan model terbaik untuk harga berlian, tergantung pada beberapa variabel dan saya tampaknya memiliki model yang cukup bagus sejauh ini. Namun saya telah mengalami dua variabel yang jelas collinear:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

Tabel dan Kedalaman saling bergantung, tetapi saya masih ingin memasukkannya ke dalam model prediksi saya. Saya melakukan penelitian pada berlian dan menemukan bahwa Table and Depth adalah panjang di bagian atas dan jarak dari ujung ke ujung berlian. Karena harga berlian ini tampaknya terkait dengan kecantikan dan kecantikan tampaknya terkait dengan proporsi, saya akan memasukkan rasio mereka, katakanlah , untuk memprediksi harga. Apakah prosedur standar ini untuk menangani variabel collinear? Jika tidak, apa itu?TableDepth

Sunting: Ini adalah plot Kedalaman ~ Tabel: masukkan deskripsi gambar di sini

Mike Flynn
sumber
1
+1 untuk pertanyaan yang menarik tetapi, tidak, ini jelas bukan prosedur standar untuk berurusan dengan variabel co-linear. Semoga seseorang akan memberi Anda jawaban yang baik tentang mengapa tidak. Ini mungkin masih menjadi hal yang baik untuk dilakukan dalam kasus Anda ...
Peter Ellis
3
Yang aneh tentang hal ini adalah bahwa korelasi -0,4 menunjukkan bahwa berlian yang lebih panjang di bagian atas lebih pendek dari atas ke bawah. Ini tampaknya kontra-intuitif - yakin itu benar?
Peter Ellis
Secara umum, hanya akan mengungkapkan ketergantungan linier bukan? Bagaimana jika dan terkait non-linear? Dalam hal itu, apakah akan ada beberapa analogi dari colliniarity yang menimbulkan masalah? Atau hanya masalah ketergantungan linier. T a b l e D e p t hcorTableDepth
curious_cat
@PeterEllis Saya diberitahu bahwa ini adalah kumpulan data nyata, ya. Melihat plot Kedalaman ~ Tabel, bisa jadi karena varians penggemar keluar untuk nilai Tabel tinggi.
Mike Flynn

Jawaban:

14

Variabel-variabel tersebut berkorelasi.

Tingkat hubungan linier yang tersirat oleh matriks korelasi tersebut tidak cukup tinggi untuk variabel-variabel yang dianggap collinear.

Dalam hal ini, saya akan sangat senang menggunakan ketiga variabel tersebut untuk aplikasi regresi yang khas.

Salah satu cara untuk mendeteksi multikolinieritas adalah dengan memeriksa dekomposisi Choleski dari matriks korelasi - jika ada multikolinieritas, akan ada beberapa elemen diagonal yang mendekati nol. Ini dia pada matriks korelasi Anda sendiri:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(Diagonal harus selalu positif, meskipun beberapa implementasi bisa menjadi sedikit negatif dengan efek akumulasi kesalahan pemotongan)

Seperti yang Anda lihat, diagonal terkecil adalah 0,91, yang masih jauh dari nol.

Sebaliknya, inilah beberapa data yang hampir collinear:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.
Glen_b -Reinstate Monica
sumber
Terima kasih, saya pikir saya hanya bingung antara "berkorelasi" dan "collinear"
Mike Flynn
@kingledion Tolong jangan gunakan komentar untuk mencoba membuat orang menjawab pertanyaan Anda.
Glen_b -Reinstate Monica
6

Kupikir skema pemotongan berlian ini mungkin menambah wawasan pada Pertanyaan. Tidak dapat menambahkan gambar ke Komentar jadi jawablah ....

masukkan deskripsi gambar di sini

PS. @ PeterEllis berkomentar: Fakta bahwa "berlian yang lebih panjang di bagian atas lebih pendek dari atas ke bawah" mungkin masuk akal dengan cara ini: Asumsikan semua berlian yang dipotong dipotong kira-kira persegi panjang (katakanlah). Sekarang pemotong harus memilih potongannya dengan persegi panjang pembatas ini. Itu memperkenalkan pengorbanan. Jika lebar dan panjang meningkat, Anda akan mendapatkan berlian yang lebih besar. Mungkin tetapi lebih jarang dan lebih mahal. Masuk akal?

curious_cat
sumber
2

Menggunakan rasio dalam regresi linier harus dihindari. Pada dasarnya, apa yang Anda katakan adalah bahwa, jika regresi linier dilakukan pada kedua variabel itu, mereka akan berkorelasi linier tanpa intersep; ini jelas bukan itu masalahnya. Lihat: http://cscu.cornell.edu/news/statnews/stnews03.pdf

Juga, mereka mengukur variabel laten - ukuran (volume atau luas) berlian. Sudahkah Anda mempertimbangkan untuk mengonversi data ke ukuran permukaan / volume daripada memasukkan kedua variabel?

Anda harus memposting plot sisa data kedalaman dan tabel itu. Korelasi Anda antara keduanya mungkin tidak valid.

TLJ
sumber
1

Dari korelasi, sulit untuk menyimpulkan jika Tabel dan Lebar memang berkorelasi. Koefisien mendekati + 1 / -1 akan mengatakan bahwa mereka adalah collinear. Itu juga tergantung pada ukuran sampel .. jika Anda memiliki lebih banyak data gunakan untuk konfirmasi.

Prosedur standar dalam menangani variabel collinear adalah untuk menghilangkan salah satu dari mereka ... karena mengetahui satu akan menentukan yang lain.

Subspacian
sumber
1
Saya tidak yakin saya setuju dengan ini. Korelasi adalah r = -. 41, yang merupakan besaran yang wajar untuk suatu korelasi, saya akan berpikir. Mengingat kemungkinan N (berdasarkan pandangan sekilas), saya berharap r menjadi sangat 'signifikan'. Apakah Table & Depth berkorelasi cukup untuk disebut "collinear" akan menjadi masalah definisi (meskipun saya juga tidak akan menyebutnya collinearity yang bermasalah). Terakhir, saya akan berhati-hati dengan hanya menghilangkan salah satu variabel kecuali jika r sangat dekat dengan | 1 | (misalnya, ~ .99) - Saya tidak tahu apakah itu yang Anda maksud.
gung - Reinstate Monica
1

Apa yang membuat Anda berpikir bahwa tabel dan kedalaman menyebabkan kolinearitas pada model Anda? Dari matriks korelasi saja sulit untuk mengatakan bahwa kedua variabel ini akan menyebabkan masalah collinearity. Apa yang dikatakan oleh uji F bersama tentang kontribusi kedua variabel terhadap model Anda? Seperti penasaran_cat sebutkan Pearson mungkin bukan ukuran korelasi terbaik ketika hubungan itu tidak linier (mungkin ukuran berdasarkan peringkat?). VIF dan toleransi dapat membantu mengukur tingkat kolinearitas yang Anda miliki.

Saya pikir pendekatan Anda menggunakan rasio mereka sesuai (meskipun bukan sebagai solusi untuk collinearity). Ketika saya melihat sosok itu, saya langsung memikirkan ukuran umum dalam penelitian kesehatan yang rasio pinggang ke pinggul. Meskipun, dalam hal ini lebih mirip dengan BMI (berat / tinggi ^ 2). Jika rasio mudah ditafsirkan dan intuitif di audiens Anda, saya tidak melihat alasan untuk tidak menggunakannya. Namun, Anda mungkin dapat menggunakan kedua variabel dalam model Anda kecuali ada bukti yang jelas tentang kolinearitas.

Thomas Speidel
sumber