Penafian: Ini untuk proyek pekerjaan rumah.
Saya mencoba untuk datang dengan model terbaik untuk harga berlian, tergantung pada beberapa variabel dan saya tampaknya memiliki model yang cukup bagus sejauh ini. Namun saya telah mengalami dua variabel yang jelas collinear:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
Tabel dan Kedalaman saling bergantung, tetapi saya masih ingin memasukkannya ke dalam model prediksi saya. Saya melakukan penelitian pada berlian dan menemukan bahwa Table and Depth adalah panjang di bagian atas dan jarak dari ujung ke ujung berlian. Karena harga berlian ini tampaknya terkait dengan kecantikan dan kecantikan tampaknya terkait dengan proporsi, saya akan memasukkan rasio mereka, katakanlah , untuk memprediksi harga. Apakah prosedur standar ini untuk menangani variabel collinear? Jika tidak, apa itu?
Sunting: Ini adalah plot Kedalaman ~ Tabel:
Jawaban:
Variabel-variabel tersebut berkorelasi.
Tingkat hubungan linier yang tersirat oleh matriks korelasi tersebut tidak cukup tinggi untuk variabel-variabel yang dianggap collinear.
Dalam hal ini, saya akan sangat senang menggunakan ketiga variabel tersebut untuk aplikasi regresi yang khas.
Salah satu cara untuk mendeteksi multikolinieritas adalah dengan memeriksa dekomposisi Choleski dari matriks korelasi - jika ada multikolinieritas, akan ada beberapa elemen diagonal yang mendekati nol. Ini dia pada matriks korelasi Anda sendiri:
(Diagonal harus selalu positif, meskipun beberapa implementasi bisa menjadi sedikit negatif dengan efek akumulasi kesalahan pemotongan)
Seperti yang Anda lihat, diagonal terkecil adalah 0,91, yang masih jauh dari nol.
Sebaliknya, inilah beberapa data yang hampir collinear:
sumber
Kupikir skema pemotongan berlian ini mungkin menambah wawasan pada Pertanyaan. Tidak dapat menambahkan gambar ke Komentar jadi jawablah ....
PS. @ PeterEllis berkomentar: Fakta bahwa "berlian yang lebih panjang di bagian atas lebih pendek dari atas ke bawah" mungkin masuk akal dengan cara ini: Asumsikan semua berlian yang dipotong dipotong kira-kira persegi panjang (katakanlah). Sekarang pemotong harus memilih potongannya dengan persegi panjang pembatas ini. Itu memperkenalkan pengorbanan. Jika lebar dan panjang meningkat, Anda akan mendapatkan berlian yang lebih besar. Mungkin tetapi lebih jarang dan lebih mahal. Masuk akal?
sumber
Menggunakan rasio dalam regresi linier harus dihindari. Pada dasarnya, apa yang Anda katakan adalah bahwa, jika regresi linier dilakukan pada kedua variabel itu, mereka akan berkorelasi linier tanpa intersep; ini jelas bukan itu masalahnya. Lihat: http://cscu.cornell.edu/news/statnews/stnews03.pdf
Juga, mereka mengukur variabel laten - ukuran (volume atau luas) berlian. Sudahkah Anda mempertimbangkan untuk mengonversi data ke ukuran permukaan / volume daripada memasukkan kedua variabel?
Anda harus memposting plot sisa data kedalaman dan tabel itu. Korelasi Anda antara keduanya mungkin tidak valid.
sumber
Dari korelasi, sulit untuk menyimpulkan jika Tabel dan Lebar memang berkorelasi. Koefisien mendekati + 1 / -1 akan mengatakan bahwa mereka adalah collinear. Itu juga tergantung pada ukuran sampel .. jika Anda memiliki lebih banyak data gunakan untuk konfirmasi.
Prosedur standar dalam menangani variabel collinear adalah untuk menghilangkan salah satu dari mereka ... karena mengetahui satu akan menentukan yang lain.
sumber
Apa yang membuat Anda berpikir bahwa tabel dan kedalaman menyebabkan kolinearitas pada model Anda? Dari matriks korelasi saja sulit untuk mengatakan bahwa kedua variabel ini akan menyebabkan masalah collinearity. Apa yang dikatakan oleh uji F bersama tentang kontribusi kedua variabel terhadap model Anda? Seperti penasaran_cat sebutkan Pearson mungkin bukan ukuran korelasi terbaik ketika hubungan itu tidak linier (mungkin ukuran berdasarkan peringkat?). VIF dan toleransi dapat membantu mengukur tingkat kolinearitas yang Anda miliki.
Saya pikir pendekatan Anda menggunakan rasio mereka sesuai (meskipun bukan sebagai solusi untuk collinearity). Ketika saya melihat sosok itu, saya langsung memikirkan ukuran umum dalam penelitian kesehatan yang rasio pinggang ke pinggul. Meskipun, dalam hal ini lebih mirip dengan BMI (berat / tinggi ^ 2). Jika rasio mudah ditafsirkan dan intuitif di audiens Anda, saya tidak melihat alasan untuk tidak menggunakannya. Namun, Anda mungkin dapat menggunakan kedua variabel dalam model Anda kecuali ada bukti yang jelas tentang kolinearitas.
sumber