Apa contoh collinearity sempurna dalam hal matriks desain ?
Saya ingin contoh di mana tidak dapat diperkirakan karena tidak dapat dibalik.(X'X)
regression
multicollinearity
matrix
matrix-inverse
TsTeaTime
sumber
sumber
Jawaban:
Berikut adalah contoh dengan 3 variabel, , dan , yang terkait dengan persamaany x1 x2
di manaε∼N(0,1)
Data tertentu adalah
Jadi jelas bahwa adalah kelipatan dari maka kita memiliki collinearity yang sempurna.x2 x1
Kita dapat menulis model sebagai
dimana:
Jadi kita punya
Sekarang kita menghitung determinan :XX′
Di R kita bisa menunjukkan ini sebagai berikut:
buat
x2
, kelipatanx1
buat y, kombinasi linear
x1
,x2
dan keacakanamati itu
gagal memperkirakan nilai untuk
x2
koefisien:Matriks model adalah:X
Jadi adalahXX′
yang tidak dapat dibalik, seperti yang ditunjukkan oleh
Atau:
sumber
Berikut adalah beberapa skenario yang cukup umum menghasilkan multikolinieritas sempurna, yaitu situasi di mana kolom-kolom dari matriks desain bergantung secara linear. Ingat dari aljabar linier bahwa ini berarti ada kombinasi linier kolom-kolom dari matriks desain (yang koefisiennya tidak semuanya nol) yang sama dengan nol. Saya telah memasukkan beberapa contoh praktis untuk membantu menjelaskan mengapa perangkap ini sering terjadi - saya telah menemui hampir semuanya!
Satu variabel adalah kelipatan dari yang lain , terlepas dari apakah ada istilah intersep: mungkin karena Anda telah mencatat variabel yang sama dua kali menggunakan unit yang berbeda (misalnya "panjang dalam sentimeter" tepatnya 100 kali lebih besar dari "panjang dalam meter") atau karena Anda telah mencatat variabel satu kali sebagai angka mentah dan sekali sebagai proporsi atau persentase, ketika penyebutnya tetap (mis. "area cawan petri dijajah" dan "persentase cawan petri dijajah" akan menjadi kelipatan satu sama lain dengan tepat jika area tersebut dari setiap cawan petri adalah sama). Kami memiliki collinearity karena jika mana dan adalah variabel (kolom dari matriks desain Anda) dan adalah konstanta skalar, w x a 1 ( → w ) - a ( → x )wi=axi w x a 1(w⃗ )−a(x⃗ ) adalah kombinasi linear dari variabel yang sama dengan nol.
Ada istilah intersep dan satu variabel berbeda dari yang lain dengan konstanta : ini akan terjadi jika Anda memusatkan variabel ( ) dan menyertakan mentah dan terpusat dalam regresi Anda. Ini juga akan terjadi jika variabel Anda diukur dalam sistem unit yang berbeda yang berbeda dengan konstanta, misalnya jika adalah "suhu dalam kelvin" dan sebagai "suhu dalam ° C" maka . Jika kita menganggap istilah intersep sebagai variabel yang selalu (direpresentasikan sebagai kolom yang, , dalam matriks desain) maka memiliki untuk beberapa konstanta x w w x w i = x i + 273.15 1 → 1 n w i = x i + k k 1 ( → w ) - 1 ( → x ) - k ( → 1 n ) w x 1wi=xi−x¯ x w w x wi=xi+273.15 1 1⃗ n wi=xi+k k berarti adalah kombinasi linear dari kolom , dan dari matriks desain yang sama dengan nol.1(w⃗ )−1(x⃗ )−k(1⃗ n) w x 1
Ada istilah intersep dan satu variabel diberikan oleh transformasi affine dari yang lain : yaitu Anda memiliki variabel dan , terkait dengan mana dan adalah konstanta. Misalnya, ini terjadi jika Anda membakukan variabel sebagai dan menyertakan variabel mentah dan standar dalam regresi Anda. Ini juga terjadi jika Anda merekam sebagai "suhu dalam ° F" dan sebagai "suhu dalam ° C", karena sistem unit tersebut tidak berbagi nol yang sama tetapi terkait denganw x wi=axi+b a b zi=xi−x¯sx x z w x wi=1.8xi+32 . Atau dalam konteks bisnis, misalkan ada biaya tetap (mis. Mencakup pengiriman) untuk setiap pesanan, serta biaya per unit yang terjual; maka jika adalah biaya pesanan dan adalah jumlah unit yang dipesan, kita memiliki . Kombinasi linear bunga adalah . Perhatikan bahwa jika , maka (3) termasuk (2) sebagai kasus khusus; jika , maka (3) termasuk (1) sebagai kasus khusus.b $a $wi i xi wi=axi+b 1(w⃗ )−a(x⃗ )−b(1⃗ n)=0⃗ a=1 b=0
Ada istilah intersep dan jumlah beberapa variabel ditetapkan (misalnya dalam "dummy variable trap" yang terkenal) : misalnya jika Anda memiliki "persentase pelanggan yang puas", "persentase pelanggan yang tidak puas" dan "persentase pelanggan yang tidak puas atau tidak puas "maka ketiga variabel ini akan selalu (kecuali kesalahan pembulatan) berjumlah 100. Salah satu dari variabel ini - atau sebagai alternatif, istilah intersep - perlu dihapus dari regresi untuk mencegah kolinearitas. "Dummy variable trap" terjadi ketika Anda menggunakan variabel indikator (lebih umum tetapi kurang bermanfaat disebut "boneka") untuk setiap tingkat yang mungkin dari variabel kategori. Sebagai contoh, misalkan vas diproduksi dalam skema warna merah, hijau atau biru. Jika Anda merekam variabel kategori "
red
green
danblue
akan menjadi variabel biner, disimpan sebagai1
untuk "ya" dan0
untuk "tidak") maka untuk setiap vas hanya satu variabel yang akan menjadi satu, dan karenanyared + green + blue = 1
. Karena ada vektor yang untuk istilah intersep, kombinasi linear1(red) + 1(green) + 1(blue) - 1(1) = 0
. Obat yang biasa digunakan di sini adalah dengan menghentikan intersep, atau menjatuhkan salah satu indikator (mis. Tinggalkanred
) yang menjadi garis dasar atau tingkat referensi. Dalam hal ini, koefisien regresi untukgreen
akan menunjukkan perubahan dalam respon rata-rata terkait dengan beralih dari vas merah ke yang hijau, memegang variabel penjelas lainnya konstan.Setidaknya ada dua himpunan bagian variabel, masing-masing memiliki jumlah tetap , terlepas dari apakah ada istilah intersep: misalkan vas di (4) diproduksi dalam tiga ukuran, dan variabel kategorikal untuk ukuran disimpan sebagai tiga variabel indikator tambahan . Kami akan melakukannyau,v,w,x ui+vi=k1 xi+yi=k2 k2(u⃗ )+k2(v⃗ )−k1(w⃗ )−k1(x⃗ )=0⃗
large + medium + small = 1
. Maka kita memiliki kombinasi linear1(large) + 1(medium) + 1(small) - 1(red) - 1(green) - 1(blue) = 0
, bahkan ketika tidak ada istilah intersep. Dua himpunan bagian tidak perlu berbagi jumlah yang sama, misalnya jika kita memiliki variabel penjelas sedemikian sehingga setiap dan lalu kemudian .Satu variabel didefinisikan sebagai kombinasi linear dari beberapa variabel lain : misalnya, jika Anda merekam panjang , lebar dan perimeter dari setiap persegi panjang, maka sehingga kita memiliki kombinasi linear . Contoh dengan istilah intersep: misalkan bisnis pesanan melalui surat memiliki dua lini produk, dan kami mencatat bahwa pesanan terdiri dari dari produk pertama dengan biaya unit dan yang kedua dengan biaya unit , dengan biaya pengiriman tetap . Jika kami juga memasukkan biaya pemesananl w p pi=2li+2wi 1(p⃗ )−2(l⃗ )−2(w⃗ )=0⃗ i ui $a vi $b $c $x sebagai variabel penjelas, maka dan sebagainya . Ini adalah generalisasi yang jelas dari (3). Ini juga memberi kita cara berpikir yang berbeda tentang (4): begitu kita tahu semua bar salah satu bagian dari variabel yang jumlahnya tetap, maka sisanya adalah pelengkap mereka sehingga dapat dinyatakan sebagai kombinasi linear dari mereka dan jumlah mereka . Jika kita tahu 50% pelanggan puas dan 20% tidak puas, maka 100% - 50% - 20% = 30% harus tidak puas atau tidak puas; jika kita tahu vasnya bukan merah ( ) dan itu hijau ( ) maka kita tahu itu bukan biru ( ).xi=aui+bvi+c 1(x⃗ )−a(u⃗ )−b(v⃗ )−c(1⃗ n)=0⃗
red=0
green=1
blue = 1(1) - 1(red) - 1(green) = 1 - 0 - 1 = 0
Satu variabel konstan dan nol , terlepas dari apakah ada istilah intersep: dalam penelitian observasional, variabel akan konstan jika sampel Anda tidak menunjukkan variasi yang cukup (apa pun!). Mungkin ada variasi dalam populasi yang tidak ditangkap dalam sampel Anda, misalnya jika ada nilai modal yang sangat umum: mungkin ukuran sampel Anda terlalu kecil dan karena itu tidak mungkin untuk memasukkan nilai apa pun yang berbeda dari mode, atau pengukuran Anda kurang akurat untuk mendeteksi variasi kecil dari mode. Atau, mungkin ada alasan teoritis untuk kurangnya variasi, terutama jika Anda mempelajari sub-populasi. Dalam studi tentang properti build-baru di Los Angeles, tidak akan mengejutkan bahwa setiap titik data memilikix 1(x⃗ ) 0⃗
AgeOfProperty = 0
danState = California
! Dalam studi eksperimental, Anda mungkin telah mengukur variabel independen yang berada di bawah kendali eksperimental. Jika salah satu variabel penjelas Anda menjadi konstan dan nol, maka kami segera memiliki kombinasi linear (dengan koefisien nol untuk variabel lainnya) adalah .Ada istilah intersep dan setidaknya satu variabel konstan : jika konstan sehingga setiap , maka kombinasi linear .x xi=k≠0 1(x⃗ )−k(1⃗ n)=0⃗
Setidaknya dua variabel konstan , terlepas dari apakah ada istilah intersep: jika setiap dan , maka kombinasi linear .wi=k1≠0 xi=k2≠0 k2(w⃗ )−k1(x⃗ )=0⃗
Jumlah kolom dari matriks desain, , melebihi jumlah baris,k n : bahkan ketika tidak ada hubungan konseptual antara variabel Anda, secara matematis diperlukan bahwa kolom dari matriks desain Anda akan tergantung secara linear ketika . Ini hanya tidak mungkin untuk memiliki linear vektor bebas dalam ruang dengan sejumlah dimensi lebih rendah dari : misalnya, sementara Anda dapat menarik dua vektor independen pada selembar kertas (bidang dua dimensi,k>n k k R2 ) setiap vektor lebih lanjut yang digambar pada halaman harus berada dalam rentangnya, dan karenanya merupakan kombinasi linear dari mereka. Perhatikan bahwa istilah intersep menyumbang kolom yang ke matriks desain, jadi hitung sebagai salah satu kolom Anda . (Skenario ini sering disebut masalah " besar , kecil ": lihat juga pertanyaan CV terkait ini .)k p n
Contoh data dengan kode R.
Setiap contoh memberikan desain matriks , matriks (perhatikan ini selalu persegi dan simetris) dan . Perhatikan bahwa jika adalah singular (determinan nol, maka tidak dapat dibalik) maka kita tidak dapat memperkirakan . Kondisi bahwa menjadi non-singular setara dengan kondisi bahwa memiliki peringkat penuh sehingga kolomnya independen secara linear: lihat pertanyaan SE Matematika ini , atau yang ini dan yang sebaliknya .X X′X det(X′X) X′X β^=(X′X)−1X′y X′X X
(1) Satu kolom adalah kelipatan dari yang lain
(2) Istilah intersept dan satu variabel berbeda dari yang lain dengan konstanta
(3) Istilah intersept dan satu variabel adalah transformasi affine dari yang lain
(4) Istilah intersepsi dan jumlah beberapa variabel ditetapkan
(4a) Istilah intersep dengan trap variabel dummy
(5) Dua himpunan bagian variabel dengan jumlah tetap
(6) Satu variabel adalah kombinasi linear dari yang lain
(7) Satu variabel konstan dan nol
(8) Istilah intersept dan satu variabel konstan
(9) Dua variabel konstan
(10)k>n
sumber
Beberapa contoh sepele untuk membantu intuisi:
Ada banyak cara sehingga satu kolom data akan menjadi fungsi linier dari data Anda yang lain. Beberapa di antaranya jelas (mis. Meter vs sentimeter) sementara yang lain bisa lebih halus (mis. Usia dan tahun sekolah untuk anak kecil).
Catatan notasi: Misalkan menunjukkan kolom pertama , kolom kedua dll ..., dan menunjukkan vektor yang, yang termasuk dalam matriks desain X jika Anda memasukkan konstanta dalam regresi Anda. X x 2 1x1 X x2 1
sumber