Misalkan kita memiliki data matriks , yang merupakan n -by- p , dan label vektor Y , yang merupakan n -by-satu. Di sini, setiap baris matriks adalah pengamatan, dan setiap kolom sesuai dengan dimensi / variabel. (asumsikan n > p )
Lalu apa data space
, variable space
, observation space
, model space
artinya?
Apakah ruang direntang oleh vektor kolom, ruang (terdegenerasi) D karena memiliki n koordinat sementara sedang peringkat p , disebut ruang variabel karena direntang oleh variabel-vektor? Atau itu disebut ruang pengamatan karena setiap dimensi / koordinat sesuai dengan pengamatan?
Dan bagaimana dengan ruang yang direntang oleh vektor baris?
regression
multiple-regression
terminology
geometry
biplot
pengguna3813057
sumber
sumber
Jawaban:
Istilah-istilah ini muncul di beberapa buku tentang statistik multivarian. Misalkan Anda memiliki
n
individu denganp
matriks data fitur kuantitatif. Kemudian Anda dapat memplot individu sebagai titik di ruang di mana sumbu adalah fitur. Itu akan menjadi scatterplot klasik, alias plot ruang variabel . Kita katakan, awan individu menjangkau ruang yang ditentukan oleh fitur sumbu.Anda juga bisa membayangkan sebar dengan poin menjadi variabel dan sumbu adalah individu. Benar-benar seperti sebelumnya, hanya kocar-kacir. Itu akan menjadi plot ruang subjek (atau plot ruang observasi) dengan variabel yang membentangnya, individu yang mendefinisikannya.
n>p
p
n
p
p
Jika fitur (kolom dari matriks data) dipusatkan sebelum menggambar plot ruang subjek maka cosinus sudut antara vektor variabel sama dengan korelasi Pearson, sedangkan panjang vektor sama dengan norma variabel (jumlah akar kuadrat kotak) ) atau standar deviasi (jika dibagi dengan df ).
Ruang variabel dan ruang subjek adalah dua sisi dari koin yang sama, mereka adalah ruang analitik Euclidean yang sama , hanya disajikan seperti cermin satu sama lain. Mereka berbagi properti yang sama, seperti nilai eigen bukan nol dan vektor eigen. Karena itu dimungkinkan untuk memplot kedua subjek dan variabel secara berdampingan sebagai titik di ruang sumbu utama (atau basis ortogonal lainnya) dari ruang analitik tersebut, - plot gabungan ini disebut biplot . Saya tidak tahu persis apa yang dimaksud dengan "ruang data" - jika itu berarti sesuatu yang spesifik maka saya kira itu adalah ruang analitik umum di mana ruang subjek dan ruang variabel adalah dua hipotesa.
Beberapa tautan lokal:
n=5
p=2
sumber