Ruang data, ruang variabel, ruang observasi, ruang model (misalnya dalam regresi linier)

9

Misalkan kita memiliki data matriks , yang merupakan n -by- p , dan label vektor Y , yang merupakan n -by-satu. Di sini, setiap baris matriks adalah pengamatan, dan setiap kolom sesuai dengan dimensi / variabel. (asumsikan n > p )XnpYnn>p

Lalu apa data space, variable space, observation space, model spaceartinya?

Apakah ruang direntang oleh vektor kolom, ruang (terdegenerasi) D karena memiliki n koordinat sementara sedang peringkat p , disebut ruang variabel karena direntang oleh variabel-vektor? Atau itu disebut ruang pengamatan karena setiap dimensi / koordinat sesuai dengan pengamatan?nnp

Dan bagaimana dengan ruang yang direntang oleh vektor baris?

pengguna3813057
sumber
5
Ini bukan istilah yang dikenal secara universal. Apakah Anda punya referensi? Jika tidak, kita mungkin menebak apa maksudnya.
whuber
1
Saya tidak punya referensi. Saya pernah mendengar profesor saya mengatakannya beberapa waktu lalu.
user3813057
3
Saya cukup yakin, bahwa, profesor Anda mendefinisikan istilah-istilah ini di beberapa titik. Mungkin mereka ada di catatan kelas Anda ....
whuber

Jawaban:

14

Istilah-istilah ini muncul di beberapa buku tentang statistik multivarian. Misalkan Anda memiliki nindividu dengan pmatriks data fitur kuantitatif. Kemudian Anda dapat memplot individu sebagai titik di ruang di mana sumbu adalah fitur. Itu akan menjadi scatterplot klasik, alias plot ruang variabel . Kita katakan, awan individu menjangkau ruang yang ditentukan oleh fitur sumbu.

Anda juga bisa membayangkan sebar dengan poin menjadi variabel dan sumbu adalah individu. Benar-benar seperti sebelumnya, hanya kocar-kacir. Itu akan menjadi plot ruang subjek (atau plot ruang observasi) dengan variabel yang membentangnya, individu yang mendefinisikannya.

n>ppnpp1

Jika fitur (kolom dari matriks data) dipusatkan sebelum menggambar plot ruang subjek maka cosinus sudut antara vektor variabel sama dengan korelasi Pearson, sedangkan panjang vektor sama dengan norma variabel (jumlah akar kuadrat kotak) ) atau standar deviasi (jika dibagi dengan df ).

Ruang variabel dan ruang subjek adalah dua sisi dari koin yang sama, mereka adalah ruang analitik Euclidean yang sama , hanya disajikan seperti cermin satu sama lain. Mereka berbagi properti yang sama, seperti nilai eigen bukan nol dan vektor eigen. Karena itu dimungkinkan untuk memplot kedua subjek dan variabel secara berdampingan sebagai titik di ruang sumbu utama (atau basis ortogonal lainnya) dari ruang analitik tersebut, - plot gabungan ini disebut biplot . Saya tidak tahu persis apa yang dimaksud dengan "ruang data" - jika itu berarti sesuatu yang spesifik maka saya kira itu adalah ruang analitik umum di mana ruang subjek dan ruang variabel adalah dua hipotesa.

masukkan deskripsi gambar di sini

Beberapa tautan lokal:

  • Gambar yang menunjukkan representasi ruang subjek dari komponen utama (PCA), regresi linier , dan analisis faktor , juga regresi . Bandingkan dengan representasi tradisional, ruang variabel (scatterplot) dari regresi dan PCA .
  • Penjelasan teoritis tentang biplot . Satu studi mandiri menjelaskan struktur biplot di PCA .
  • Lihat juga pos yang mencoba mencari tahu apakah seseorang dapat secara geometris menyelesaikan tugas PCA pada plot ruang subjek (tampak bahwa PC menentukan elips; tetapi bagaimana menemukan elips unik itu?).

1n=5p=2

ttnphns
sumber
2
+1. Tetapi saya tidak yakin apa arti matematika yang tepat dengan mengatakan bahwa variabel dan ruang subjek adalah "ruang analitik Euclidean yang sama".
amoeba
3
@amoeba, Tanpa menjadi matematis dalam jawaban saya berharap bahwa itu transparan secara intuitif (terutama untuk para ahli aljabar linier seperti Anda). Misalnya, dalam dekomposisi nilai singular dari matriks data (SVD, yang menjadi dasar biplot) - ruang apa yang dicirikan oleh nilai eigen dan vektor eigen kiri dan kanan? Bukankah ini ruang analitik yang sama, yang dapat ditata dengan berbagai cara, - di antaranya adalah (i) baris dan kolom sebagai titik oleh sumbu utama sebagai sumbu; (ii) baris sebagai titik dengan kolom sebagai sumbu; (iii) kolom sebagai titik dengan baris sebagai sumbu?
ttnphns