Saya bermain-main dengan dataset kanker payudara dan membuat sebar semua atribut untuk mendapatkan ide yang paling berpengaruh dalam memprediksi kelas malignant
(biru) dari benign
(merah).
Saya mengerti bahwa baris mewakili sumbu x dan kolom mewakili sumbu y tetapi saya tidak dapat melihat pengamatan apa yang dapat saya lakukan tentang data atau atribut dari sebar ini.
Saya mencari bantuan untuk menafsirkan / membuat pengamatan tentang data dari sebar ini atau jika saya harus menggunakan beberapa visualisasi lain untuk memvisualisasikan data ini.
Kode R yang saya gunakan
link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)
Jawaban:
Saya tidak yakin apakah ini bisa membantu Anda, tetapi untuk EDA primer saya sangat suka
tabplot
paketnya. Memberi Anda pengertian baik tentang kemungkinan korelasi apa yang mungkin ada dalam data Anda.sumber
Ada sejumlah masalah yang membuatnya sulit atau tidak mungkin untuk mengekstrak informasi yang dapat digunakan dari matriks sebar Anda.
Anda memiliki terlalu banyak variabel yang ditampilkan bersama. Ketika Anda memiliki banyak variabel dalam matriks sebar, setiap plot menjadi terlalu kecil untuk berguna. Yang perlu diperhatikan adalah banyak plot digandakan, yang membuang-buang ruang. Selain itu, meskipun Anda ingin melihat setiap kombinasi, Anda tidak harus menyusun semuanya. Perhatikan bahwa Anda dapat memecah matriks scatterplot menjadi blok yang lebih kecil dari empat atau lima (angka yang berguna secara visual). Anda hanya perlu membuat beberapa plot, satu untuk setiap blok.
Karena Anda memiliki banyak data pada titik-titik diskrit di ruang , mereka akhirnya menumpuk satu sama lain. Dengan demikian, Anda tidak dapat melihat berapa banyak titik di setiap lokasi. Ada beberapa trik untuk membantu Anda menangani ini.
Dengan menggunakan strategi ini, berikut adalah beberapa contoh kode R dan plot yang dibuat:
sumber
Sulit untuk memvisualisasikan lebih dari 3-4 dimensi dalam satu plot. Salah satu opsi adalah menggunakan analisis komponen utama (PCA) untuk memampatkan data dan kemudian memvisualisasikannya dalam dimensi utama. Ada beberapa paket berbeda dalam R (juga
prcomp
fungsi dasar ) yang membuat ini mudah secara sintaksis ( lihat CRAN ); menafsirkan plot, memuat, adalah cerita lain, tapi saya pikir lebih mudah daripada 10 matriks ordterplot variabel variabel.sumber