Saya mengambil data boneka suhu vs Es Krim Penjualan dan mengkategorikannya menggunakan K Means (n cluster = 2) untuk membedakan 2 kategori (benar-benar boneka).
Sekarang saya sedang melakukan Analisis Komponen Utama pada data ini dan tujuan saya adalah untuk memahami apa yang saya lihat. Saya tahu bahwa tujuan PCA adalah untuk mengurangi dimensionalitas (jelas tidak dalam kasus ini) dan menunjukkan varian elemen. Tapi bagaimana Anda membaca plot PCA di bawah ini, yaitu apa cerita yang bisa Anda ceritakan tentang suhu vs es krim di plot PCA? Apa arti PC 1 (X) dan 2 (Y)?
Jawaban:
Inilah yang sering diasumsikan orang, tetapi sebenarnya PCA hanyalah representasi data Anda ke basis ortogonal. Basis ini masih memiliki dimensi yang sama dengan data asli Anda. Tidak ada yang hilang ... belum. Bagian pengurangan dimensi sepenuhnya terserah Anda. Apa yang PCA pastikan adalah bahwa dimensi atas dari proyeksi baru Anda adalah dimensi terbaik yang mungkin dapat direpresentasikan oleh data Anda. Apa maksud terbaik? Di situlah varians menjelaskan masuk.kk k
Saya tidak akan begitu yakin tentang itu! Dari plot kedua Anda, secara visual sepertinya banyak informasi dari data Anda dapat diproyeksikan ke garis horizontal. Itu 1 dimensi, bukan plot asli yang ada di 2 dimensi! Jelas Anda kehilangan beberapa informasi karena Anda melepaskan sumbu Y, tetapi apakah kehilangan informasi ini dapat Anda terima, itu adalah panggilan Anda.
Ada banyak pertanyaan terkait dengan apa yang ada di PCA, jadi saya sarankan Anda memeriksanya di sini , di sini , di sini atau di sini . Jika Anda memiliki pertanyaan lain setelah itu, silakan posting mereka dan saya akan dengan senang hati membantu.
Sebagai pertanyaan aktual Anda:
Karena sumbu koordinat baru adalah kombinasi linear dari koordinat asli, maka ... pada dasarnya tidak ada! PCA akan memberi Anda jawaban seperti (angka terdiri):
Apakah itu berguna bagi Anda? Mungkin. Tapi saya rasa tidak :)
Diedit
Saya akan menambahkan sumber daya ini yang menurut saya sangat membantu karena grafik interaktif itu keren.
Diedit lagi
Untuk memperjelas apa arti terbaik :k
PCA mencoba menemukan dimensi yang menghasilkan varian tertinggi ketika data diproyeksikan ke mereka. Dengan asumsi data Anda memiliki dimensi , PC pertama menjelaskan lebih banyak varians dalam data Anda daripada dimensi lainnya . Itulah yang saya maksud dengan terbaik . Apakah itu berguna atau tidak bagi Anda adalah hal lain.k k kn > k k k k
sumber
Untuk jawaban yang baik dari Ilan man, saya akan menambahkan bahwa ada interpretasi yang cukup mudah dari komponen utama Anda, meskipun dalam kasus 2D sederhana ini tidak menambah banyak pada apa yang bisa kita tafsirkan hanya dengan melihat sebar scatterplot.
PC pertama adalah jumlah tertimbang (yaitu, kombinasi linier di mana kedua koefisien positif) dari temperatura dan konsumsi es krim. Di sisi kanan Anda mengalami hari-hari panas di mana banyak es krim dijual, dan di sisi kiri Anda memiliki hari yang lebih dingin di mana lebih sedikit es krim dijual. PC itu menjelaskan sebagian besar varians Anda dan grup yang Anda dapatkan cocok dengan kedua sisi tersebut.
PC kedua mengukur bagaimana konsumsi suhu dan es krim bergerak menjauh dari hubungan linear dekat yang digarisbawahi oleh PC pertama. Di bagian atas grafik, kami memiliki hari-hari dengan lebih banyak es krim yang dijual dibandingkan dengan hari-hari lain dengan suhu yang sama dan di bagian yang lebih rendah dengan es krim yang lebih sedikit dari yang diperkirakan sesuai dengan suhu. PC itu hanya menjelaskan sedikit perbedaan.
Yaitu, kita dapat menceritakan sebuah kisah dari komponen-komponen utama, walaupun hanya dengan dua variabel itu adalah cerita yang sama yang bisa kita sadari tanpa PCA. Dengan lebih banyak variabel, PCA menjadi lebih bermanfaat karena menceritakan kisah yang akan lebih sulit untuk diperhatikan.
sumber