Memahami plot penjualan es krim vs suhu PCA ini

9

Saya mengambil data boneka suhu vs Es Krim Penjualan dan mengkategorikannya menggunakan K Means (n ​​cluster = 2) untuk membedakan 2 kategori (benar-benar boneka).

Sekarang saya sedang melakukan Analisis Komponen Utama pada data ini dan tujuan saya adalah untuk memahami apa yang saya lihat. Saya tahu bahwa tujuan PCA adalah untuk mengurangi dimensionalitas (jelas tidak dalam kasus ini) dan menunjukkan varian elemen. Tapi bagaimana Anda membaca plot PCA di bawah ini, yaitu apa cerita yang bisa Anda ceritakan tentang suhu vs es krim di plot PCA? Apa arti PC 1 (X) dan 2 (Y)?

masukkan deskripsi gambar di sini

adhg
sumber
1
Ini harus menjadi komentar, tetapi saya tidak memiliki perwakilan yang cukup. Tautan di bawah ini adalah tutorial yang sangat baik tentang PCA. Khususnya, Contoh Toy memberikan keseimbangan yang baik antara "cukup sederhana untuk dipahami dengan satu gambar" dan "cukup rumit sehingga dapat digunakan sebagai analogi dalam masalah di masa depan". Saya pikir membacanya mungkin membantu menjernihkan apa yang PCA bisa dan tidak bisa lakukan untuk Anda. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Jason

Jawaban:

18

Saya tahu bahwa tujuan PCA adalah untuk mengurangi dimensi

Inilah yang sering diasumsikan orang, tetapi sebenarnya PCA hanyalah representasi data Anda ke basis ortogonal. Basis ini masih memiliki dimensi yang sama dengan data asli Anda. Tidak ada yang hilang ... belum. Bagian pengurangan dimensi sepenuhnya terserah Anda. Apa yang PCA pastikan adalah bahwa dimensi atas dari proyeksi baru Anda adalah dimensi terbaik yang mungkin dapat direpresentasikan oleh data Anda. Apa maksud terbaik? Di situlah varians menjelaskan masuk.kk k

jelas tidak dalam hal ini

Saya tidak akan begitu yakin tentang itu! Dari plot kedua Anda, secara visual sepertinya banyak informasi dari data Anda dapat diproyeksikan ke garis horizontal. Itu 1 dimensi, bukan plot asli yang ada di 2 dimensi! Jelas Anda kehilangan beberapa informasi karena Anda melepaskan sumbu Y, tetapi apakah kehilangan informasi ini dapat Anda terima, itu adalah panggilan Anda.

Ada banyak pertanyaan terkait dengan apa yang ada di PCA, jadi saya sarankan Anda memeriksanya di sini , di sini , di sini atau di sini . Jika Anda memiliki pertanyaan lain setelah itu, silakan posting mereka dan saya akan dengan senang hati membantu.

Sebagai pertanyaan aktual Anda:

apa cerita yang bisa Anda ceritakan tentang suhu vs es krim di plot PCA?

Karena sumbu koordinat baru adalah kombinasi linear dari koordinat asli, maka ... pada dasarnya tidak ada! PCA akan memberi Anda jawaban seperti (angka terdiri):

PC1=2.5×ice cream3.6×temperaturePC2=1.5×ice cream+0.6×temperature

Apakah itu berguna bagi Anda? Mungkin. Tapi saya rasa tidak :)

Diedit

Saya akan menambahkan sumber daya ini yang menurut saya sangat membantu karena grafik interaktif itu keren.

Diedit lagi

Untuk memperjelas apa arti terbaik :k

PCA mencoba menemukan dimensi yang menghasilkan varian tertinggi ketika data diproyeksikan ke mereka. Dengan asumsi data Anda memiliki dimensi , PC pertama menjelaskan lebih banyak varians dalam data Anda daripada dimensi lainnya . Itulah yang saya maksud dengan terbaik . Apakah itu berguna atau tidak bagi Anda adalah hal lain.k k kn>kkk k

ilanman
sumber
6
Juga, pastikan untuk mengukur variabel. Kalau tidak, penjualan (angka yang jauh lebih tinggi) akan menjelaskan sebagian besar varian. Mungkin mengapa unit di PC Anda sangat berbeda.
Filipe
Jawaban yang bagus, tetapi pernyataan Anda "... dimensi kk terbaik yang mungkin diwakili oleh data Anda sebagai ..." mungkin terlalu digeneralisasi. Arah varians maksimum belum tentu berguna untuk memisahkan dua kelas. Entah bagaimana, ini sering berhasil dengan baik, tetapi bukan karena PCA melakukan apa pun untuk membuat pilihan terbaik untuk tujuan tertentu.
Wayne
"sebenarnya PCA hanyalah representasi data Anda ke basis ortogonal." Saya terus-menerus dikejutkan oleh fakta bahwa banyak orang tidak memahami hal ini ...
3x89g2
5

Untuk jawaban yang baik dari Ilan man, saya akan menambahkan bahwa ada interpretasi yang cukup mudah dari komponen utama Anda, meskipun dalam kasus 2D sederhana ini tidak menambah banyak pada apa yang bisa kita tafsirkan hanya dengan melihat sebar scatterplot.

PC pertama adalah jumlah tertimbang (yaitu, kombinasi linier di mana kedua koefisien positif) dari temperatura dan konsumsi es krim. Di sisi kanan Anda mengalami hari-hari panas di mana banyak es krim dijual, dan di sisi kiri Anda memiliki hari yang lebih dingin di mana lebih sedikit es krim dijual. PC itu menjelaskan sebagian besar varians Anda dan grup yang Anda dapatkan cocok dengan kedua sisi tersebut.

PC kedua mengukur bagaimana konsumsi suhu dan es krim bergerak menjauh dari hubungan linear dekat yang digarisbawahi oleh PC pertama. Di bagian atas grafik, kami memiliki hari-hari dengan lebih banyak es krim yang dijual dibandingkan dengan hari-hari lain dengan suhu yang sama dan di bagian yang lebih rendah dengan es krim yang lebih sedikit dari yang diperkirakan sesuai dengan suhu. PC itu hanya menjelaskan sedikit perbedaan.

Yaitu, kita dapat menceritakan sebuah kisah dari komponen-komponen utama, walaupun hanya dengan dua variabel itu adalah cerita yang sama yang bisa kita sadari tanpa PCA. Dengan lebih banyak variabel, PCA menjadi lebih bermanfaat karena menceritakan kisah yang akan lebih sulit untuk diperhatikan.

Pere
sumber