Saya memiliki kerangka data panda dengan beberapa entri, dan saya ingin menghitung korelasi antara pendapatan beberapa jenis toko. Ada sejumlah toko dengan data pendapatan, klasifikasi area aktivitas (teater, toko pakaian, makanan ...) dan data lainnya.
Saya mencoba membuat bingkai data baru dan menyisipkan kolom dengan pendapatan semua jenis toko yang termasuk dalam kategori yang sama, dan kerangka data yang kembali hanya memiliki kolom pertama yang diisi dan sisanya penuh dengan NaN. Kode yang saya lelah:
corr = pd.DataFrame()
for at in activity:
stores.loc[stores['Activity']==at]['income']
Saya ingin melakukannya, jadi saya bisa gunakan .corr()
untuk memberikan matriks korelasi antara kategori toko.
Setelah itu, saya ingin tahu bagaimana saya bisa memplot nilai matriks (-1 ke 1, karena saya ingin menggunakan korelasi Pearson) dengan matplolib.
Jawaban:
Saya menyarankan beberapa jenis permainan sebagai berikut:
Menggunakan data Abalone UCI untuk contoh ini ...
Fungsi merencanakan matriks korelasi:
# Korelasi fungsi penyusunan matrik
Semoga ini membantu!
sumber
import numpy as np
tidak perlu, bukan?cbar
, jadi mengapa Anda menetapkannya?Alternatif lain adalah dengan menggunakan fungsi peta panas di seaborn untuk merencanakan kovarian. Contoh ini menggunakan kumpulan data otomatis dari paket ISLR di R (sama seperti dalam contoh yang Anda tunjukkan).
Jika Anda ingin menjadi lebih mewah, Anda dapat menggunakan Gaya Pandas , misalnya:
sumber
rpy
modul. Anda perlu menggunakan proyek mandirirpy2
. Lihat peringatan dari Panda di sini .Mengapa tidak melakukan ini saja:
Anda dapat mengubah palet warna dengan menggunakan
cmap
parameter:sumber