Saya ingin membaca file .xlsx menggunakan Pandas Library of python dan mem-port datanya ke tabel postgreSQL.
Yang bisa saya lakukan sampai sekarang adalah:
import pandas as pd
data = pd.ExcelFile("*File Name*")
Sekarang saya tahu bahwa langkah tersebut berhasil dijalankan, tetapi saya ingin tahu bagaimana saya dapat mengurai file excel yang telah dibaca sehingga saya dapat memahami bagaimana data di excel memetakan ke data dalam data variabel.
Saya belajar bahwa data adalah objek Dataframe jika saya tidak salah. Jadi Bagaimana cara mengurai objek dataframe ini untuk mengekstrak setiap baris baris demi baris.
Jawaban:
Saya biasanya membuat kamus yang berisi
DataFrame
untuk setiap lembar:Pembaruan: Dalam pandas versi 0.21.0+ Anda akan mendapatkan perilaku ini lebih bersih dengan meneruskan
sheet_name=None
keread_excel
:Di 0.20 dan sebelumnya, ini
sheetname
daripadasheet_name
(ini sekarang tidak digunakan lagi karena mendukung yang di atas):sumber
pandas.DataFrame.to_sql
mungkin bisa membantu. Untuk membaca, Anda kemudian dapat menggunakan objekdp.py
Pandas DataFrame yang dikembalikan.sumber
read_excel
Metode DataFrame sepertiread_csv
metode:sumber
Alih-alih menggunakan nama sheet, jika Anda tidak tahu atau tidak dapat membuka file excel untuk diperiksa di ubuntu (dalam kasus saya, Python 3.6.7, ubuntu 18.04), saya menggunakan parameter index_col (index_col = 0 untuk lembar pertama)
sumber
sheet_name=0
atau menamai sheet sebagai ganti 0.Tetapkan nama file spreadsheet ke
file
Muat spreadsheet
Cetak nama lembar
Muat sheet ke dalam DataFrame dengan nama: df1
sumber
Jika Anda menggunakan
read_excel()
pada file yang dibuka menggunakan fungsi tersebutopen()
, pastikan untuk menambahkanrb
ke fungsi buka untuk menghindari kesalahan pengkodeansumber