Menggunakan PostgreSQL 9.2, saya memiliki masalah dengan pertanyaan lambat pada tabel yang relatif besar (200+ juta baris). Saya tidak mencoba sesuatu yang gila, hanya menambahkan nilai historis. Di bawah ini adalah kueri dan output rencana kueri.
Tata letak meja saya:
Table "public.energy_energyentry"
Column | Type | Modifiers
-----------+--------------------------+-----------------------------------------------------------------
id | integer | not null default nextval('energy_energyentry_id_seq'::regclass)
prop_id | integer | not null
timestamp | timestamp with time zone | not null
value | double precision | not null
Indexes:
"energy_energyentry_pkey" PRIMARY KEY, btree (id)
"energy_energyentry_prop_id" btree (prop_id)
"energy_energyentry_prop_id_timestamp_idx" btree (prop_id, "timestamp")
Foreign-key constraints:
"energy_energyentry_prop_id_fkey" FOREIGN KEY (prop_id) REFERENCES gateway_peripheralproperty(id) DEFERRABLE INITIALLY DEFERRED
Data berkisar dari 2012-01-01 hingga sekarang, dengan data baru terus ditambahkan. Ada sekitar 2.2k nilai berbeda di prop_id
kunci asing, didistribusikan secara merata.
Saya perhatikan bahwa perkiraan baris tidak jauh, tetapi perkiraan biaya tampak lebih besar dengan faktor 4x. Ini mungkin bukan masalah, tapi adakah yang bisa saya lakukan?
Saya berharap bahwa akses disk mungkin menjadi masalah, karena tabel tidak ada di memori sepanjang waktu.
EXPLAIN ANALYZE
SELECT SUM("value")
FROM "energy_energyentry"
WHERE
"prop_id"=82411
AND "timestamp">'2014-06-11'
AND "timestamp"<'2014-11-11'
;
Aggregate (cost=214481.45..214481.46 rows=1 width=8) (actual time=51504.814..51504.814 rows=1 loops=1) -> Index Scan using energy_energyentry_prop_id_timestamp_idx on energy_energyentry (cost=0.00..214434.08 rows=18947 width=8) (actual time=136.030..51488.321 rows=13578 loops=1) Index Cond: ((prop_id = 82411) AND ("timestamp" > '2014-06-11 00:00:00+00'::timestamp with time zone) AND ("timestamp" < '2014-11-11 00:00:00+00'::timestamp with time zone)) Total runtime: 51504.841 ms
Adakah saran bagaimana membuat ini lebih cepat?
Saya juga baik-baik saja dengan hanya mendengar saya tidak melakukan sesuatu yang aneh.
prop_time_idx
, namun definisi tabel menunjukkanentry_prop_id_timestamp_idx
. Apakah ini indeks yang sama? Tolong perbaiki.prop
)? Jika hanya sebagian kecil, mungkin indeks pada("timestamp", prop)
akan lebih baik. Beberapa indeks dengan kolom utama yang sama (prop
dalam kasus Anda) juga seringkali berlebihan.Jawaban:
Meja Anda besar , dan indeks apa pun yang mencakup seluruh tabel. Berasumsi bahwa:
timestamp = now()
) yang dimasukkanSaya akan menyarankan indeks parsial, multi-kolom (meliputi!) :
Hanya menyertakan rentang waktu yang diminta secara teratur. Efektivitas memburuk dari waktu ke waktu dengan entri baru. Buat ulang indeks dari waktu ke waktu. (Anda mungkin perlu menyesuaikan pertanyaan Anda.) Lihat jawaban yang ditautkan di bawah ini.
Nilai kolom terakhir hanya disertakan untuk mengeluarkan scan indeks saja . Pengaturan autovacuum yang agresif dapat membantu dengan menjaga agar peta visibilitas tetap terbaru, seperti @jjanes yang telah disebutkan .
Indeks parsial harus masuk ke dalam RAM lebih mudah dan tinggal di sana lebih lama.
Anda mungkin perlu memasukkan
WHERE
kondisi ini dalam kueri untuk membuat perencana memahami indeks ini berlaku untuk kueri, seperti:Karena kueri Anda menjumlahkan banyak baris (
rows=13578
), ini akan memakan waktu, bahkan dengan pemindaian hanya indeks. Seharusnya tidak berada di dekat 50 detik. Kurang dari satu detik pada perangkat keras setengah jalan yang layak.Terkait (tetapi abaikan
CLUSTER
danFILLFACTOR
, keduanya tidak relevan jika Anda dapat memindai hanya indeks) :Selain:
Karena Anda saat ini memiliki indeks aktif
(prop_id, "timestamp")
, indeks tambahan pada hanya(prop_id)
mungkin lebih mahal daripada nilainya:sumber
Jika Anda membuat indeks pada (prop_id, "timestamp", "value"), maka itu dapat menggunakan pemindaian hanya indeks untuk menghitung nilai tanpa pernah mengunjungi tabel. Ini bisa menghemat banyak akses disk acak.
Untuk mendapatkan manfaat maksimal, Anda harus agresif membersihkan meja. Pengaturan autovac default tidak cukup agresif untuk tabel hanya menyisipkan di mana Anda ingin secara efisien mendukung pemindaian hanya indeks.
sumber