Kami mengalami beberapa masalah dengan konfigurasi PostgreSQL. Setelah beberapa tolok ukur saya menemukan bahwa permintaan yang sangat sederhana membutuhkan waktu yang relatif lama, setelah pemeriksaan lebih lanjut tampak bahwa perintah COMMIT yang sebenarnya sangat lambat.
Saya menjalankan tes yang sangat sederhana menggunakan tabel berikut:
CREATE TABLE test (
id serial primary key,
foo varchar(16),
);
Setelah mengaktifkan logging pada semua pernyataan, saya menjalankan permintaan berikut 10.000 kali:
BEGIN;
INSERT INTO test (a) VALUES ('bar');
COMMIT;
BEGIN dan INSERT menyelesaikan <1 ms untuk menyelesaikan, tetapi KOMIT mengambil rata-rata 22 ms untuk menyelesaikan.
Menjalankan patokan yang sama pada PC saya sendiri, yang jauh lebih lambat, menghasilkan rata-rata yang sama untuk pernyataan BEGIN dan INSERT, tetapi rata-rata COMMIT adalah sekitar 0,4 ms (lebih dari 20 kali lebih cepat.)
Setelah membaca beberapa kali saya mencoba pg_test_fsync
alat untuk mencoba menjabarkan masalahnya. Di server saya mendapatkan hasil ini:
$ ./pg_test_fsync -o 1024
1024 operations per test
O_DIRECT supported on this platform for open_datasync and open_sync.
Compare file sync methods using one 8kB write:
(in wal_sync_method preference order, except fdatasync
is Linux's default)
open_datasync 14.875 ops/sec
fdatasync 11.920 ops/sec
fsync 30.524 ops/sec
fsync_writethrough n/a
open_sync 30.425 ops/sec
Compare file sync methods using two 8kB writes:
(in wal_sync_method preference order, except fdatasync
is Linux's default)
open_datasync 19.956 ops/sec
fdatasync 23.299 ops/sec
fsync 21.955 ops/sec
fsync_writethrough n/a
open_sync 3.619 ops/sec
Compare open_sync with different write sizes:
(This is designed to compare the cost of writing 16kB
in different write open_sync sizes.)
16kB open_sync write 5.923 ops/sec
8kB open_sync writes 3.120 ops/sec
4kB open_sync writes 10.246 ops/sec
2kB open_sync writes 1.787 ops/sec
1kB open_sync writes 0.830 ops/sec
Test if fsync on non-write file descriptor is honored:
(If the times are similar, fsync() can sync data written
on a different descriptor.)
write, fsync, close 34.371 ops/sec
write, close, fsync 36.527 ops/sec
Non-Sync'ed 8kB writes:
write 248302.619 ops/sec
Di PC saya sendiri saya mendapatkan:
$ ./pg_test_fsync -o 1024
1024 operations per test
O_DIRECT supported on this platform for open_datasync and open_sync.
Compare file sync methods using one 8kB write:
(in wal_sync_method preference order, except fdatasync
is Linux's default)
open_datasync 69.862 ops/sec
fdatasync 68.871 ops/sec
fsync 34.593 ops/sec
fsync_writethrough n/a
open_sync 26.595 ops/sec
Compare file sync methods using two 8kB writes:
(in wal_sync_method preference order, except fdatasync
is Linux's default)
open_datasync 26.872 ops/sec
fdatasync 59.056 ops/sec
fsync 34.031 ops/sec
fsync_writethrough n/a
open_sync 17.284 ops/sec
Compare open_sync with different write sizes:
(This is designed to compare the cost of writing 16kB
in different write open_sync sizes.)
16kB open_sync write 7.412 ops/sec
8kB open_sync writes 3.942 ops/sec
4kB open_sync writes 8.700 ops/sec
2kB open_sync writes 4.161 ops/sec
1kB open_sync writes 1.492 ops/sec
Test if fsync on non-write file descriptor is honored:
(If the times are similar, fsync() can sync data written
on a different descriptor.)
write, fsync, close 35.086 ops/sec
write, close, fsync 34.043 ops/sec
Non-Sync'ed 8kB writes:
write 240544.985 ops/sec
Konfigurasi server:
CPU: Intel(R) Core(TM) i7-3770 CPU @ 3.40GHz
RAM: 32GB
Disk: 2x 2TB SATA disk in Software RAID 1
Mesin yang digunakan untuk perbandingan adalah i5 dengan 16GB RAM dan disk SATA biasa (tidak ada serangan).
Info lebih lanjut:
- OS: Server Ubuntu 12.10
- Kernel: Linux ... 3.5.0-22-generik # 34-Ubuntu SMP Sel 8 Jan 21:47:00 UTC 2013 x86_64 x86_64 x86_64 GNU / Linux
- RAID Perangkat Lunak 1
- Filesystem adalah ext4
- Tidak ada opsi pemasangan lain yang ditentukan.
- Postgres versi 9.1
- Linux mdadm raid
Output dari dump2efs:
dumpe2fs 1.42.5 (29-Jul-2012)
Filesystem volume name: <none>
Last mounted on: /
Filesystem UUID: 16e30b20-0531-4bcc-877a-818e1f5d5fb2
Filesystem magic number: 0xEF53
Filesystem revision #: 1 (dynamic)
Filesystem features: has_journal ext_attr resize_inode dir_index filetype needs_recovery extent flex_bg sparse_super large_file huge_file uninit_bg dir_nlink extra_isize
Filesystem flags: signed_directory_hash
Default mount options: (none)
Filesystem state: clean
Errors behavior: Continue
Filesystem OS type: Linux
Inode count: 182329344
Block count: 729289039
Reserved block count: 36464451
Free blocks: 609235080
Free inodes: 182228152
First block: 0
Block size: 4096
Fragment size: 4096
Reserved GDT blocks: 850
Blocks per group: 32768
Fragments per group: 32768
Inodes per group: 8192
Inode blocks per group: 256
RAID stride: 1
Flex block group size: 16
Filesystem created: Sat Jan 19 12:42:19 2013
Last mount time: Wed Jan 23 16:23:11 2013
Last write time: Sat Jan 19 12:46:13 2013
Mount count: 8
Maximum mount count: 30
Last checked: Sat Jan 19 12:42:19 2013
Check interval: 15552000 (6 months)
Next check after: Thu Jul 18 13:42:19 2013
Lifetime writes: 257 GB
Reserved blocks uid: 0 (user root)
Reserved blocks gid: 0 (group root)
First inode: 11
Inode size: 128
Journal inode: 8
First orphan inode: 17304375
Default directory hash: half_md4
Directory Hash Seed: a71fa518-7696-4a28-bd89-b21c10d4265b
Journal backup: inode blocks
Journal features: journal_incompat_revoke
Journal size: 128M
Journal length: 32768
Journal sequence: 0x000df5a4
Journal start: 31733
Mdadm - output detail:
/dev/md2:
Version : 1.2
Creation Time : Sat Jan 19 12:42:05 2013
Raid Level : raid1
Array Size : 2917156159 (2782.02 GiB 2987.17 GB)
Used Dev Size : 2917156159 (2782.02 GiB 2987.17 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Update Time : Fri Mar 22 11:16:45 2013
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Name : rescue:2
UUID : d87b98e7:d584a4ed:5dac7907:ae5639b0
Events : 38
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
Pembaruan 2013-03-25 : Saya menjalankan tes cerdas lama pada kedua disk, yang mengungkapkan tidak ada masalah. Kedua disk berasal dari Seagate, model: ST3000DM001-9YN166.
Pembaruan 2013-03-27 : Saya menjalankan pg_test_fsync versi terbaru (9.2.3) pada mesin yang benar-benar idle:
$ ./pg_test_fsync -s 3
3 seconds per test
O_DIRECT supported on this platform for open_datasync and open_sync.
Compare file sync methods using one 8kB write:
(in wal_sync_method preference order, except fdatasync
is Linux's default)
open_datasync 39.650 ops/sec
fdatasync 34.283 ops/sec
fsync 19.309 ops/sec
fsync_writethrough n/a
open_sync 55.271 ops/sec
Ini sedikit lebih baik dari sebelumnya, tetapi masih menyedihkan. Partisi pada kedua disk diselaraskan:
$ sudo parted /dev/sdb unit s print
Model: ATA ST3000DM001-9YN1 (scsi)
Disk /dev/sdb: 5860533168s
Sector size (logical/physical): 512B/4096B
Partition Table: gpt
Number Start End Size File system Name Flags
4 2048s 4095s 2048s bios_grub
1 4096s 25169919s 25165824s raid
2 25169920s 26218495s 1048576s raid
3 26218496s 5860533134s 5834314639s raid
Mount -v output:
$ mount -v | grep ^/dev/
/dev/md2 on / type ext4 (rw,noatime)
/dev/md1 on /boot type ext3 (rw)
Perangkat md2 digunakan untuk pengujian. Pergi untuk menghancurkan partisi swap dan menjalankan pg_test_fsync pada disk individu.
Jika saya menjalankan pg_test_fsync pada kedua disk secara terpisah, saya mendapatkan kinerja yang kurang lebih sama, partisi itu dipasang dengan noatime:
$ pg_test_fsync/pg_test_fsync -s 3
3 seconds per test
O_DIRECT supported on this platform for open_datasync and open_sync.
Compare file sync methods using one 8kB write:
(in wal_sync_method preference order, except fdatasync
is Linux's default)
open_datasync 75.111 ops/sec
fdatasync 71.925 ops/sec
fsync 37.352 ops/sec
fsync_writethrough n/a
open_sync 33.746 ops/sec
Compare file sync methods using two 8kB writes:
(in wal_sync_method preference order, except fdatasync
is Linux's default)
open_datasync 38.204 ops/sec
fdatasync 49.907 ops/sec
fsync 32.126 ops/sec
fsync_writethrough n/a
open_sync 13.642 ops/sec
Compare open_sync with different write sizes:
(This is designed to compare the cost of writing 16kB
in different write open_sync sizes.)
1 * 16kB open_sync write 25.325 ops/sec
2 * 8kB open_sync writes 12.539 ops/sec
4 * 4kB open_sync writes 6.207 ops/sec
8 * 2kB open_sync writes 3.098 ops/sec
16 * 1kB open_sync writes 1.208 ops/sec
Test if fsync on non-write file descriptor is honored:
(If the times are similar, fsync() can sync data written
on a different descriptor.)
write, fsync, close 27.275 ops/sec
write, close, fsync 20.561 ops/sec
Non-Sync'ed 8kB writes:
write 562902.020 ops/sec
Setelah menjalankan tes beberapa kali, baik pada array dan pada disk tunggal, angka-angka tersebut tampaknya sangat bervariasi. Kasus terburuk kinerjanya sekitar 50% dari apa yang saya posting di sini (sekitar 30 ops / s untuk tes pertama.) Apakah ini normal? Mesin benar-benar idle, sepanjang waktu.
Juga, sesuai dengan output dmesg, controller berada dalam mode AHCI.
sumber
mdadm
ataudmraid
? Sesuatu yang spesifik vendor? Sesuatu yang lain Versi PostgreSQL Anda dan versi host OS akan membantu juga.Jawaban:
Server memiliki
fsync
kinerja yang luar biasa, tidak terkatakan, dan sangat lambat . Ada sesuatu yang sangat salah dengan pengaturan RAID 1 perangkat lunak Anda.fsync
Performa yang buruk hampir pasti merupakan penyebab masalah kinerja Anda.Desktop hanya memiliki sangat lambat
fsync
.Anda dapat mengatasi masalah kinerja dengan mengorbankan beberapa data setelah macet dengan menyetel
synchronous_commit = off
dan mengatur acommit_delay
. Anda benar - benar perlu memilah-milah kinerja disk di server, meskipun, itu sangat lambat.Sebagai perbandingan, inilah yang saya dapatkan di laptop saya (i7, 8GB RAM, mid-range 128G SSD, pg_test_fsync dari 9.2):
Memang SSD ini mungkin bukan hard-power-loss-safe, tetapi tidak seperti SSD yang layak daya-fail-safe yang harganya sangat mahal ketika kita berbicara tentang biaya server.
sumber
smartctl -d ata -a /dev/sdx|less
dansmartctl -d ata -t long /dev/sdx
diikuti olehsleep 90m
atau apa pun yangsmartctl
memberitahu Anda diikuti oleh orang lain-d ata -a
untuk mendapatkan hasilnya).Ini adalah
pg_test_fsync
output di server saya, dengan konfigurasi yang sangat mirip - perangkat lunak Linux RAID1 pada 2 disk tingkat konsumen (WD10EZEX-00RKKA0
):Anda sudah menguji ini di server yang benar-benar siaga, bukan?
Mungkin Anda memiliki partisi yang tidak selaras. Memeriksa:
Ini adalah output dari server saya:
Periksa bahwa setiap angka dalam
Start
kolom dapat dibagi pada tahun 2048 (yang berarti 1MiB). Untuk penyelarasan 4096B yang baik dibagi dengan 4 sudah cukup, tetapi utilitas penyelarasan mulai partisi pada batas 1MiB.Mungkin juga Anda menggunakan opsi pemasangan non-standar, seperti
data=journal
, yang berdampak besar pada kinerja. Tampilkan Anda:mount -v | grep ^/dev/
. Ini adalah milikku:Mungkin salah satu disk Anda rusak. Buat satu partisi pada setiap disk tanpa RAID (mungkin Anda memesan beberapa partisi swap pada kedua disk - gunakan ini - toh tidak ada gunanya untuk RAID saat swap). Buat filesystem di sana dan jalankan
pg_test_fsync
di setiap drive - jika ada masalah maka yang baik harus menunggu ketika keduanya dicerminkan.Periksa apakah BIOS Anda diatur untuk menggunakan mode AHCI alih-alih mode IDE. Server akan mendapat manfaat dari Antrian Perintah Asli , yang tidak tersedia dalam mode IDE.
Abaikan perbandingan dengan SSD. Sangat konyol untuk membandingkan.
sumber
Saya tahu saya mungkin sudah terlambat untuk menjawab ini. Saya telah melihat masalah kinerja yang serupa dengan PostgreSQL dan MySQL, ketika menggunakan O_DIRECT. Saya membuat patokan mikro sistem menggunakan iozone dengan sinkronisasi tulis (- opsi + r) dan dengan dan tanpa O_DIRECT (opsi -I). Di bawah ini adalah dua perintah yang saya gunakan:
dan
Yang pertama adalah O_SYNC + O_DIRECT sedangkan yang kedua hanya O_SYNC. Dengan yang pertama saya mendapatkan sekitar 30MB / detik dan yang kedua saya mendapatkan sekitar 220MB / detik (drive SSD). Apa yang saya temukan adalah bahwa opsi has_journal pada lapisan ext4 menyebabkan masalah. Tidak tahu kenapa ...
Begitu saya mengeluarkan opsi ini, semuanya mulai bekerja dengan baik, baik pengujian mencapai dan mempertahankan 220MB / detik. Untuk mengambil opsi, Anda dapat menggunakan sesuatu seperti:
Anda dapat memberikan tes itu dan melihat apakah itu memecahkan masalah kinerja Anda.
sumber