Jaringan kami mengalami pemadaman singkat ketika salah satu rute BGP kami turun untuk waktu yang singkat kemarin. Untungnya koneksi kami gagal ke rute BGP sekunder kami setelah beberapa menit, dan rute utama mulai beroperasi setelah shut / no shut di sisi ISP.
Kami sedang menjalankan 2 switch Cisco 3750e stacked (backplane) yang menjalankan iOS 12.2 58.
Dalam percakapan saya dengan ISP kami, mereka tidak bisa memberikan jawaban pasti atas penyebabnya. Adakah yang bisa kita lakukan untuk menentukan penyebabnya agar kita terhindar dari masalah ini di masa depan?
Log pada saat kesalahan
172258: May 6 14:43:06: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Down BGP Notification sent
172259: May 6 14:43:06: %BGP-3-NOTIFICATION: sent to neighbor xxx.xxx.12.34 4/0 (hold time expired) 0 bytes
172260: May 6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Multicast topology base removed from session BGP Notification sent
172261: May 6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Unicast topology base removed from session BGP Notification sent
Log ketika ISP melakukan shut / no shut untuk mereset BGP di sisi mereka
172542: May 6 15:04:15: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to down
172543: May 6 15:04:16: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to down
172544: May 6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 DOWN on interface GigabitEthernet2/0/49 non DR
172545: May 6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 UP on interface GigabitEthernet2/0/49
172546: May 6 15:04:16: %PIM-5-DRCHG: DR change from neighbor 0.0.0.0 to xxx.xxx.12.35 on interface GigabitEthernet2/0/49
172547: May 6 15:04:18: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to up
172548: May 6 15:04:19: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to up
Log ketika koneksi BGP akhirnya beralih dari idle ke Up
172828: May 6 15:27:33: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Up
Antarmuka BGP di pihak kami (catatan: tidak ada CRC, tetes, tabrakan yang dilaporkan ...)
GigabitEthernet2/0/49 is up, line protocol is up (connected)
Hardware is Gigabit Ethernet, address is xxxx.xxxx
Internet address is xxx.xxx.12.35/31
MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
reliability 255/255, txload 1/255, rxload 3/255
Encapsulation ARPA, loopback not set
Keepalive not set
Full-duplex, 1000Mb/s, link type is auto, media type is 1000BaseLX SFP
input flow-control is off, output flow-control is unsupported
ARP type: ARPA, ARP Timeout 04:00:00
Last input 00:00:09, output 00:00:12, output hang never
Last clearing of "show interface" counters never
Input queue: 0/75/52/0 (size/max/drops/flushes); Total output drops: 0
Queueing strategy: fifo
Output queue: 0/40 (size/max)
5 minute input rate 14536000 bits/sec, 1655 packets/sec
5 minute output rate 1010000 bits/sec, 640 packets/sec
413176726 packets input, 428902543141 bytes, 0 no buffer
Received 143495 broadcasts (0 IP multicasts)
0 runts, 0 giants, 0 throttles
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
0 watchdog, 139275 multicast, 0 pause input
0 input packets with dribble condition detected
125748632 packets output, 42915625632 bytes, 0 underruns
0 output errors, 0 collisions, 0 interface resets
0 unknown protocol drops
0 babbles, 0 late collision, 0 deferred
0 lost carrier, 0 no carrier, 0 pause output
0 output buffer failures, 0 output buffers swapped out
sumber
Jawaban:
172259: 6 Mei 14:43:06:% BGP-3-PEMBERITAHUAN: dikirim ke tetangga xxx.xxx.12.34 4/0 (waktu tunggu kedaluwarsa) 0 byte
Itu biasanya berarti sisi lain koneksi tidak merespons ke keepalives apa pun di dalam penunda waktu (default 180 detik). Ada berbagai masalah yang bisa menyebabkan ini. Biasanya ini merupakan masalah keterjangkauan layer3. Jika itu terjadi lagi, Anda harus mengesampingkan masalah layer3 dengan menguji ke rekan melalui ping dan telnet (telnet ke port 179, lihat apakah itu merespons).
Jika ini bukan masalah keterjangkauan layer3, maka ada masalah dengan salah satu ujung tetangga (lebih mungkin sisi jauh dalam kasus ini).
sumber
Jika Anda hanya ingin 'me-root' masalah ini:
Anda mungkin ingin bertanya pada penyedia Anda apakah ada perubahan konfigurasi yang dibuat pada akhirnya segera sebelum ini terjadi. Ada contoh di router Cisco (tidak 100% yakin kode apa yang saat ini) di mana sesi BGP akan mengepak ketika satu sisi menghapus dan menambahkan kembali "rute-peta" dengan "mpls-ip" dan / atau "mtu" "konfigurasi dalam peering BGP. Meskipun pemeliharaan semacam itu seharusnya tidak menyebabkan masalah dengan sesi peering, saya telah mendengar kisah tentang hal ini terjadi.
Juga, saya tidak yakin mereka harus pergi sejauh untuk menjatuhkan antarmuka dan membawanya kembali untuk 'memperbaiki' masalah ini. Saya pikir hanya mengatur ulang sesi peering sudah cukup, tetapi jika tidak ada lalu lintas yang dilewati pada saat kegagalan, orang dapat berargumen bahwa tidak masalah bahwa mereka menjatuhkan antarmuka untuk membuat hal-hal bergulir lagi.
sumber
Ini bisa menjadi masalah MTU. Sudah beberapa saat yang lalu. Mulai dengan baik tetapi ketika UPDATE dengan banyak rute diterima itu hilang karena ketidakcocokan MTU. Juga jika Anda memiliki perangkat L2 (beralih? Konverter media?) Antara dua router Anda, mungkin saja koneksi terputus tanpa antarmuka turun.
sumber
Bukan dari apa yang saya lihat. Router ISP Anda berhenti merespons pesan halo dari router Anda, itulah sebabnya Anda kehilangan koneksi BGP Anda. Mungkin juga router Anda berhenti mendengarkan pesan halo dari ISP, tetapi saya tidak melihat sesuatu yang jelas dalam pesan yang akan membantu menunjukkan masalah dengan tepat. Mungkin seseorang yang lebih fokus pada jalur ISP dapat berkomentar dan menjelaskan?
sumber