Memecahkan masalah koneksi "Down BGP"

21

Jaringan kami mengalami pemadaman singkat ketika salah satu rute BGP kami turun untuk waktu yang singkat kemarin. Untungnya koneksi kami gagal ke rute BGP sekunder kami setelah beberapa menit, dan rute utama mulai beroperasi setelah shut / no shut di sisi ISP.

Kami sedang menjalankan 2 switch Cisco 3750e stacked (backplane) yang menjalankan iOS 12.2 58.

Dalam percakapan saya dengan ISP kami, mereka tidak bisa memberikan jawaban pasti atas penyebabnya. Adakah yang bisa kita lakukan untuk menentukan penyebabnya agar kita terhindar dari masalah ini di masa depan?

Log pada saat kesalahan

172258: May  6 14:43:06: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Down BGP Notification sent
172259: May  6 14:43:06: %BGP-3-NOTIFICATION: sent to neighbor xxx.xxx.12.34 4/0 (hold time expired) 0 bytes
172260: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Multicast topology base removed from session  BGP Notification sent
172261: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Unicast topology base removed from session  BGP Notification sent

Log ketika ISP melakukan shut / no shut untuk mereset BGP di sisi mereka

172542: May  6 15:04:15: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to down
172543: May  6 15:04:16: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to down
172544: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 DOWN on interface GigabitEthernet2/0/49 non DR
172545: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 UP on interface GigabitEthernet2/0/49 
172546: May  6 15:04:16: %PIM-5-DRCHG: DR change from neighbor 0.0.0.0 to xxx.xxx.12.35 on interface GigabitEthernet2/0/49
172547: May  6 15:04:18: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to up
172548: May  6 15:04:19: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to up

Log ketika koneksi BGP akhirnya beralih dari idle ke Up

172828: May  6 15:27:33: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Up

Antarmuka BGP di pihak kami (catatan: tidak ada CRC, tetes, tabrakan yang dilaporkan ...)

GigabitEthernet2/0/49 is up, line protocol is up (connected)
Hardware is Gigabit Ethernet, address is xxxx.xxxx
Internet address is xxx.xxx.12.35/31
MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
reliability 255/255, txload 1/255, rxload 3/255
Encapsulation ARPA, loopback not set
Keepalive not set
Full-duplex, 1000Mb/s, link type is auto, media type is 1000BaseLX SFP
input flow-control is off, output flow-control is unsupported
ARP type: ARPA, ARP Timeout 04:00:00
Last input 00:00:09, output 00:00:12, output hang never
Last clearing of "show interface" counters never
Input queue: 0/75/52/0 (size/max/drops/flushes); Total output drops: 0
Queueing strategy: fifo
Output queue: 0/40 (size/max)
5 minute input rate 14536000 bits/sec, 1655 packets/sec
5 minute output rate 1010000 bits/sec, 640 packets/sec
413176726 packets input, 428902543141 bytes, 0 no buffer
Received 143495 broadcasts (0 IP multicasts)
0 runts, 0 giants, 0 throttles
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
0 watchdog, 139275 multicast, 0 pause input
0 input packets with dribble condition detected
125748632 packets output, 42915625632 bytes, 0 underruns
0 output errors, 0 collisions, 0 interface resets
0 unknown protocol drops
0 babbles, 0 late collision, 0 deferred
0 lost carrier, 0 no carrier, 0 pause output
0 output buffer failures, 0 output buffers swapped out
John Lee
sumber
perhatikan ada diskusi di Meta (sudah!) tentang tag. Silakan pertimbangkan (atau buka meta dan bacalah) untuk membuat tag nomor model cisco Anda menjadi MANUFAC-MODELSERIES ... tidak yakin tentang 3750e, tapi mungkin seri 3700? Jadi "cisco-3700" untuk tag. Kalau tidak, itu akan menjadi lautan sup model perangkat keras. Harap simpan juga tag 'cisco' Anda, sehingga orang dapat mencari / mengikuti / berlangganan juga ke 'cisco'.
Craig Constantine
Dilakukan sesuai anjuran.
John Lee
Tidak disebutkan apakah 2 rekan BGP terhubung langsung atau tidak. Jika ada perangkat lain di antara mereka, sejumlah masalah yang mungkin bisa dihasilkan oleh mereka.
noaru
retagged sebagai cisco-3750 karena 3700 adalah model router yang lebih lama. Sakelar Catalyst adalah 3750.
Dave Noonan
@noaru 2 rekan BGP terhubung langsung.
John Lee

Jawaban:

19

172259: 6 Mei 14:43:06:% BGP-3-PEMBERITAHUAN: dikirim ke tetangga xxx.xxx.12.34 4/0 (waktu tunggu kedaluwarsa) 0 byte

Itu biasanya berarti sisi lain koneksi tidak merespons ke keepalives apa pun di dalam penunda waktu (default 180 detik). Ada berbagai masalah yang bisa menyebabkan ini. Biasanya ini merupakan masalah keterjangkauan layer3. Jika itu terjadi lagi, Anda harus mengesampingkan masalah layer3 dengan menguji ke rekan melalui ping dan telnet (telnet ke port 179, lihat apakah itu merespons).

Jika ini bukan masalah keterjangkauan layer3, maka ada masalah dengan salah satu ujung tetangga (lebih mungkin sisi jauh dalam kasus ini).

Justin Seabrook-Rocha
sumber
4

Jika Anda hanya ingin 'me-root' masalah ini:

Anda mungkin ingin bertanya pada penyedia Anda apakah ada perubahan konfigurasi yang dibuat pada akhirnya segera sebelum ini terjadi. Ada contoh di router Cisco (tidak 100% yakin kode apa yang saat ini) di mana sesi BGP akan mengepak ketika satu sisi menghapus dan menambahkan kembali "rute-peta" dengan "mpls-ip" dan / atau "mtu" "konfigurasi dalam peering BGP. Meskipun pemeliharaan semacam itu seharusnya tidak menyebabkan masalah dengan sesi peering, saya telah mendengar kisah tentang hal ini terjadi.

Juga, saya tidak yakin mereka harus pergi sejauh untuk menjatuhkan antarmuka dan membawanya kembali untuk 'memperbaiki' masalah ini. Saya pikir hanya mengatur ulang sesi peering sudah cukup, tetapi jika tidak ada lalu lintas yang dilewati pada saat kegagalan, orang dapat berargumen bahwa tidak masalah bahwa mereka menjatuhkan antarmuka untuk membuat hal-hal bergulir lagi.

GoatAtWork
sumber
Belum pernah mendengar tentang mengatur ulang sesi mengintip. Apakah mirip dengan yang disebutkan di sini? Tautan juga, apakah ini sesuatu yang bisa saya lakukan untuk mengatur ulang koneksi?
John Lee
1
Ini hanya 'b ip jelas bgp nei xx.xx.xx.xx', juga dikenal sebagai 'membersihkan sesi'. Ini hanya me-reset tetangga BGP (sulit menghapus sesi dan membangun kembali itu).
Justin Seabrook-Rocha
Pertanyaan cepat: apakah 'clear ip bgp nei' perlu dilakukan pada ISP atau dapatkah kita memulainya juga?
John Lee
Kedua ujung dapat memulai membersihkan sesi. Terkadang ketika hal-hal "aneh" terjadi, seperti halnya di sini, ada baiknya untuk mencobanya di kedua ujungnya. Saya akan melakukan masing-masing ujung satu per satu, hanya demi pemecahan masalah.
GoatAtWork
Perlu disebutkan bahwa Anda dapat melakukan soft reset (cukup tambahkan kata kunci 'soft' di akhir perintah) - itu memaksa mengirim ulang pembaruan tanpa merusak koneksi (dan hubungan tetangga).
noaru
4

Ini bisa menjadi masalah MTU. Sudah beberapa saat yang lalu. Mulai dengan baik tetapi ketika UPDATE dengan banyak rute diterima itu hilang karena ketidakcocokan MTU. Juga jika Anda memiliki perangkat L2 (beralih? Konverter media?) Antara dua router Anda, mungkin saja koneksi terputus tanpa antarmuka turun.

Sebastian Wiesinger
sumber
0

Bukan dari apa yang saya lihat. Router ISP Anda berhenti merespons pesan halo dari router Anda, itulah sebabnya Anda kehilangan koneksi BGP Anda. Mungkin juga router Anda berhenti mendengarkan pesan halo dari ISP, tetapi saya tidak melihat sesuatu yang jelas dalam pesan yang akan membantu menunjukkan masalah dengan tepat. Mungkin seseorang yang lebih fokus pada jalur ISP dapat berkomentar dan menjelaskan?

Avery Abbott
sumber
Maksud Anda keepalives, bukan halo pesan - ini BGP, bukan OSPF.
Niels
Terima kasih ya Terkadang saya sedikit campur aduk.
Avery Abbott