Bagaimana cara saya memecah (setengah dari) jaringan saya?

11

Saya mencari beberapa saran pasca-acara sehingga acara ini tidak terulang lagi.

Kami memiliki inti jaringan dua switch Cisco 4500x, yang dikonfigurasi untuk redundansi VSS. Dari itu, kami memiliki perangkat iSCSI, bladecenter HP kami untuk vSphere kami, ditambah tautan gabungan ke sakelar akses pengguna kami, dan sepasang sakelar 4948e untuk perangkat tembaga di ruang server kami. Dari 4948es kami memiliki sepasang 2960 sakelar untuk dua tautan ISP, dan sepasang ASA sebagai firewall. Redundansi yang lumayan, kecuali banyak perangkat yang tersambung ke 4948e hanya memiliki NIC tunggal - hanya itu yang bisa kita lakukan.

Kami sedang bersiap untuk mengganti sakelar akses pengguna kami saat ini (Ekstrem lama) dengan Meraki. Kami juga menerapkan Meraki AP untuk mengganti Arubas kami saat ini. Bagian dari proyek nirkabel melibatkan pembuatan beberapa VLAN dan subnet baru, untuk manajemen AP dan nirkabel tamu.

Kami memiliki dua VLAN yang ditentukan (20 dan 40) pada 4500x yang tidak digunakan di mana pun - mengkonfirmasikan bahwa subnet kosong, tidak ada port yang menggunakannya, dll. Saya masuk ke 4500x dan mengeluarkan " no interface vlan 20", lalu membangunnya kembali dengan subnet Aku ingin. Saya kemudian menambahkannya ke dua port 10Gb yang terhubung ke Meraki

switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>

Saya perhatikan bahwa 20 dan 40 VLAN dimatikan, jadi saya mengeluarkannya no shutdown. Saya kehilangan akses ke Merakis pada saat itu, jadi saya menyadari bahwa saya belum menambahkan VLAN ke antarmuka saluran port untuk tautan itu.

Setengah dari lingkungan kita menjadi tidak terjangkau pada saat ini

Tautan Internet kami menjadi sangat flakey. Telepon VoIP Avaya kami tidak dapat melakukan panggilan masuk atau keluar. Kami memiliki beberapa perangkat iSCSI yang terhubung dengan tembaga yang menjadi tidak tersedia - tidak ada pemadaman untuk apa pun yang dihadapi pengguna, tetapi cadangan dan arsip e-mail kami terpengaruh. Saya masuk ke ruang server, dan memutus Merakis dari 4500x (mencabut kedua port fiber 10Gb) jika saya entah bagaimana membuat loop - tidak ada perubahan. Saya akui hanya menatap ini sebentar pada saat itu.

Saya menarik Orion dan mencatat bahwa salah satu sakelar eksternal kami (Cat2960) dan salah satu pasangan ASA kami juga turun. Tampaknya kami memiliki beberapa kehilangan konektivitas LAN parsial, tetapi pasangan ASA juga terhubung dengan crossover satu sama lain, dan uplink mereka tidak turun, sehingga mereka tidak gagal terhadap apa yang bisa dicapai oleh perangkat internal kami. Saya mematikan "down" ASA dan internet menjadi terjangkau kembali.

Saya menelepon TAC, dan setelah beberapa jam berkutat dengan teknologi yang menjaga nitpicking setiap konfigurasi port untuk setiap host yang jatuh, saya menunjukkan kepadanya pada 4500x, saya login ke salah satu switch 4948e kami dan menunjukkan bagaimana ia tidak bisa melakukan ping sesuatu yang terhubung langsung ke atas - salah satu perangkat iSCSI tembaga berbasis Windows kami, antarmuka iLO pada bladecenter kami, dll.

Dia telah melihat log dan tidak menemukan apa pun, tetapi pada titik ini dia berkata "Sepertinya bug spanning-tree bahkan jika saya tidak melihat itu dalam log", jadi kami reboot 4948e dan semuanya langsung Host yang terhubung tidak dapat dihubungi - termasuk kabinet Avaya, jadi ponsel kami mulai berfungsi kembali. Kami masih memiliki masalah dalam perangkat yang terhubung dengan serat 4500x - jalur mati, karena semuanya berlebihan. Dia ingin menghidupkan siklus itu dengan tidak berterima kasih, tetapi ini memiliki 10 Gbit iSCSI kami, dan itu akan membuat lingkungan vSphere kami (pada dasarnya semua server kami) mengalami minggu yang buruk. Saya membujuknya untuk melakukan pergantian redundansi yang anggun, yang menangani masalah yang tersisa.

TL; DR: Saya membuat perubahan yang cukup berbahaya pada inti kami, dan menyebabkan masalah yang mengerikan. Apakah saya membuat kesalahan konfigurasi yang seharusnya diprediksi menyebabkan hal ini - misalnya, jika saya tidak mematikan VLAN terlebih dahulu dan menambahkannya ke portchannel dan kemudian port, apakah ini akan dihindari? Teknologi Cisco tidak mengatakan itu; katanya, dengan waktu lebih dari satu tahun dan versi iOS lama, situasi seperti ini tidak mengejutkan.

4500x: Perangkat Lunak Cisco IOS, Perangkat Lunak IOS-XE, Catalyst 4500 L3 Switch Software (cat4500e-UNIVERSALK9-M), Versi 03.04.05.SG SIARAN PERANGKAT LUNAK (fc1) ROM: 15.0 (1r) SG10

4948e: Perangkat Lunak Cisco IOS, Perangkat Lunak Catalyst 4500 L3 Switch (cat4500e-IPBASEK9-M), Versi 15.0 (2) SG10, RELEASE SOFTWARE (fc1) ROM: 12.2 (44r) SG11

mfinni
sumber

Jawaban:

5

Kedengarannya seperti Anda membuat badai siaran, dan satu-satunya cara untuk menghentikannya adalah mematikan saklar. Setelah menjalani beberapa kali ini, kami telah mengadopsi beberapa praktik terbaik yang direkomendasikan oleh Cisco:

  • Anda hanya perlu memiliki perpanjangan VLAN ke sakelar akses tunggal. Anda dapat memiliki VLAN sebanyak yang Anda suka di sakelar akses, tetapi VLAN di sakelar akses mana pun tidak boleh di-trunk ke sakelar akses lainnya, hanya ke sakelar distribusi. Menerapkan ini dengan secara manual menonaktifkan semua VLAN lainnya di bagasi dengan switchport trunk allowed vlan perintah.
  • Sakelar distribusi tidak boleh memiliki antarmuka akses di atasnya, hanya antarmuka saluran distribusi.
  • Jangan gunakan VTP (setel semua sakelar ke transparentmode).
  • Antarmuka akses Anda seharusnya sudah portfastdan bpduguard aktif. Anda dapat mengaktifkannya secara global untuk semua antarmuka akses Anda, dan antarmuka trunk Anda akan tetap tidak terpengaruh. Jika Anda secara tidak sengaja menghubungkan switch ke antarmuka akses, ini akan menyebabkan antarmuka masuk err-diabledan mencegah loop STP.
  • Jangan sambungkan sakelar akses ke sakelar akses lain. Hanya sambungkan sakelar akses ke sakelar distribusi, dan hanya pada antarmuka trunk.

Praktik terbaik ini akan mencegah hampir semua masalah STP, dan mengisolasi setiap masalah yang terjadi pada saklar akses tunggal.

Ron Maupin
sumber
2
Ah iya. Suatu hari, saya berharap dapat bekerja pada jaringan yang memiliki cukup uang, tidak ada aplikasi "aneh" (yaitu, L2), komunitas pengguna yang patuh, dan dukungan manajemen yang memadai untuk mengikuti semua yang direkomendasikan, praktik akal sehat. Suatu hari.
Ron Trunk
1. Saran pertama tentang VLAN dan sakelar akses, saya tidak yakin saya mengerti.
mfinni
2. "Distribusi" kami mungkin adalah 4500x kami, yang sebagian besar adalah batang tetapi memiliki beberapa koneksi serat iSCSI.
mfinni
3. Hindari VTP - akan mempertimbangkan, jangan berpikir ada sesuatu yang diatur "transparan" hari ini
mfinni
4. portfast dan bdpuguard - akan meninjau saran ini juga
mfinni
3

Selain saran luar biasa Ron Maupin di atas, saya juga menemukan beberapa posting di forum Cisco tentang potensi kesalahan besar yang saya buat dalam proses. Saya menambahkan VLAN ke antarmuka port fisik terlebih dahulu, bukan antarmuka port-channel yang menjadi anggotanya. Yang terakhir adalah cara yang tepat untuk melakukannya, dan saya mungkin telah menyebabkan masalah.

mfinni
sumber
2
Anda dapat melakukannya dengan cara yang Anda lakukan, jika antarmuka anggota sedang down. Secara umum, saya telah menemukan bahwa saya ingin antarmuka anggota turun, melakukan semua konfigurasi, termasuk saluran port, kemudian, setelah semua yang saya inginkan, bawa semuanya.
Ron Maupin