Saluran serat kesengsaraan jarak jauh

52

Saya membutuhkan sepasang mata yang segar.

Kami menggunakan jalur serat optik sepanjang 15 km yang dilewati fibrechannel dan 10GbE (multipleks optik CWDM). Untuk FC kami memiliki laser jarak jauh yang cocok hingga 40km ( Skylane SFCxx0404F0D ). Multiplexer dibatasi oleh SFP yang dapat melakukan maks. Fibrechannel 4Gb. Switch FC adalah seri Brocade 5000. Panjang gelombang masing-masing adalah 1550.1570.1590 dan 1610nm untuk FC dan 1530nm untuk 10GbE.

Masalahnya adalah kain 4GbFC hampir tidak pernah bersih. Terkadang mereka untuk sementara waktu bahkan dengan banyak lalu lintas pada mereka. Kemudian mereka mungkin tiba-tiba mulai menghasilkan kesalahan (RX CRC, pengkodean RX, RX disparity, ...) bahkan dengan hanya lalu lintas marginal pada mereka. Saya melampirkan beberapa grafik kesalahan dan lalu lintas. Kesalahan saat ini dalam urutan 50-100 kesalahan per 5 menit bila dengan lalu lintas 1Gb / dtk.


Optik

Berikut adalah output daya dari satu port yang dirangkum (dikumpulkan menggunakan sfpshowswitch yang berbeda)

SITE-A unit = uW (microwatt) SITE-B
********************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko)
      RX 95.2 TX 1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm (ok)
      RX 54.3 TX 1468.4      

Apa yang saya rasa ingin tahu pada titik ini adalah asimetri pada level daya. Sementara SW2 mentransmisikan dengan 1422uW yang diterima SW4 dengan 104uW, SW2 hanya menerima sinyal SW4 dengan daya asli yang sama hanya dengan 54uW.

Begitu juga sebaliknya untuk SW1-3.

Pokoknya SFP memiliki sensitivitas RX hingga -18dBm (sekitar 20uW) jadi dalam hal apa pun itu harus baik-baik saja ... Tapi tidak ada.

Beberapa SFP telah didiagnosis tidak berfungsi oleh pabrikan (yang 1550nm yang ditunjukkan di atas dengan "ko"). Yang 1610nm tampaknya ok, mereka telah diuji menggunakan generator lalu lintas. Garis yang disewa juga telah diuji lebih dari satu kali. Semua dalam toleransi. Saya menunggu penggantian tetapi karena alasan tertentu saya tidak percaya itu akan membuat segalanya lebih baik karena yang tampaknya baik tidak menghasilkan kesalahan NOL juga.

Sebelumnya ada peralatan aktif yang terlibat (semacam retimer 4GFC) sebelum memasang sinyal di telepon. Tidak tahu kenapa. Peralatan itu dihilangkan karena masalah sehingga kami sekarang hanya memiliki:

  • laser jarak jauh di saklar,
  • (baru) 10 m kabel LC-SC monomode ke mux (untuk setiap kain),
  • garis sewaan,
  • hal yang sama tetapi terbalik di sisi lain tautan.


Switch FC

Ini adalah konfigurasi port dari Brocade portcfgshow(jelas seperti itu di kedua sisi, tentu saja)

Nomor Area: 0
Tingkat Kecepatan: 4G
Isi Kata (Aktif) 0 (Diam-Diam)
Isi Kata (Sekarang) 0 (Diam-Diam)
AL_PA Offset 13: OFF
Port Batang AKTIF
LS Jarak Jauh
VC Link Init OFF
Diinginkan Jarak 32 Km
Buffer Cadangan 70
L_Port Dikunci MATI
G_Port Dikunci MATI
Dinonaktifkan E_Port OFF
E_Port Terkunci MATI
Mode ISL R_RDY OFF
RSCN Ditekan MATI
Nonaktifkan Terus-menerus MATI
LOS TOV mengaktifkan MATI
Kemampuan NPIV AKTIF
QOS E_Port OFF
Port Auto Disable: OFF
Batas Tingkat OFF
EX Port OFF
Port Cermin MATI
Pemulihan Kredit AKTIF
F_Port Buffer MATI
Penundaan Kesalahan: 0 (R_A_TOV)
Batas PP NPIV: 126
Mode CSCTL: OFF

Memaksa tautan ke 2GbFC tidak menghasilkan kesalahan, tetapi kami membeli 4GbFC dan kami menginginkan 4GbFC.

grafik kesalahan dan lalu lintas

Saya tidak tahu harus mencari ke mana lagi. Ada ide apa yang harus dicoba selanjutnya atau bagaimana melanjutkan?

Jika kita tidak dapat membuat 4GbFC berfungsi dengan andal, saya bertanya-tanya apa yang dilakukan orang-orang yang bekerja dengan 8 atau 16 ... Saya tidak berasumsi bahwa "beberapa kesalahan di sana-sini" dapat diterima.

Oh dan BTW kita berhubungan dengan semua produsen (switch FC, MUX, SFP, ...) Kecuali untuk SFP yang diubah (beberapa telah diubah sebelumnya) tidak ada yang tahu. Brocade SAN Health mengatakan kainnya ok. MUX, yah, itu pasif, hanya prisma, sifatnya yang terbaik.

Ada tembakan dalam gelap?


LAMPIRAN: Jawaban atas pertanyaan Anda

@ Chopper3: Ini adalah generasi kedua Brocades yang menunjukkan masalah. Sebelum kita memiliki 5.000, sekarang kita memiliki 5.100. Pada awalnya ketika kami masih memiliki MUX aktif, kami menyewa laser jarak jauh satu kali untuk memasangnya secara langsung untuk melakukan tes selama sehari, selama hari itu tentu saja itu bersih. Tapi seperti yang saya katakan, kadang bersih begitu saja. Dan terkadang tidak. Sakelar alternatif berarti membangun kembali seluruh SAN dengan yang hanya akan diuji. SFP alternatif, yah mereka susah didapat begitu saja.

@longneck: Salurannya disewa. Ini adalah serat gelap (9um monomode) sehingga tidak ada orang lain di dalamnya. Tentu ada splices. Saya tidak bisa pergi dan melihat tetapi saya harus percaya mereka telah dilakukan dengan benar. Seperti yang saya katakan, saluran telah diperiksa dan diperiksa ulang (menggunakan reflectometer domain-waktu optik). Jelas Anda tidak memiliki semua peralatan ini sendiri karena terlalu mahal.

@ mdpc: Menurut Anda, jenis kabel apa yang "salah"? Sampai ke switch semuanya monomode, ya. Konektornya juga benar. Ya saya tahu ada yang hijau di mana serat dipotong pada sudut tertentu dll. Tapi kami punya yang benar untuk semua yang saya tahu.


Laporan Kemajuan # 1

Kami telah memiliki dua fabric (= switch 2x2) dengan Brocade 5100 dengan FabricOS 6.4.1 dan dua fabric (switch 2x4 lainnya) pada FabricOS 7.0.2.

Pada ISL jarak jauh (satu di setiap fabric) ternyata dengan FOS 6.4.1 mengaturnya untuk jarak jauh mengeluarkan peringatan tentang pengaturan VC Init dan akibatnya kata isian. Tapi itu hanya peringatan. FOS 7.0.2 mengharuskan Anda untuk melakukan modifikasi pada VCI dan kata kunci untuk tautan jarak jauh.

Pengaturan FOS 6.4.1 ke pengaturan LS (jarak statis jarak jauh) dengan pengaturan VCI dan fillword yang salah membuat seluruh fabric tidak beroperasi (terjebak dalam loop SCN, gunakan fabriclog -suntuk melihat, Anda tidak melihatnya di tempat lain, tidak ada kesalahan port counter atau apapun yang meningkat).

Saat ini saya memberikan satu kain dengan pengaturan yang lebih benar IMHO pemukulan dan tampaknya baik-baik saja, sedangkan yang lain tanpa banyak lalu lintas masih memiliki kesalahan di sana-sini.

kemajuan1

Pendeknya:

  • Kami telah menghilangkan bagian aktif dari MUX (retimer FC).
  • Kami menempatkan SFP jarak jauh ke dalam peralatan akhir sendiri.
  • Hanya untuk memastikan kami membeli kabel monomode baru untuk menghubungkan peralatan akhir ke bagian pasif tersisa dari MUX.
  • Kami sekarang mencoba beberapa konfigurasi jarak jauh.

Itu hampir sihir hitam. Segala sesuatu yang terjadi sebagian besar empiris, tidak ada yang tahu apa alasan yang tepat untuk melakukan sesuatu. ("Kami telah mencoba ini, dan itu tidak berhasil, kemudian kami mencobanya dan itu berhasil, jadi kami terjebak dengan itu." Tapi sepertinya tidak ada yang tahu mengapa.)

Saya akan membuat Anda diperbarui.


Laporan Kemajuan # 2

Kami mendapat laser baru untuk salah satu kain dengan garansi. Ini sangat bersih bahkan pada 4GbFC.

Mereka mentransmisikan dengan sekitar 2mW (3dBm) sedangkan yang lain hanya pada 1,5mW (1.5dBm) meskipun itu seharusnya sudah cukup.

Kain lainnya (di mana laser tampaknya ok) masih jarang memproduksi satu atau dua CRC.

Menggunakan sfpshowSFP menghasilkan kesalahan RX yang sebenarnya

Status / Ctrl: 0x82
Bendera alarm [0,1] = 0x5, 0x40
Peringatkan Bendera [0,1] = 0x5, 0x40

Sekarang saya harus mencari tahu apa artinya itu. Tidak yakin apakah itu ada di sana sebelumnya.

Yah pertama-tama aku akan menjernihkan kepalaku dengan liburan selama seminggu. 8-)

Marki
sumber
8
Pertama-tama, pertanyaan yang bagus, untuk apa situs ini dibuat, dilakukan dengan baik. Kedua, apakah Anda memiliki akses ke sakelar alternatif / SFP - idealnya merek / model lain yang dapat Anda tukar untuk menguji?
Chopper3
4
Pembaruan hebat, tetap bekerja dengan baik, berharap saya punya beberapa saran atau saran tetapi Anda berada di jalur yang benar, senang menemukan pengguna baru di SF yang mengetahui barang-barang mereka :)
Chopper3
1
Apakah ada konsistensi dalam waktu atau durasi kesalahan? Apakah mereka selalu terjadi pada jam N? Apakah mereka selalu bertahan X menit? Bisakah Anda menghubungkannya dengan cuaca, acara olahraga terdekat, atau fenomena lainnya? Masalah yang terputus-putus adalah bug yang paling sulit untuk diatasi, dan saya biasanya mulai menyerang mereka dengan membuat grafik waktu dan durasi yang muncul di papan tulis. Semoga patters muncul yang bisa dikorelasikan dengan fenomena lain .
dotancohen
2
Apakah Anda melacak mereka di papan tulis, terlihat oleh semua orang ? Saya tidak akan menekan, tapi saya sangat merekomendasikannya. Seperti yang Anda katakan, Anda memerlukan sepasang mata baru dan mungkin seseorang di organisasi Anda akan melihat pola muncul dari waktu / lama, dan tidak harus dari gejala.
dotancohen
1
Hai Marki. Saya tidak sepenuhnya akrab dengan apa yang Anda bicarakan, tetapi dengan pembaruan terakhir Anda sepertinya masalah telah diperbaiki oleh SFP pengganti? Jika demikian, mungkin ide yang bagus untuk memposting ini sebagai jawaban dan ajukan pertanyaan baru jika Anda memiliki masalah lebih lanjut.
Mark Henderson

Jawaban:

4

Ok, saya kira saya perlu mengirim jawaban. Dalam satu kata itu adalah: ngotot .

Masalahnya tidak terselesaikan 100% sesuai dengan keinginan saya, karena kami masih memiliki satu fabric dengan 1 (satu) kesalahan CRC secara sporadis. Yang lainnya bersih. Tapi saya bisa hidup dengan itu.

Bagaimanapun kami tidak akan terus menggunakan unit CWDM untuk waktu yang sangat lama, tetapi beralih ke multiplexer DWDM pasif tahun depan karena infrastruktur kami akan banyak berubah. Rupanya laser DWDM lebih murah daripada yang CWDM juga. Oh kita akan melihat dan mungkin saya akan memiliki banyak masalah untuk bertanya kepada Anda :-)


Perbarui Tidak ke atas, kami membeli CWDM lagi, dan itu benar-benar lebih murah. Namun AFAICS untuk aplikasi tertentu, Anda harus menggunakan DWDM karena tidak ada laser CWDM untuk itu. Akhirnya kami mencoba untuk sedekat mungkin dengan pabriknya dan semuanya mencapai sekitar 1/5 dari harga dibandingkan dengan membeli dari distributor atau bahkan integrator.


Jadi saya bisa menyimpulkan, jika Anda membeli solusi yang tidak berfungsi seperti yang diharapkan: bersikeras. Di sisi teknis kami melakukan dua hal

  • hapus bagian aktif dari MUX (tidak bisa mengatakan saya menyesal, tetapi juga tidak yakin apakah itu akhirnya sumber kesalahan lain atau tidak)
  • periksalah SFP secara menyeluruh

(Dan tentu saja semua diagnostik standar, ubah satu per satu, lihat apa yang terjadi, dll., Tidak perlu memberi tahu Anda. Jadi, kami memeriksa setiap saluran dan kabel dll., Sayangnya dengan biaya kami.)

Dalam hal ini diperlukan waktu yang lama untuk memaksa tetapi akhirnya kami sampai pada tingkat di mana pabrikan sendiri menyelamatkan beberapa orang dan beberapa peralatan untuk melakukan pemeriksaan yang membantu. Dan tentu saja kami memiliki integrator membayar itu, karena perangkat keras kami sedang dalam pemeliharaan. Jadi ini merupakan tantangan komersial seperti halnya tantangan teknis.

PS. Oh dan, bendera yang saya sebutkan di pembaruan terakhir saya tidak menunjukkan sesuatu yang buruk, tapi saya tidak ingat apa artinya sebenarnya. Ketika saya menemukan pernyataan itu, saya akan memperbarui jawabannya demi kelengkapan.


Pada akhirnya, bendera itu berarti sesuatu yang buruk. Namun ternyata tidak pasti sisi mana dari tautan tersebut yang menjadi penyebab kesalahan tersebut. Jadi pasangan itu harus diubah juga.

Oh dan BTW, transceiver 8GbFC DWDM hanya lebih murah dibandingkan dengan 8G CWDM ;-) Cara termurah untuk pergi adalah 4GbFC pada CWDM dan kemudian menggunakan trunking ISL (jika Anda memiliki lisensi)

Marki
sumber
Sayangnya, saya tidak melihat ini ketika ditanya. Saya tidak dapat memberi tahu Anda dengan pasti bahwa ini akan membantu, tetapi jika Anda menggunakan kata-kata iseng-iseng, Anda mengirim banyak cahaya. Ini berarti bahwa setiap kerangka yang tidak digunakan menarik banyak daya dan menghasilkan banyak panas pada SFP, saya pikir. Mengubah fillword ke beberapa mode lain (saya menggunakan mode 3, tetapi saya memiliki sakelar dan SFP yang berbeda) mungkin memungkinkan Anda untuk mendorong lebih banyak throughput dengan lebih sedikit kesalahan.
Basil
@Basil Saya tahu menggunakan fillword yang benar adalah masalah untuk sinkronisasi kata di 8GFC tapi saya sudah memikirkannya seperti ini ...
Marki
Disarankan kapan saja Anda dapat menggunakannya - sejauh yang saya tahu, ini adalah pertanyaan tentang berapa banyak gangguan yang menyebabkan frame idle dibuat SFP-nya.
Basil