Soru Ağ donanımı hızları veya sabit hızları “otomatik” olarak ayarlamalı mı?


Biz son zamanlarda küçük bir sorun vardı Birden fazla sunucunun aralıklı olarak ağrılı bir şekilde (ağrılı bir şekilde yeniden başlatılması) ağ bağlantısının kesileceği ağ iletişimi ile. Bu, iki hafta boyunca farklı sunucularda rastgele görünüyor. Farkına varabileceğimiz belirli bir desen yok.

Bazıları kazmaya başladıktan sonra, anahtarın sorun limiti için 100 Mbps olduğunu bildirdik:

Bu, Joel Spolsky makalesinde yaşananlara benziyor. Beş whys

Michael bir süre otopsi yaparken biraz zaman geçirdi ve sorunun anahtarda basit bir yapılandırma sorunu olduğunu keşfetti. Bir anahtarın iletişim kurmak için kullanabileceği birkaç olası hız vardır (10, 100 veya 1000 megabit / saniye). Hızı manuel olarak ayarlayabilir veya anahtarın her iki tarafın da birlikte çalışabileceği en yüksek hızı otomatik olarak ayarlayabilmesini sağlayabilirsiniz. Başarısız olan anahtar, autongotiate olarak ayarlanmıştı. Bu genellikle çalışır, ancak her zaman değil, 10 Ocak sabahı da işe yaramadı.

Şimdi var otomatik anlaşmayı devre dışı bırak ağ donanımımızda ve sabit bir 1000 Mbps hızında (gigabit).

Daha fazla sunucu donanım ağı uzmanlığı olanlara sorularım:

  1. Modern ağ donanımı ile sorunları otomatik olarak nasıl pazarlar?
  2. Ağ kurmayı ayarlarken otomatik olarak anlaşmayı devre dışı bırakmak ve sabit hızları ayarlamak için iyi bir standart ağ uygulaması mıdır?

87
2018-01-25 18:57


Menşei


Sunucularınızda otomatik olarak anlaşmayı devre dışı bıraktınız ve bunları 1000 / tam olarak mı sabitlediniz? - James
Bu sadece benim, ama eğer senin probleminle karşılaşırsam anahtarın ve sunucunun neden en yüksek öncelikli hızda (1000 / tam) pazarlık yapmıyor olduğunu merak ediyorum. Bu bana bir şeyin kırıldığını ve bağlantıyı belirli bir hıza zorlayarak bir sorunu çözdüğünü söylüyor. - Doug Luxem
Bilinen senaryolarda autongotiation ile ilgili problemleri olan bazı platformlar (özellikle Solaris 9) var - sadece son on yılda yapılan bir şeyle autoneg kullanıyorum. - warren
Neredeyse bana pembe olan bir şey oldu: serverfault.com/questions/328105/ethernet-interface-errors - nixnotwin


Cevaplar:


  1. Ağ hızlarının otomatik olarak müzakere edilmemesiyle ilgili bir sorun görmemekteyim: (a) bağlantının bir ucunda el ile uyumsuzluk ve diğerinde otomatik veya (b) bağlantının başarısız bir bileşeni. kablo, port vb.

  2. Bu, yöneticiye bağlıdır, ancak deneyimlerim, bağlantı hızlarını ve dupleks ayarlarını manuel olarak belirlerseniz, hız uyuşmazlıkları ile karşılaşmanızın gerekmediğini gösterdi. Niye ya? Anahtarlar ve sunucular arasındaki çeşitli bağlantıları belgelemek ve ardından değişiklik yaparken bu belgeleri izlemek neredeyse imkansızdır. Gördüğüm çoğu arıza 1 (a) 'dan dolayıdır ve siz sadece hız / dupleks ayarlarını manuel olarak başlattığınızda bu duruma girersiniz.

Olarak belirtildiği gibi Cisco belgeleri:

Otomatik kırmayı devre dışı bırakırsanız, bağlantı damlalarını ve diğer fiziksel katman sorunlarını gizler. Yalnızca Gigabit autongotiation'ı desteklemeyen eski Gigabit NIC'ler gibi son cihazlara otomatik olarak izin vermeyi devre dışı bırakın. Fiziksel katman sorunları algılanamadığından ve ağaç döngülerinin yayılmasına neden olabileceğinden, kesinlikle gerekli olmadıkça anahtarlar arasındaki otonomayı devre dışı bırakmayın.

Hız / dupleks doğrulamasını gerektiren (ve akış kontrolünü unutmayan) ağ değişiklikleri için bir değişim yönetim sistemi kurmaya hazır değilseniz veya tüm ağ cihazlarında bu ayarları manuel olarak belirterek gelen zaman zaman uyumsuzluklarla uğraşmaya istekli değilseniz, sonra otomatik / otomatik varsayılan yapılandırma ile sopa.

Gelecekte, anahtar bağlantı noktalarındaki hataları izlemeye dikkat edin. MRTG Bu nedenle, bir sorun yaşamadan bu sorunları tespit edebilirsiniz.

Düzenle: Eski ekipman üzerinde görüşme başarısızlıklarına başvuran bir çok insan görüyorum. Evet, bu standartlar oluşturulduğunda ve onları takip eden tüm cihazlar uzun zaman önce bir sorun oldu. NIC'leriniz ve anahtarlarınız 10 yaşından küçük mü? Eğer öyleyse, bu bir sorun olmaz.


101
2018-01-25 19:15



Kaktüsler, yapılandırma karmaşası olmadan MRTG'dir, bu yüzden iyi olmalıdır. Sadece RX düşüşlerini ve hatalarını, TX çarpışmalarını vb. İzlemeye başlayabilirsiniz. Eğer bir müzakere probleminiz varsa, bu sayaçların bir veya daha fazlası "yüksek" olacaktır. Limandaki trafik miktarına göre yüksek. - Doug Luxem
@EK - Yapı anahtarında ve cihazda yapılmalıdır. Cihazın değiştirilmesi (veya sadece sürücü / bellenimin güncellenmesi), portların taşınması veya anahtarın değiştirilmesi, uyumsuz ayarlarla ilgili endişelerinizdir. Neden bu kadar çok hata gördüğünüzden emin değilim - biz burada HP, Cisco, Extreme ve Juniper kullanıyoruz ve otomatik olarak sorunları otomatik olarak göremiyorum. Gördüğüm tek sorun, bağlantının bir ucunun elle ayarlanmasıdır. Cisco Doc'un da belirttiği gibi, belki de bazı L1 sorunlarınız var mı? - Doug Luxem
HP, Cisco ve Dell anahtarlarını kullanan deneyimim w / DLux ile eşleşiyor. Bir sürü başka insanın da aynı şekilde hissettirdiği varsayımları tahmin ediyorum. İbadetlerin dini olarak sabitlenmiş liman hızları / dublekslerinin her şeyin her şeyi otomatik hale getirmek için ayarlandığı ağlara göre her zaman çok daha fazla sorunla karşılaştığı ağlar. - Evan Anderson
@Whisk WAN bağlantıları farklı bir hikaye. Bazı sağlayıcılardan ethernet bağlantılarını verdiğinizde, genellikle manuel olarak zorlanırlar veya otomatik müzakereyi desteklemeyen bir alıcı-verici kullanırlar. Bu durumların çoğu vaka bazında ele alınmalıdır. - Doug Luxem
Sanırım oylama, bazı insanların 1 ya da 2 satıcıdan oluşan bir donanım lüksüne sahip olacakları (ya da sadece fazla tecrübeli olmadıkları) ve hiçbir zaman bir sorun görmeyecekleri gibi bir yanıltıcıdır. bazı kombinasyonlarda yanlış davranır. - JamesRyan


  1. Çok yaygın, yıllar boyunca çeşitli donanım türleriyle çok sayıda sorun yaşadım.

  2. Bence kurulum statik (yani bir sunucu rafı) ise ve değişiklik olacağını düşünmüyorsanız, hız ve dupleksleri manuel olarak ayarlamak iyi bir fikirdir. İyi belgelendiği sürece, gelecekteki sorunlar önlenebilir.

DÜZENLE:

Sadece açıklığa kavuşturmak için, tüm ağınızdaki manuel hızları kullanmayı savunmuyorum, otomatik / otomatik zamanın% 95'inin gideceği yol olduğunu söyleyebilirim. Sadece dubleks / hız sorunları yaşadığımı ve çoğunlukla manuel ayarlara sahip ağımın (yani sunucu raflarımızdan biri) küçük bölümleri olduğunu söylüyorum. Kullanılmayan portların kapatıldığı çok sıkı kontrol edilen bir LAN kullanıyoruz ve portların çoğunda MAC-Filtreler var, bu sayede hızları izlemek çok zor değil.


23
2018-01-25 19:03



Aynı sorunu buldum ama belki sadece 1/100 sunucular bir tür otomatik sorunlara sahip olacak. Genellikle küçük ağlarda fark edilmez, ancak daha büyükler üzerinde rahatsız edici olmak için yeterlidir. - Dave Drager
+1 - Ben de yıllar içinde otomatik müzakere sorunu açılır penceresini gördüm. Ekibimiz, tüm anahtarlar için otomatik anlaşmayı devre dışı bırakmaya standart hale getirdikten sonra, bizim için bu sorunu ortadan kaldırdı. - Joe Doyle
Buna eklenecek bir şey yok, sayısız problemler gördüğümü yankıtabilirim. Herhangi bir kimsenin NEDEN özerklemesi hakkında bilgisi varsa (nispeten) düzenli olarak, bunu duymak isterim. - Schof
@dave böylece autonegotiate sorununun ortaya çıkma olasılığı ağın büyüklüğü ve karmaşıklığı ile birlikte ortaya çıkıyor - bu da mantıklı. Ayrıca, küçük sunucu raf ağımızı geçen yıl boyunca 3 kat artırdık ... - Jeff Atwood
@Jeff Atwood: Sadece "büyüklük" migtinin kırık otomatik kırıcı davranışa sahip bir cihaz ekleme olasılığının daha yüksek olmasıyla ilgili olarak, sorunlar için potansiyel artacaktır. Bu, çerçevelerin veya yayın trafiğinin sel basması gibi değildir. Autonegotiation, her istemci cihaz ve her bir anahtar portu arasında kesinlikle. - Evan Anderson


Otonomasyonun günde bir saat ya da bir ay boyunca çalışıp çalışmadığını ve bir sebepten dolayı "bir şey olsaydı" bağlantısının sabit bir hıza bağlanmasının "düzeltmesi" gerektiğine inanıyorum, bunun yerine çözülmeyen ama bunun yerine atılan bir sorun var. Asıl sorun düzeltilene kadar geçici bir çözüm olarak sabitlenecek bağlantıyı kurmayı düşünüyorum.


15
2018-01-25 19:47



tamamen mümkün; İşleri halletmek için bir sürü başka sorun çözme daha gerçekleştirdik, ancak Joel'in ekibinin "Beş Vuruş" da belgelendiği gibi aynı sorunu yaşadığından endişeliydim. Oldukça yaygın görünüyor .. - Jeff Atwood
Ben, “genellikle”, ancak çoğu durumda “süre” için çalıştıktan sonra, otonomi ile ilgili meseleye katılıyorum. Bu, sabit bağlantıyı "çözüm" olarak kullanmak yerine, daha fazla araştırmak istememi istiyor ... eğer arabanız "iyi çalışıyorsa", 10 dakika kadar ısınmadığı sürece pürüzlü koşmaya başlıyorsa, kendiniz "Hey yaşlanıyor ve şimdi 10 dakika ısınması gerekiyor". İlk fırsatta gözükmeniz için onu alırdınız çünkü daha önce olmayan "bir şey yanlış" :) - dimitri.p


Bu yüzden sorun giderme adımları (her birinden sonra durduğunuzu varsayın ve sorunun yeniden ortaya çıkmasını bekleyin):

  1. 100M'nin neden kullanıldığını size söyleyip söylemediğini görmek için anahtardaki günlükleri kontrol edin.
  2. Eğer hala çalışıyorsanız, Joel'in her zaman zorladığı son derece kötü "Windows yük dengeleme" saçmalıklarını kapatın - çalıştığı şekilde anahtarın önbelleğini kırmak, her paketin yazılım sürecine zorlamak. Anahtarınız, paketleri donanım içinde iletmek üzere tasarlanmıştır ve bilinmeyen bir trafik akışının bilinmeyen bir trafik akışının (in -> asic -> out) ne anlama geldiğini anlamak için gereken CPU'ya sahiptir ve bunu yapmak için donanımı programlayın (aşağıdakileri okuyun: a hesaplayıcı, anahtarınızdan daha iyi bir CPU'ya sahiptir, anahtarınızın CPU'sunu daha fazla çalıştıran aptalca şeyler yapmayın). Windows yük dengeleme, anahtarınızı bu paket haline getirerek ve her paket için donanım önbelleğini yeniden yükleyerek çalışır. Bu sorun çözülmeyebilir, ama podcast'lerden beni rahatsız ediyor ... üzgünüm.
  3. Yapılandırmanın her iki tarafta da eşleştiğinden emin olun.
  4. Anahtarınızdaki autoneg hataları için Google - kendiniz oluşturmadınız sürece, kullandığınız her şeye autong koşmaya çalışan tek kişi siz değilsiniz.
  5. Kabloyu, Cat5e veya daha iyi bir değerle değiştirin - ideal olarak, iş istasyonunuzun takılı olduğu gibi çalıştığını bildiğiniz bir kablo. Cat5'i kullanmaya çalışmayın, ya da bazılarını yapılmış bir şey, bir paketin dışında gerçek kalıplanmış uçları olan birini kullanın.
  6. Bağlantı noktasını taşıyın - Sunucuyu aynı anahtardaki farklı bir bağlantı noktasına yerleştirin
  7. NIC'yi değiştirin - farklı bir zamanda sipariş edilen farklı bir parti kullanın

Bu noktada, yapılandırmayı, taktığınız fiziksel bağlantı noktalarını ve bunların arasındaki kablolamayı ortadan kaldırmış oldunuz. Eğer öyleyse yine oluyor, diğer bazı nedenler olabilir:

  1. Kablo yönlendirmesi - AC güç kablolarınızdan EM girişine dikkat edin, rafın farklı taraflarına yönlendirin.
  2. Soğutma - Ortam sıcaklığının 90 derece gibi olmadığından emin olun ve NIC kartlarınız bir çeşit "sevgili tanrım, bu tek paketi lütfen ileteyim" moduna girmiyor. Cisco yönlendiricilerinin, örneğin aşırı ısındığında CPU üzerinden hızlı anahtarlama ve iletme işlemlerini durdurduğunu duydum.
  3. Düğmeyi emmeyen bir şeyle değiştirin - ana makinelerinizin toplamda ne kadar bant genişliğinin topluca konuştuğunu kontrol edin ve ardından anahtarınızın nominal arka panel kapasitesine bakın. Potansiyel 48'in dışında kalan 7 ana verici, tüm iletici 1.0G'nin örneğin bir Cisco 3750'yi durdurmak için yeterlidir. Ayrıca çok cheapo hakkında ayrıca çalışan ağ satıcılarına dikkat: D-Link, Linksys, Dell, Intel ve HP. Ağ kurmayı tedavi eden hiç kimse bu kişileri ciddi şekilde kullanmaz, çünkü "hiç kimse Cisco'yu kullanmak için hiç kimse kovulmadı", ancak "insanlar 20/48 bağlantı noktası olan Intel anahtarının 2 yıldan fazla başarısız olduğunu hatırladığından" veya "ProCurve'i yalnızca Cisco'yu ne kadar kötüye kullandım, Cisco'yu gerçekten kullanana kadar, daha az şey satın almayı bıraktım. Cisco bir olarak kabul edilir orta sınıf ağ satıcısı, bu yüzden bu adamlar hakkında ne anlatıyor altında Cisco ...? :-)

Arkaplan / neden cevabım en müthiş: Finans endüstrisinde bir ağ / sistem mühendisi olarak çalışıyorum ve işte küçük çaplı küresel ağımızla ilgili deneyimim (15 şube, 8 veri merkezi):

Tüm LAN bağlantı noktalarımız otonomdur, çünkü ekipmanı her iki uçta da kontrol ederiz ve her iki tarafa da bir çeşit erişime sahip olursunuz. Bu, birisine telefon almak ve ayarları kontrol etmek kadar basit olabilir. Üç yıl içinde, sadece iç bağlantı noktalarımızdan birinin autoneg arızası nedeniyle başarısız oldum ve bu da kötü bir kablodan kaynaklanıyordu - kabloyu değiştirdikten sonra gitti.

Öncüllerin NIC'lerinde 100 / dolu kodladığı yerlerde daha fazla sorun yaşadık ve bu gerçeği belgelemedik. Bir sonraki maint penceresindeki her şeyi otomatik / otomatik olarak sıfırlayın ve o zamandan beri hiçbir sorun yaşamadı.

WAN'ımız için bir taşıyıcıdan bakır atışı yaptığımız iki yerde mi? Neredeyse bir bakır WAN / İnternet bağlantısının her zaman emilmemesini beklemelisiniz, çünkü kısmen diğer tarafta ne olduğu hakkında hiçbir fikriniz yok. Autoneg için buggy firmware var olan bazı eski Extreme anahtarı ama MPLS etiketleme yapar? ISP'nin 200 bin dolarlık Ciena edge cihazınız, bükümlü çift üzerinden Ethernet sağlamak için çok müthiş olduğu için, bazı 5 $ medya dönüştürücü? Bunun nasıl ele alınacağına karar verin ve bununla nasıl başa çıkacağınıza karar verin, sonra bir Cumartesi günü saat 19: 00'da onu değiştirmek için taşıyıcı içinde bir miktar düşüş olmasını bekleyin; çünkü üzerinde anlaşılan konfigürasyon hiçbir zaman belgelenmemiş ve izlenecek bazı politikalar vardır.

Cidden, ISS'nizden bir elyaf atışı olsun.


15
2018-01-26 12:37



Sadece bunu okumak için yuvarlak - mükemmel cevap. - Helvick
Mükemmel cevap. - Rushino
Sadece son cevap burada, bir yerlerde, o kötü Broadcom sürücüleri oldu. Çalışılan herhangi bir set bulamadık. Intel NIC'lere geçme% 100'ü sabitledi. blog.serverfault.com/2011/03/04/broadcom-die-mutha - Jeff Atwood
@JeffAtwood Aynı sorun mu? Bunun sonunda anahtardaki güç tasarrufu moduna geçtiğini sanıyordum ... - James Cape


Sorumlu olduğum ağ (diğer birkaç erkekle birlikte), ~ 40 sunucudan, 1000'den fazla iş istasyonundan (oldukça büyük bir kampüse yayılmış) ve ~ 1000 WAP'dan oluşuyor. ağ donanımları.

Dimitri.p dediği gibi, bir şey anonimleşmeyi durduramazsa, genellikle başka bir sorunun göstergesidir. Bağlantı noktasının elle ayarlanması, bağırsakta bıçaklanmış birisine bir bandaj koymak gibi bir şeydir - kanamayı durdurabilir, ama altında bir hasar olduğuna emin olabilirsiniz.

Her zamanki kontrol listem

  • makinede herhangi bir değişiklik oldu mu? sürücüler? İşletim sistemi veya BIOS seviyesi ayarları? OS'de belki autoneg devre dışı bırakıldı mı?
  • yama kablolarını değiştirdin mi doğrulanmış kablo çalışır (eğer bir raftan bir raftan daha fazla çalışırsa?)
  • Anahtar bağlantı noktasının bozuk olup olmadığını görmek için test ettiniz mi?
  • NIC kötüye gidebilir mi?

Biz kural olarak, asla Diğer tüm olası nedenlerin ortadan kaldırıldığı bir durum olmadıkça, sunuculardaki (veya veri merkezindeki herhangi bir şeyi) autoneg'i devre dışı bırakmayın, switch portlarını değiştirdik, kabloları değiştirdik, NIC'yi test ettik vb. ve başka seçenek yok. Bu durumda ölümle belgelenir. Bu çok nadiren olur ve genellikle BIOS ve OS ayarlarını kontrol etmek için erişemediğimiz cihazlarla olur.

Diğer yandan iş istasyonları ve AP'ler farklı bir hikayedir. Hatalı autoneg, kötü bir kablo çalıştırmasının klasik bir işareti ve çoğu kez, yaz aylarında çalışan yeni kablolar duvarlar mevsimine gelene kadar hız ve dubleks ayarını elle yapmak zorundayız.


14
2018-01-25 20:08



kabloları ve bağlantı noktalarını bir "sorun" sunucusunda tekrar tekrar değiştirdik ve "kutuda" (Server 2008 R2) ağ sürücülerini kullanmaya geri döndük. Aynı yapılandırmada birden çok sunucuda da gerçekleşir. "Bunu asla yapmamak" için zor bir zaman geçiriyorum. ve "her zaman bunu yap!" aynı soruya verilen cevaplarda. - Jeff Atwood
@Jeff: Sizin ve ekibinizin orijinal olarak yayınladığı soruya aşina olmak (serverfault.com/questions/104791) Sorunun, sorun sunucusu bilgisayarında bulunan anahtar bağlantı noktasını veya NIC bağlantı noktasını izleyip izlemediğini öğrenmek istiyorum. NIC / chipset'in markası / modeli neyse ne? - Evan Anderson
@Jeff - Bazı cevaplar ikili değil :) Sorun ne zaman olduğunu anlayabilmeniz için gereken zamana kadar yapın. - dimitri.p
Herhangi bir anahtar bağlantı noktasını veya ethernet kartını takip etmemek kaydıyla, her web katmanı sunucusunda @evan olur. Bu değişiklikten sonra hala sorunsa, bu bir yazılım sorunudur. Sunucular Lenovo RS110 x6 ve Lenovo RD120 x2'dir. - Jeff Atwood
Sadece son cevabın burada olduğundan emin olmak için, bir yerlerde: Broadcom ile bir sürücü problemiydi. Bilinen bir sürücü seti ile çözemedik. Tek "düzeltme" Intel NIC'lere geçmek oldu. - Jeff Atwood


Bu ağ efsanesi. Ağımızdaki adamlar bu saçmalıktan ötürü yemin ediyorlar, çünkü 1998'de Bay switch'ler Cisco ya da bir şeyle pazarlık yapmayacaklardı. Bu yüzden, yeryüzündeki ekipmanın% 99.999'unu varsayılan olarak kullanmak yerine, bu gülünç konfigürasyon yönetim alıştırması ve NIC sürücü güncellemesinin ayarları otomatik olarak yeniden pazarlamak için ve herhangi bir şey gerçekleştiği zamanlar için harika bir günah keçisi sunuyoruz.

Sunucumuzun birçoğu, NIC ekip çalışması gibi şüpheli özellikler kullanması nedeniyle daha da eğlenceli hale geldi. Bu durum, bir anahtar hatası olma olasılığındaki ağ erişimini kaybetmenizi önlerken, çok daha olası bir yazılım hatasıyla karşılaşmanızı sağlar. (Sürücüler her zaman berbat)

Ağdaki erkeklerin savunmasında, çok sayıda sevgili, tipik olarak emmeye yarayan Windows varsayılan NIC sürücüleri ile çalışıyor. Autongotiate ile ilgili sorunlarınız varsa ve vardiyalarınız Clinton yönetimine ait değilse, bu NIC sürücülerini güncelleyin.


10
2018-01-26 04:16



Nihayetinde kötü sürücüler oldu, ancak bulabildiğimiz tek çözüm Intel NIC'lere geçmek oldu. Artık Broadcom NIC'lere karşı ömür boyu bir kan davası var. - Jeff Atwood


Otomatik olarak görüşmelisin. Güvenilir bir şekilde otomatik olarak pazarlık yapmayacak bir anahtarınız varsa, daha iyi bir geçiş yapın.

Gigabit sözde otomatik anlaşma yapmak ve otomatik geçiş (MDI-X) algılama özelliğini içerir.

100baseT garantili Bir uç otomatik ve diğer manuel olarak ayarlanmışsa ve teknik özelliklere göre başarısız olursa başarısız olur. Bir ucu 100 / full'ye zorlarsanız diğer ucunu irade 100 / yarısına otomatik olarak anlaşarak, size çift yönlü bir uyumsuzluk verir.


10
2018-01-26 10:12