Soru Bir İzleme Çözümünde neyi arıyorum?


Bu bir Kanonik Soru Yazılım İzleme hakkında.

Ayrıca İlgili: Sunucularınızı izlemek için hangi aracı kullanıyorsunuz?

Sunucularımı izlemem gerekiyor; Bir izleme çözümüne karar verirken nelere dikkat etmeliyim?


21
2018-05-31 15:30


Menşei


İlgili: Sunucularınızı izlemek için hangi aracı kullanıyorsunuz? - Chris S


Cevaplar:


Orada çok fazla izleme çözümü var. Herkesin tercihleri ​​vardır ve her işletmenin kendi ihtiyaçları vardır, bu yüzden doğru bir cevap yoktur. Bununla birlikte, bir izleme çözümü seçerken neyi aramak isteyebileceğinizi anlamanıza yardımcı olabilirim.

İzleme sistemleri nelerdir?

Genel izleme sistemlerinde iki temel amaç vardır. Birincisi, zaman içinde veri toplamak ve saklamaktır. Örneğin, CPU kullanımını toplamak ve zaman içinde grafiğini çizmek isteyebilirsiniz. İkinci amaç, işlerin ya cevap vermediği ya da belirli eşikler içinde olmadığının fark edilmesidir. Örneğin, belirli bir sunucuya pinglerle ulaşılamıyorsa veya CPU kullanımı belirli bir yüzdesinin üzerindeyse uyarı isteyebilirsiniz. Splunk gibi günlük izleme sistemleri de var, ancak bunları ayrı olarak ele alıyorum.

Bu iki birincil rol bazen tek bir ürüne dönüşür, diğer zamanlarda ve daha yaygın olan her amaca yönelik bir ürüne sahip olmaktır.

İzleme Sistemlerinde ana Bileşenler ve Özellikler nelerdir?

Pollers:
Tüm izleme sistemleri, verileri toplamak için bir çeşit polye ihtiyaç duyar. Tüm veriler aynı şekilde toplanmaz. Çevrenize bakmalı ve ihtiyacınız olan verilere ve nasıl toplanabileceğine karar vermelisiniz. Ardından, seçtiğiniz izleme sisteminin ihtiyacınız olanı desteklediğinden emin olun. Bazı yaygın yöntemler şunlardır:

  • SNMP (Basit Ağ Yönetimi Protokolü)
  • WMI (Windows Yönetim Araçları)
  • Komut Dosyalarının Çalıştırılması (Örneğin, izlenmekte olan makinede bir komut dosyası çalıştırılıyor ya da kendi sorgulama yöntemini kullanan izleme kutusundan bir komut dosyası çalıştırılıyor). Bunlar Bash Scripts, Perl Scripts, yürütülebilir ve Powershell Scripts gibi şeyler içerebilir
  • Ajan Temelli İzleme. Bu işlemlerle her müşteri üzerinde çalışır ve bu verileri toplar. Bu veriler ya izleme sunucusuna aktarılır ya da izleme sunucusu aracı seçer. Bazı yöneticiler Ajanlar ile tamam, diğerleri izlenen sunucu üzerinde daha büyük bir ayak izi bırakabilir çünkü diğerleri onları sevmez.
  • Odaklanmış API'ler (ör. VMWare API'si veya SQL sorgularını çalıştırma yeteneği)

Ortamınızda veya birincil işletim sisteminizde çoğunlukla bir işletim sisteminiz varsa, bazı sistemler başkalarının daha fazla seçeneğine sahip olabilir.

Yapılandırma:
İzleme sistemlerinde çok fazla nesne yeniden kullanma eğilimi vardır. Örneğin, bir grup sunucuda Apache veya IIS gibi belirli bir uygulamayı izlemek istersiniz. Veya belirli eşiklerin sunucu gruplarına uygulanmasını istersiniz. Ayrıca, belirli insan gruplarının "çağrıda" olması da olabilir. Bu nedenle iyi bir şablon sistemi bir monitör sistemi için hayati önem taşımaktadır.

Yapılandırma genellikle bir kullanıcı arayüzü veya metin dosyaları ile yapılır. Kullanıcı arayüzü seçeneği genellikle daha kolay olacaktır, ancak metin dosyaları yeniden kullanım ve değişkenler için daha iyi olma eğilimindedir. Yani BT personelinize bağlı olarak, güç üzerinde basitliği tercih edebilirsiniz.

Kullanıcı arayüzü:
Günümüzde izleme sistemleri için en yaygın arayüz bir web arayüzüdür. Web arayüzüne göre değerlendirilecek bazı şeyler şunlardır:

  • İyi genel bakışlar
  • İyi detay sayfaları
  • Hız (kriz modunda bilgi bulmanız gerektiğinde, yavaş bir arayüz çok sinir bozucu olabilir)
  • Genel his Arayüzde çok fazla zaman harcayacaksınız, eğer BT personeliniz bunu kullanacak kadar dirençli hissedecekse
  • Özelleştirme. Her organizasyonun önemli olan ve olmayan diğer şeyler vardır. İhtiyaçlarınıza göre özelleştirebilmek önemlidir

Uyarı Motor:
Uyarı motorunun esnek ve güvenilir olması gerekiyor. Aşağıdakiler dahil olmak üzere bildirilecek pek çok farklı yol vardır:

  • SMS
  • E-posta
  • Telefon
  • IM / Jabber gibi diğer şeyler

Aramak için diğer özellikler şunlardır:

  • Eskalasyonlar (Diğer kişi uyarıyı kabul etmediyse veya düzeltmezse birisine bildirin)
  • Döndürmeler ve Vardiyalar
  • Gruplar (Belirli grupların belirli şeylerden haberdar edilmesi gerekir)

Bir şeyler yanlış gittiğinde, uyarıyı alacağınıza güvenmek önemlidir. Bu iki şeye gelir:

  1. Güvenilir bir sistem
  2. Bir uyarı ücretsiz yapılandırma. İzleme sistemlerinde, bir uyarı almanız gerektiğini düşünmek nadir değildir, ancak yapılandırmadaki bazı ayrıntılar nedeniyle uyarı tetiklenmemiştir.

Bilgi deposu:
Sistem, verileri depoladığından veri toplar ve saklarsa (yani, grafikler içeren sistemler) veri depolar. Hem mağaza hem de grafik için çok yaygın bir uygulama örneğin RRD'dir.

Veri mağazasından aranacak bazı özellikler şunlardır:

  • Verilere ham erişim. Bu, Excel gibi bir şeye karşı geliştirmek veya özel grafikler oluşturmak için değerli olabilir.
  • Ölçeklenebilirlik. Ne kadar veri topladığınıza bağlı olarak, hızlı bir şekilde toplanabilir, eğer çok toplayacaksanız, ölçekleneceğinden emin olmak istersiniz.

Grafik Kitaplığı:
Grafikler trendleri hızlı bir şekilde tanımlamak ve geçmişine dayanan bir şeyin mevcut durumuna bağlam vermek için yararlı olabilir. Bazıları, olayları gerçekleşmeden önce tahmin etmede yardımcı olabilecek (yani, disk alanı tükeniyor) dahil olmak üzere, biraz da dahil olmak üzere. Grafiklerin, ihtiyaç duyacağınızı düşündüğünüz bilgileri açık bir şekilde vermesini sağlayın.

Erişim Denetimleri:
Büyük bir kuruluşunuz varsa, bazı yöneticiler sadece belirli şeyleri ayarlayabildikleri için erişim kontrollerine ihtiyacınız olabilir. Kamuya açık kontrol panelleri de isteyebilirsiniz. Bu önemliyse, izleme sisteminin ihtiyacınız olan kontrollere sahip olduğundan emin olmalısınız.

Diğer özellikler

Raporlama:
İyi raporlar sağlayan bir sistem, uzun süre boyunca nelerin iyileştirilmesi gerektiğini belirlemenize yardımcı olabilir. Örneğin, "hangi sistemlerin en çok aşağı indiği" gibi şeylere iyi bir cevap verebilir. Bu, yönetimi belirli şeylere para harcamak için ikna etmeye çalıştığınızda önemli olabilir - iş zor kanıtlar gibidir.

Uzmanlaşmış özellikler:
Bazı izleme sistemleri belirli ürünlere yöneliktir veya diğerlerinden daha fazla desteğe sahiptir. Örneğin izlemeniz gereken ana şey SQL server ise veya VMWare ürünlerini yoğun olarak kullanıyorsanız, bunların ne kadar iyi desteklendiğini görmelisiniz.

Önceden tanımlanmış izleme şablonları:
Önceden tanımlanmış birçok şablonla (veya birçok şablon yaratan bir kullanıcı tabanına sahip) gelen bir sistem, büyük bir zaman tasarrufu sağlayabilir.

keşif:
Büyük veya değişen bir ortamınız varsa. Bazı sistemler, bir API aracılığıyla yeni sistemler ekleme veya yeni sunucuları veya bileşenleri bulmak için taramaları çalıştırmayı sağlar.

Dağıtılmış İzleme:
İzlenecek birden fazla konumunuz varsa, WAN üzerinden izlenen birçok bağımsız sistem yerine her yerde izleme kutuplayıcılarının izlenmesi yararlı olabilir.

Bazı Popüler İzleme Sistemleri

Orada çok fazla izleme sistemi var. Bu eski soruyla ilgili bir özetimiz var.. Hızlı başvuru için en çok duyduğum şeyler şunlardır:

  • Nagios
  • kaktüs
  • opennms
  • Güneş rüzgarları
  • Çeşitli bulut tabanlı izleme sistemleri
  • Microsoft Sistem Merkezi
  • Bu henüz popüler değil, ancak Stack Exchange izleme sistemini açık hale getirdi http://bosun.org

Yukarıdakilere dayanarak nasıl karar verilir

Ne kullanacağınızı söyleyemememin nedeni, her kurumun kendi ihtiyaçları vardır. Doğru seçimi yapmak istiyorsanız, yukarıdaki tüm bileşenleri düşünün ve hangi özelliklerin kurumunuz için önemli olduğunu anlamanız gerekir. Ardından, ihtiyacınız olanı sağladığını iddia eden ve bunları deneyen bir sistem veya sistemler bulun. Bunlardan bazıları biraz pahalı, ya da bedava. Tüm bunları hesaba katarak seçiminizi yapabilirsiniz. Kullandığımdan, hepsi mükemmel olmaktan uzak, ama en azından uyuyacak bir şey bulmaya çalışabilirsin.


19
2018-05-31 15:30



"Uyarı Motorunun" altında, bir özellik olarak "bildirim hızını sınırlandırmaya" gerçekten ihtiyacınız var. Başarısızlıklara veya çırpma hatalarına bağlı olarak yüzlerce veya binlerce uyarının bildirilmesi "fırtınaları" nın hedefi olmak (bu yukarı, aşağı, yukarı, aşağı, aşağı ... oh, hey, yine ...) eğlenceli değil. - Evan Anderson


İzleme ve uyarma arasında ayrım yapmak yararlıdır. İzleme, veri toplamak ve grafik yapmak anlamına gelir. Uyarı, bir sunucu gece yarısı indiğinde bana SMS gönderir.

Nagios uyarmak içindir. Kaktüs ve Munin izlemek içindir. Diğer ürünler iki işlevi birleştirir. Zenoss ve Zabbix örnekleridir.

Bazı soruları cevaplayarak başlarım:

Sunucuları, ağ aygıtlarını, uygulamaları veya üçünü de mi izlemeniz gerekiyor?

İzlemek için hangi yöntemleri kullanabileceğiniz konusunda sınırlamalar var mı? NRPE gibi izleme sunucularını sunuculara kurabilir misiniz, yoksa SNMP'yi mi kullanacaksınız?

Grafikleri kim kullanacak ve uyarıları kim kullanacak? Son sonucun nasıl görünmesini istersiniz? Arayüzün görünümü ve hissi (iş adamları bunu mı, yoksa sadece teknoloji personelini mi kullanacak?)

Hem zaman, beceri hem de donanım açısından kaynaklarınız neler? En az mütevazı betikleme yeteneğiniz var mı? Kutudan çıkmış bir çözüme mi ihtiyacınız var?

Benim düşünceme göre, hem uyarı hem de denetlemenin ilk kuralı Basit olmalı! Bir kuruluş, verileri nasıl uyardığı ve topladığı konusunda yaşayabilir veya ölebilir ve çoğu zaman zaten kendi başına karmaşıklaşacaktır. Temelleri ile başlayın ve oradan inşa edin.


8
2018-05-31 20:38





tl; Dr.

Hakkında düşünün Yazılımınızın sağladığı hizmetlerBu hizmetler başarısız olduğunda uyarı göndermek veya başarısızlık riski Bu hizmetlerin artması.

Hizmet Seviyesi Anlaşmaları

İzleme stratejilerinin ardındaki teori, izleme ve uyarıları bir şekilde birbirine bağlamaktır. hizmet düzeyi anlaşması. Sonuçta, nji0019.myserver.com adresindeki TCP bağlantılarının sayısında bir artış olması gerekmez, para kaybetme gerçeğiniz konusunda uyarılmak istersiniz. Size tonlarca uyarı verecek çeşitli araçlar vardır, uyarılar arasındaki bağımlılıkları tanımlar, ancak bu kontrollerin çoğu doğrudan hizmet birine veriyorsun.

Hizmet ihlali

Sağladığınız, bir web sitesine hizmet etme yeteneği ve söz konusu web sitesini değiştirebilme (örneğin, bir tür CMS) gibi önemli hizmetleri tanımlayın. Bunlar kontrol edilmelidir (ör. Web sayfasını alabileceğinizi izleyerek ve yapabilirsiniz). Bu iki Hizmetin başarısızlığı (burada S sermayesi ile kullanılır) sizi bilgilendirmek için bir uyarı tetiklemelidir.

Sitenin makul bir süre içinde yanıt vermesi önemlidir, bu da uyarıları tetiklemelidir. Eğer yapacaksan, bir "SLA ihlali".

Artan risk

Genellikle, bir Hizmetin başarısızlığa uğrama riski vardır ve çoğu zaman, söz konusu yedeklemeyi, örneğin; ikinci bir sunucu veya bir köle veritabanı veya ekstra ağ kartları ...

Bu fazlalık kaybedildiğinde, Hizmet hala iyi durumda, ancak Servis başarısızlığı riski yükseldi.

Bu, uyarıları tetiklemenin ikinci ana sebebidir; Bu fazlalık giderildi (örneğin, ikinci sunucunun öldüğü) veya riskin artacağı gibi yakın bir tehlike var (örneğin, diskin sadece 500Mb'si kaldı veya disk trendi, diskin yaklaşık 5 saatte dolu olacağını gösterir).

Bütün bu göstergeler ne olacak?

Ama check_mk bana ev sahibi başına 50-60 çek veriyor, bunlar değersiz mi?

Hayır. Tüm bunlar, örneğin, örn. check_mk, ancak bir kontrolün başarısız olması durumunda, Hizmetlerin hangi etkilenmelerden etkilenebileceğine karar vermeniz gerekir.

/ Var / bölümü dolduysa hangi hizmet etkilenir? Eth0 arabirimi kapalı olduğunda hangi hizmet etkilenir? ... giden TCP bağlantıları bazı güvenlik duvarı tarafından engelleniyorsa? ... eğer iplik sayısı 800'ü geçerse? ... veritabanı düşerse mi?

Örnek

2 web sunucunuz ve sahip olmadığınız bir yük dengeleyicisinin (ör. ISS) arkasında bir site sunan bir veritabanı sunucunuz var. Sağladığınız Servis, iki sunucudaki bağlantı noktası 80'dir ve örneğin, şu anda hayatta kalabilen muazzam önbelleklere sahiptir. veritabanı aksama süresi (üçüncü sunucuda veritabanı).

Bu senaryoda, bir web sunucusunun tamamen başarısız olması, sitenin kapatılmasına neden olmaz. Olan şey, artıklığın ortadan kalkmasıdır. başarısızlık riski sadece yukarı çıktı. o bir uyarı tetiklemelidir.

Veritabanının tamamen başarısız olması, yerinde ayarlanmış önbelleklerin bulunması nedeniyle siteye hizmet verme yeteneğini etkilemeyebilir; Bu daha sonra Hizmet'i etkilemez web sitesinin sunulması, ancak farklı bir Hizmeti etkileyebilir, yani web sitesini güncellemek veya siparişleri kabul etmek ...

Her Hizmet, hizmeti geri yüklemek veya kesintileri önlemek için ne kadar önemli olduğunu belirten kendi hizmet düzeyine sahip olacaktır.

Çevik ol

Her uyarı aldığınızda, aşağıdakilerden birini yapmalısınız: - Uyarıma neden olan sorunu gidermek için izlenen sistemi değiştirin (örn. sürücüyü değiştirin veya logrotate veya bir şeyi yeniden yapılandırın) - Durumun ortaya çıktığı andan itibaren uyarının gönderilmesini önlemek için izleme sistemini değiştirin. (ör. "disksiz" için seviyeleri değiştirin, böylece disk sadece% 80 yerine% 90'a kadar doldurabilir)

Kendi deneyimim

Ben çoğunlukla Nagios ve onun ayrıntılı yapılandırması ile tanıdık ve Check-mk multisite bağladım beri. Geçtiğimiz günlerde, check_mk'nin bu düşünceye iyi uyuyor gibi görünen bu İş Zekası kavramına (1.11'den beri) sahip olduğunu öğrendim. Nagios'taki bu denetimleri daha büyük bir hizmetin parçası olarak tanımlayabilir ve "Hizmet" in durumunu birçok denetimlerin durumu olarak tanımlayan kurallara sahip olabilirsiniz. en kötü veya en iyi belirtmek, bildirmek.


4
2017-08-14 13:00



Vay, iki downvot ve yorum yok. İyi form. - mogsie
Çok ileride düşünürseniz insanlar korkarlar :) - Florian Heigl


İzleme çözümünü seçerken şirketlerin en kritik noktalarından biri, Hemen operasyonel sorunların çözümü ile ilgili değil, yarının öngörülmeyen sorunları hakkında! Demek istediğim, acil konuların çözümü elbette önemlidir, fakat bana güvenin, birçok durumda bu kısa görüşlü strateji şirketin hayatta kalmasını garanti etmeyecektir.

Piyasada onlarca harika izleme çözümü var. İhtiyaçlarınızı karşılayan küçük bir çözüm yelpazesinin kısaltılması zor ve uzun bir iştir, üstelik bütçenize uygun bir şey bulmak daha da zorlaşır. İlginç kısmı şimdiki ve geleceğinle uyumlu bir tane bulmak. Ve bunu tespit etmek için bir değerlendirme süreci yoktur, bu bir deneyim + sezgi meselesidir + çok önemli bir faktördür: Güven, bu kolay bir şey değil kesmek.

Genel bir kural olarak, aramak ve kazmak başarı Öyküleri Kısa listede yer alan izleme çözümleri setiniz, özellikle de sektörünüzden bir şirketi etkiliyorsa. Satıcıya başarı öykülerini sorun ve hatta onlardan biriyle konuşmak için izin isteyin. Bu gösteriden korkmayan firmalar sahip oldukları gerçek müşterileri ile ilişkiler, ve bunu saklamıyorlar, ve bu bir son derece nadir günümüzde bulmak için bir şey.

Zabbix, Icinga, Pandora FMS, op5, Datadog, Yeni Relic ... hepsi iniş ve çıkışları var, ama gerçek sorun hangisinin geleceğinize daha iyi uyum sağladığını buluyor.


1
2018-05-12 16:37





Uzaktan sistem izleme düşünüyorsanız, o zaman gerçek konum testlerinin gerçekleştirildiğini görmek iyi bir fikir olabilir. Bağlantı sorunları geçmişte bir şey değildir ve donanımınız belirli bir bölgede bir grup hizmet veriyorsa, kaynaklarınızın o konumda bulunduğundan emin olmak isteyebilirsiniz.


0
2018-06-01 17:43