5 Sledování infrastruktury a provozu sítě
5.1 Úvod
Vývoj v rámci této aktivity se odehrává v několika fázích. Na začátku procesu je objektivní potřeba sledovat parametry infrastruktury a její provoz způsobem, který není v dané době běžný nebo dostupný. Následuje analýza, návrh a vytvoření zárodku nástrojů, které by požadované způsoby sledování umožnily. Jejich funkcionalita je ověřována v experimentálních podmínkách a v případě vyhovujících výsledků se hledá způsob jak tuto funkcionalitu jednak zobecnit na veškeré běžné komponenty infrastruktury a zároveň zajistit její souvislé sledování. Tímto se problém posouvá z oblasti jednorázového ověřování předpokladů do roviny tvorby funkčních celků schopných obstát v prostředí rutinního nasazení. Pokud se i tento krok podaří úspěšně zvládnout a vytvořené nástroje poskytují spolehlivě očekávané množství informací, je třeba začít přemýšlet o vývoji sítí a jejich služeb obecně a predikovat z toho vyplývající efekty a budoucí požadavky. Tímto se kruh uzavírá a celý proces se opakuje.
Východiska pro vývoj monitorovacích systémů jsou závislá především na vývoji v oblasti sítí, jejich služeb a aplikací. Charakteristika sítí se v současnosti mění nejzřetelněji ve dvou oblastech.
- Mění se stavební prvky a struktura sítí samotných. Historicky byly "relativně čitelné". Hierarchie jejich vrstev byla jednoznačná a v rámci každé z těchto vrstev byly sítě z technologického hlediska poměrně uniformní. Vývoj směřuje postupně k hybridním infrastrukturám, charakteristickým jak pestrou směsicí technologií, tak nesmírnou variabilitou v rámci jednotlivých vrstev i jejich hierarchií (včetně uplatnění rekurzivní enkapsulace). Touto cestou se síťové infrastruktury stávají složitými, komplexně rozvinutými celky s komplikovanou vnitřní logikou, navíc obvykle v čase dynamicky proměnlivou.
- Mění se způsob využití sítí. Z historicky jednoúčelových sítí se stává multifunkční komunikační prostředí s potenciálem postupně adoptovat prakticky veškeré známé aplikace a služby. Odběr datových, hlasových výpočetních nebo obrazových služeb (včetně např. televizního vysílání) prostřednictvím jediné účastnické síťové přípojky je zčásti již reálným (technologické možnosti) a každopádně očekávaným výsledkem přirozeného vývoje současných technologií a jejich aplikace v obecném měřítku.
Tento souvislý vývoj je třeba neustále promítat do vývoje monitorovacích metod, nástrojů pro získávání primárních dat, jejich zpracování i způsobů jejich vizualizace, protože cílem činnosti v této oblasti je především dosáhnout schopnosti jevy analyzovat a vysvětlit, nikoli pouze identifikovat.
5.2 Sledování infrastruktury sítě
V oblasti sledování infrastruktury sítě bylo záměrem pro rok 2004 započít s analýzou dříve vyvinutých a provozovaných systémů a začít na jejím základě vytvářet první návrhy jednotlivých komponent systému nového, který dostal pracovní název G3. Při návrhu a ověřování funkčnosti dílčích nástrojů jsme se zaměřili zejména na následující parametry:
- Plošné a souvislé sledování
- Systém musí být schopen sledovat infrastrukturu plošně - tedy v rozsahu reálné nebo zvolené hranice v rámci určitého síťového celku a souvisle - tedy nepřetržitě. Tento předpoklad implikuje použití relativně běžných technologií pro získávání primárních dat a hledání alternativních, nestandardních a především maximálně efektivních způsobů jejich zpracování.
- Zachycení dynamiky jevů
- Zachycení dynamiky jevů v rámci plošného a souvislého sledování alespoň na bázi statistické pravděpodobnosti je nezbytným předpokladem pro kvalifikovanou analýzu dějů. Je nutné zachytit dynamiku alespoň v míře odpovídající charakteru komunikace aktuálně realizovaných služeb, pokud to měřicí metoda umožňuje. Při tom musí být agresivita měření udržena ve snesitelných mezích.
- Konvergence k lidsky vnímatelnému způsobu identifikace
- Toto se týká dvou oblastí. Za prvé je nutno překlenout přirozený konflikt mezi lidským vnímáním síťové infrastruktury a logické struktury aktivních síťových prvků na jedné straně a na straně druhé jejich technologicky definovanou strukturu danou specifickým způsobem jejich měření, který se může lišit v závislosti na výrobci. Za druhé je nutné vzhledem k lidsky nezvládnutelnému množství primárních informací poskytovat informace agregované, které nemají technologický ekvivalent, neboť vznikají jako výsledek operací nad množinou různých typů primárních dat získaných měřením.
5.2.1 Vývoj systému G3
V rámci vytváření návrhu systému G3 jsme experimentálně své předpoklady ověřovali. Vytvořili jsme a experimentálně zprovoznili jednoduché měřicí jádro systému. Primárním účelem bylo vyladění měřících SNMP mechanismů (interní, na verzi SNMP nezávislé identické rozhraní k snmp-get, snmp-walk, snmp-bulk-walk). Sekundárně bylo třeba navrhnout, implementovat a vyladit skladbu procesů, jejich vazbu k jednotlivým typovým úlohám a vzájemnou komunikaci. Jádro budoucího systému je aktuálně ve své základní a minimalistické podobě funkční, na základě experimentálního běhu se zdá být stabilní a oproti stávajícímu, rutinně používanému systému GTDMS-II je výrazně rychlejší v oblasti získávání dat.
V rámci vývoje nadstavbové vrstvy jsme navrhli, implementovali a odzkoušeli identifikační model nezávislý na nativní (a tedy relativně dynamické) SNMP indexaci. Identifikátory jsou odvozeny od hodnot reálných popisných, případně konfiguračních údajů (např. verbální popis síťového rozhraní, IP adresace síťového rozhraní apod., včetně jejich kombinace) tak, aby bylo možno sledovat průběh jednotlivých, významově stejných veličin "cestujících" jak v rámci měřeného prvku sítě, tak i mezi nimi. Sadu zvolených údajů je možné měnit bez zásahů do měřicího jádra systému.
Pro efektivní měření krátkodobých špiček jednotlivých veličin při udržení snesitelné míry agresivity měření a celkového objemu měřených dat jsme navrhli, implementovali a odzkoušeli mechanismus umožňující konfigurovat strategii časového kroku měření, a to jak pro nastavení konstantních, tak pseudonáhodných hodnot (včetně jejich kombinací) v délkově neomezené posloupnosti.
Dlouhodobý experimentální běh zárodku systému prokázal na malém množství měřených síťových prvků a základních měřených veličinách věrohodnost naměřených hodnot. Výsledky korespondují s hodnotami naměřenými ostatními provozně používanými systémy v oblasti středních hodnot. V oblasti obalových křivek je dosaženo díky výše popsanému mechanismu několikanásobně vyšších odchylek a tyto jsou zachovány i v dlouhodobém pohledu na výsledky. Nicméně nalezení relativně spolehlivých a "bezpečných" mezních hodnot pro minimální časový krok měření na konkrétních měřených prvcích je předmětem dalšího, patrně dlouhodobého zkoumání.
Datový model a měřicí architektura byla laděna do podoby, která umožňuje rozšířit měření o specifické bloky měřených veličin bez nutnosti zásahu do měřicího jádra a navázat takto naměřené hodnoty v jejich přirozené struktuře (včetně opakování) na odpovídající místo interní logické struktury měřeného zařízení.
Pro specifické případy, kdy existují variantní technické způsoby (např. položky z různých MIB podstromů) pro získání stejných informací (z lidského pohledu), jsme vytvořili mechanismus, který umožní aplikovat řízenou strategii výběru nejvhodnějšího výsledku, který je následně uchováván svázaný se specifickým identifikátorem tak, aby bylo možné sledovat jak "optimalizovaný" průběh, tak v případě technické analýzy i průběhy jeho jednotlivých zdrojů. Toto se týká např. alternativních přístupů k čítačům chybovosti na jednotlivých typech síťových rozhraní. "Sdružování" veličin podle zvolené strategie (limity, součet apod.) má zásadní vliv na vypovídací hodnotu při souhrnné vizualizaci.
V oblasti přípravy pro vizualizaci dat jsme vyvíjeli navigační mechanismus pro výběr objektů k detailnímu zobrazení (komplementární k výše zmíněnému způsobu identifikace). Tento mechanismus umožní zvolit si strukturu pohledu na měřená zařízení interaktivním způsobem. Součástí konstrukce navigačního stromu je i agregace, takže v rámci jednoho objektu sloužícího k uživatelské navigaci jsou drženy informace o všech reálných prvcích, které mají stejnou identifikaci v rámci uživatelem nakonfigurované struktury. V závislosti na zvolené struktuře to umožní v praxi např. "sdružení" všech rozhraní se shodnou IP adresou nebo verbálním popisem v rámci zvoleného časového rozsahu a následně jak souhrnnou, tak oddělenou detailní vizualizaci. Tato vlastnost zůstává zachována bez ohledu na to, že prvek s požadovanou popisnou hodnotou (např. rozhraní s konkrétní IP adresou) "putoval" v průběhu času mezi několika zařízeními. Vedlejšími efekty tohoto agregačního mechanismu v rámci stromové struktury může být např. zobrazení průběhu celkového objemu dat přenesených jedním nebo několika zařízeními apod.
Přestože je zárodek systému schopný provádět souvislá měření, je nutné zdůraznit, že množství veličin, které lze doposud měřit, je minimální a vlastní měření je zatím prováděno především jako prerekvizita dalšího vývoje systému a dlouhodobější stabilizace jeho některých, relativně ověřených komponent.
5.3 Sledování provozu sítě
Oblast sledování provozu je zaměřena na vývoj nástrojů pro efektivní zpracování specifických elementárních informací (flow) o provozu sítě. Masivní nárůst provozu v současných sítích směřuje tuto problematiku k distribuovaným systémům s výkonnými klasifikačními a filtračními mechanismy a inteligentním způsobem uchování dat. Naším záměrem je zprostředkovat jak dlouhodobý souhrnný pohled na strukturu IP provozu (v4, v6), tak podrobnou analýzu konkrétních síťových interakcí.
5.3.1 Systém FTAS
V oblasti sledování provozu sítě bylo záměrem pro rok 2004 implementovat a nasadit do experimentálního provozu systém FTAS (Flow-based Traffic Analysis System). Východiska pro návrh systému a jeho interní architektura jsou popsány v technických zprávách [TR14/04] a [TR15/04]. Systém se podařilo implementovat, byl nasazen do provozu a poznatky z jeho užívání zatím naznačují, že je stabilní a funkční.
V současné době jsou provozovány de-facto systémy dva. První je v architektuře sedmi kolektorů distribuovaných mezi šesti servery nasazen pro dlouhodobé plošné sledování provozu páteře sítě CESNET2. Druhá instalace v architektuře dvou kolektorů provozovaných na jednom serveru slouží jako testovací, a to především pro optimalizaci parametrů specifických dlouhodobých statistik primárního systému a pro získávání hlubších poznatků o struktuře provozu sítě tohoto typu. Aktuálně probíhá na základě zkušeností s provozováním systému analýza dalšího postupu.
Zkušenosti ukazují, že systém je provozuschopný a v principu plní zamýšlené funkce. Pro efektivnější využití by však bylo žádoucí zkrátit reakční dobu systému na požadavky (především neselektivní, týkající se delšího časového intervalu) a snížit nároky na interaktivní činnost uživatelů a umožnit kompletní vybavení požadavku off-line. Toto rozšíření funkcionality uživatelského rozhraní bude předmětem vývoje systému v roce 2005, což mimo jiné koresponduje s dlouhodobými předpoklady uvedenými v textu výzkumného záměru.
V rámci dalších prací, opět v souladu s plánem, jsme infrastrukturu systému FTAS posílili o další zdroje. Nejpodstatnějším rozšířením byla realizace dedikovaného kolektoru pro zpracování dat z primárního směrovače tvořícího hranici mezi páteří sítě CESNET2 a globálním Internetem. Systém byl také několikrát překonfigurován s cílem dosáhnout rovnoměrnější rozložení zátěže a optimálního využití zdrojů. Za úspěch považujeme to, že se tak stalo výhradně prostřednictvím administrátorského uživatelského rozhraní bez výpadku jakékoli komponenty systému a bez přerušení zpracování provozních informací.
V průběhu podzimu byla většina činností aktivity v této oblasti zaměřena na praktické využití systému. Téměř každodenní realitou byly požadavky na analýzu provozu související se silnou vlnou DoS a především DDoS útoků z/na uzly sítě s operačními systémy na bázi MS Windows. To, že se pomocí systému FTAS podařilo prakticky všechny případy vysvětlit, dokládá použitelnost systému v reálných podmínkách. Vzniklá situace navíc prověřila systém z hlediska nadstandardního zatížení a vytvořila optimální podmínky především pro optimalizaci jeho agregačních parametrů.
|
|
obsah |
následující
|