5 Sledování infrastruktury a provozu sítě
V této aktivitě se zabýváme návrhem, vývojem a optimalizací užití prostředků pro systematické dlouhodobé a plošné sledování dějů v síti. Soustřeďujeme se na dva základní okruhy problematiky.
V oblasti sledování infrastruktury se zaměřujeme na zpracování a poskytování informací primárně získaných ze souboru technických prostředků, které síťovou infrastrukturu vytvářejí, a to prakticky bez ohledu na vrstvu sítě, ve které ten či onen prvek dominantně pracuje. Snažíme se vyvíjet prostředky, které by byly schopny poskytnout jak detailní, tak souhrnné informace o konkrétních parametrech, zachytily alespoň určitou míru dynamiky jevů v síti a na úrovni vizualizace dokázaly na základě aktuální potřeby pracovat s různou logickou strukturou síťových prvků a provádět tomu odpovídající agregaci průběhů požadovaných veličin. Základním zdrojem informací o stavu jednotlivých prvků infrastruktury sítě je pro nás SNMP (Simple Network Management Protocol). Námi přidaná hodnota spočívá v hledání nestandardních způsobů zpracování a zprostředkování takto získaných informací. Zároveň se snažíme nabídnout komplexní a vzájemně provázaný pohled na prvky síťové infrastruktury, takže kromě tradičních charakteristik o zátěži a využití sítě implementujeme i další skupiny informací - např. poměrně detailní průběhy chybovosti (včetně technologicky závislých) nebo průběhy kvality a úrovní signálů v optické části přenosové infrastruktury apod.
V oblasti sledování provozu provádíme analýzu toho, co je síťovou infrastrukturou přenášeno. Zde se zaměřujeme na provoz přenesený protokolem IP (jak verze IPv4, tak i IPv6) a na zpracování provozních záznamů typu NetFlow, které tento provoz v agregované podobě popisují. Naším primárním zdrojem NetFlow informací jsou páteřní směrovače sítě CESNET2 a sondy FlowMon vyvíjené v rámci aktivity Programovatelný hardware. Naší snahou je postupný vývoj flexibilního, škálovatelného řešení v distribuované architektuře, které poskytne velmi široké spektrum informací o IP provozu. S tím souvisí stále výraznější zaměření na podporu oblasti řešení bezpečnostní problematiky a incidentů v síti.
5.1 Sledování infrastruktury sítě
Nosným prvkem naší činnosti v této oblasti je vývoj systému G3. Naším záměrem pro rok 2006 bylo:
- vytvořit alespoň základní nástroje pro administraci měřící části systému,
- udržet systém pokud možno v permanentním chodu (za postupného vývoje) a provádět souvislý sběr dat v rozsahu síťových prvků reprezentujících páteřní síť CESTNET2 a postupně rozšířit sledování i o její optickou část,
- podle potřeb a možností rozšiřovat spektrum měřených údajů.
5.1.1 Administrace měřící části systému G3
V roce 2005 jsme pro systém G3 vyvinuli prototyp uživatelského rozhraní, nicméně v oblasti administrace bylo nutné systém ovládat prostřednictvím ručně vytvářených konfigurací bez jakékoli kontroly integrity dat a bez jakékoli zpětné vazby z hlediska efektivity konfigurace a optimalizace využití zdrojů. Individuální konfigurace pro měření síťových prvků mohou nabývat velmi proměnlivého rozsahu - od základních až po komplikované, podmiňující např. jednotlivé kroky následného zpracování dat nebo oddělené uložení části takto zpracovaných dat. Množina těchto detailních konfiguračních možností se v průběhu vývoje poměrně dramaticky mění, proto jsme se v první fázi zaměřili především na makro-administraci - efektivitu využití zdrojů, základní kontroly integrity, snadné přidávání či odebírání sledovaných síťových prvků a částečnou synchronizaci s konfiguracemi ostatních aktuálně používaných systémů.
Námi navržený a naprogramovaný prototyp nástroje pro základní administraci měřící části systému G3 je ve své současné podobě odzkoušen a používáme jej k řízení experimentální instalace systému. Jedná se o částečně interaktivní "command-line" nástroj, který aktuálně umožňuje:
- kontrolu integrity konfigurace systému, křížové kontroly konfigurací jednotlivých zařízení, zjištění duplicit a dalších možných konfliktů (např. konfigurace ukládání dat) - ukázka jednoho z výstupů je na obrázku,
- kalibraci systému přeskupením sledovaných zařízení mezi jednotlivé měřící procesy, a to buď podle počtu měřených veličin nebo podle průměrné doby měření potřebné pro získání dat z jednotlivých síťových prvků,
- změnu počtu měřících procesů a související přeskupení měřených zařízení včetně možnosti fixace obsahu vybraných skupin sledovaných zařízení,
- verifikaci a případně vytvoření základních konfiguračních záznamů pro dosud neměřená zařízení na základě minimální množiny údajů ve formátu kompatibilním s některými dalšími námi používanými systémy,
- vyhledávání konfigurací a souvisejících informací (parametry měření, identifikace datového skladu, související filtrace apod.) o měřených zařízeních.
5.1.2 Měření prostřednictvím systému G3 v roce 2006
Dalším z našich cílů v této oblasti bylo udržet systém v pokud možno permanentním chodu a provádět v průběhu roku 2006 souvislé měření páteřní infrastruktury sítě CESNET2. V lednu 2006 jsme systém nainstalovali na oddělený HW. Většinu do té doby experimentálně naměřených dat se podařilo uchovat a přenést. Po instalaci systému a zahájení měření prvků jádra páteřní sítě s výchozí konfigurací bylo měřeno přibližně 178 000 položek. Postupným rozšiřováním množiny sledovaných zařízení a možností systému se v pololetí měření ustálilo na počtu přibližně 290 000 položek. V současnosti je prováděn periodický sběr více než 370 000 údajů z více než 120 zařízení. Na obrázku je uveden průběh nárůstu měřených síťových prvků během roku.
Sběr dat probíhá v proměnných časových intervalech (dynamický časový krok) v rozsahu 20-1200 s. Průběhy průměrného kroku sběru dat - Measurement time step - pro obě základní skupiny měřených prvků (páteř sítě CESNET2 a optická DWDM část) od začátku roku, včetně rozptylu mezních hodnot je patrný z obrázku (optická část sítě byla měřena systematicky od poloviny roku). Z obrázku také vyplývá, že časová náročnost pro sběr dat z optických prvků - Time spent with measurement (per device) - je zatím v optické části naprosto odlišná oproti klasickým prvkům páteřní sítě.
Nárůst objemu sledovaných údajů, které se podařilo zakomponovat do systému, překonal naše původní předpoklady a do budoucnosti stojíme před problémem dalšího zefektivnění chodu systému v oblasti ukládání a vyhledávání dat.
5.1.3 Rozšíření spektra měřených údajů
Rozšíření spektra měřených údajů jsme prováděli průběžně, a to jak na základě vlastního plánu, tak na základě aktuálních potřeb ostatních aktivit. První skupinou parametrů, o které byl systém G3 rozšířen, bylo měření a vizualizace potřebných údajů z optické části páteřní sítě - především průběhy vysílacích a přijímacích úrovní a údaje o korekci chyb (ukázka na obrázku).
Další rozšíření se týkalo implementace měření a vizualizace HW struktury zařízení (obrázek), míry využití procesorů jednotlivých komponent zařízení (obrázek a obrázek), využití paměťových modulů, a teplotních údajů (obrázek) z jednotlivých komponent. Následně jsme rozšířili systém o měření a vizualizaci dat ze senzorů - doposud se jedná především o výkonové, odběrové, teplotní a logické senzory (obrázek). V neposlední řadě byla zakomponována možnost sledovat základním způsobem využití některých komponent pro přenos hlasu (obrázek a obrázek).
Obrázek 5.8: Agregovaný průběh teploty jednoho zařízení (výsledek měření více než 80 teplotních senzorů z tohoto zařízení)
Pro některé z výše uvedených skupin měřených údajů (teploty, zátěže procesorů, využití pamětí) jsme do navigační části uživatelského rozhraní implementovali funkce umožňující nastavit limitní hodnoty a způsob vizualizace objektů, pro které byly v rámci nastaveného časového rozsahu tyto limity překročeny. V rámci interaktivního "surfování" po struktuře měřených objektů je pak možné provádět kontroly např. ve smyslu: "označ všechny prvky sítě, na kterých byla za období T1-T2 naměřena teplota vyšší než X" (obrázek). Tento mechanismus je funkční jak nad rozloženou, tak i nad agregovanou strukturou prvků, ale je velmi náročný na zdroje.
5.1.4 Další vývoj systému G3
V dalších obdobích máme v plánu pokračovat ve vývoji uživatelského rozhraní (viz. [Kos05]), konkrétně vytvořit a stabilizovat jeho kompaktní, maximálně jednoduchou (minimalistickou) formu, která vyhoví pro většinu případů použití. Dále plánujeme vyvinout a integrovat nástroje pro uložení a (následné vyvolání) uživatelských relací. Specifickou oblastí bude úprava pro vzdálené řízení systému, resp. jeho uživatelského rozhraní, a vytvoření prototypu specifické externí aplikace. V neposlední řadě počítáme s tím, že instalaci systému v prostředí infrastruktury sítě CESNET2 budeme udržovat v chodu tak, aby byl systém průběžně využitelný po celý rok.
5.2 Sledování provozu sítě
V této oblasti je hlavní náplní naší činnosti rozvoj systému FTAS (Flow-based Traffic Analysis System) a jeho efektivní využití v prostředí sítě CESNET2. Našimi hlavními záměry pro 2006 bylo:
- povýšit technologickou infrastrukturu systému tak, aby i ve své experimentální podobě sloužil jako efektivní podpůrný nástroj
- zdokumentovat standardní uživatelské rozhraní systému
5.2.1 Technologická infrastruktura systému FTAS v prostředí sítě CESNET2
Systém FTAS je projektován jako distribuovatelný z hlediska možnosti rozložit jednu logickou instalaci mezi několik uzlů. V rámci instalace pro páteřní síť CESNET2 je tato možnost využita a systém je nakonfigurován v architektuře několika uzlů typu "collector-host" (viz. [Kos04]), každý na samostatném HW s tím, že jedna z těchto jednotek hostuje uživatelské rozhraní a centrální konfiguraci. Systém je, kromě jiného, používán jako přímá podpora při řešení bezpečnostních incidentů a pro tento typ použití je důležité zajistit maximální možnou vypovídací hodnotu dat po dostatečně dlouhou dobu a zároveň snesitelné doby odezvy na uživatelské dotazy. Vypovídací hodnotu ovlivňují dva faktory - míra agregace dat při jejich vzniku a příjmu (vzorkování paketů při vytváření flow záznamů, vzorkování flow záznamů při importu na straně kolektoru a množina flow polí, která jsou ukládána) a doba uchování těchto dat v dále neagregované podobě. Přestože je celkové množství vygenerovaných flow záznamů dáno především dynamikou struktury provozu, je v ustáleném stavu (z hlediska struktury) závislé na objemu provozu. To nás vzhledem k dlouhodobému vývoji nárůstu objemu provozu (obrázek) nutí reagovat i v této oblasti a optimalizovat systém v oblasti rozložení zátěže mezi jeho fyzické prvky.
Obrázek 5.13: Odhad relativního průběhu objemu přenesených dat v jádru páteře sítě CESNET2 v roce 2006
Technologickou infrastrukturu systému FTAS jsme v průběhu roku povýšili náhradou čtyř kolektorů novým hardwarem. Historii uchování příchozích flow záznamů v neagregované podobě se tímto podařilo relativně stabilizovat - aktuálně se pohybuje v rozsahu od 9 do 17 dnů (podle zdroje) při vzorkování příchozích flow záznamů na vstupu systému v rozsahu 2-10 (zatím s hodnotou vzorkování 1 na paketové úrovni na páteřních směrovačích). Z hlediska zpracování příchozích flow záznamů se pohybujeme v současnosti v oblasti cca 3000 flow/s na kolektor v dlouhodobém průměru. Rychlost vyhledávání z neagregovaných flow dat na pozadí se snížila - pro časový rozsah 1 týdne při relativně jednoduché podmínce (např. kombinace dvou flow polí a pro každé jedna podmínka) se doba vyhledávání pohybuje okolo 90 minut. Během května jsme ve spolupráci s aktivitou Rozvoj sítě národního výzkumu a vzdělávání plošně přešli na exportní formát NetFlow verze 9 a ve spolupráci s aktivitou Programovatelný hardware jsme rozšířili testování sond FlowMon.
5.2.2 Dokumentace uživatelského rozhraní sytému FTAS
Množina kolegů, kteří systém v prostředí sítě CESNET2 užívají, postupně narůstá. Proto bylo nutné vhodným způsobem popsat základní způsoby použití systému a zdokumentovat jeho uživatelské rozhraní, a to přesto, že běžící instalace systému je průběžně inovována. Důležité jsou v tomto smyslu základní principy, na kterých je práce s uživatelským rozhraním založena. Uživatelské rozhraní jsme popsali (aktuální stav ze září 2006) formou technické zprávy [Kos06], která je dostupná na webu sdružení.
5.2.3 Další rozšíření sytému FTAS
Kromě výše uvedeného jsme v průběhu roku 2006 systém rozšířili o některé další vlastnosti. Zpracování interních statistických informací jednotlivých kolektorů (průběhy příchozích a zpracovávaných flow záznamů) jsme přepracovali a jejich vizualizaci upravili do podoby umožňující interaktivní výběr časového rozsahu a zároveň jsme přidali informace o využití lokální diskové kapacity kolektorů (obrázek).
Další úpravou bylo přepracování některých vnitřních funkcí systému, což umožní pracovat na úrovni uživatelského rozhraní s novými, umělými poli flow záznamu. V případě potřeby nadefinovat taková pole, bude jejich obsah dán výsledkem algoritmů aplikovaných na kombinaci reálných polí flow záznamu. Funkčnost tohoto mechanismu zatím ověřujeme na jednoduchém příkladu pole reprezentujícího průměrnou délku paketu.
5.2.4 Další vývoj systému FTAS
Pro další období plánujeme plně využít stávající možnosti systému v prostředí sítě CESNET2, konkrétně vytvořit základní klasifikační model provozních záznamů pro síť CESNET2 a využít jej v rámci specifických agregovaných statistik. Dále chceme využít možností distribuce systému mezi více HW prvků, docílit přesnějšího krátkodobého obrazu o provozu a samozřejmě udržovat systém průběžně ve funkčním stavu. V oblasti podpory bezpečnosti máme v plánu začít s ověřováním možností pro-aktivní detekce některých typů útoků v závislosti na proměnném dvoustupňovém (úroveň paketů, úroveň flow záznamů) vzorkování dat. To v praxi znamená rozšířit v první fázi interní funkce systému o možnost začlenění v konfiguraci zadaného kódu do řetězce pro zpracování vstupních flow záznamů v reálném čase.
|
|
obsah |
následující
|