Provoz systému PERT
Technická zpráva CESNETu
číslo 2/2006
k dispozici též ve formátech PDF,
PostScript a
XML.
Vladimir Smotlacha
31. 12. 2005
1 Úvod
Tato technická zpráva poskytuje základní informace o systému PERT. Jejím účelem je poskytnout orientaci a proto je záměrně napsána česky. Pro detailnější popis doporučuji dokumenty vytvořené příslušnou pracovní skupinou projektu GEANT2 (viz http://pace.geant2.net).
2 Základní definice
PERT (Performance and Response Team) je provozní služba určená pro řešení problémů s kvalitativními parametry sítě mezi dvěma koncovými uživateli v síti GEANT2. V jistém smyslu můžeme PERT chápat jako obdobu známého CERTu, který se zabývá bezpečnostními incidenty.
2.1 Skupiny účastníků PERTu a jejich role
- Koncoví uživatelé (End User)
- Z hlediska PERTu je jím každý, kdo má nějaký problém s výkonností sítě (např. propustnost, zpoždění), který spadá do předmětu činnosti PERTu, a požaduje pomoc s jeho řešením.
- Správa sítě (NOC)
- Pracovníci NOC hrají klíčovou roli, přestože se na Ze všech problémů, které jim hlásí koncoví uživatelé, musejí vybrat ty, které patří do předmětu činnosti PERTu. Tím je zajištěn kvalifikovaný filtr mezi koncovými uživateli a PERTem.
- Case Manager (CM)
- Zaměstnanec pověřený operativním provozem PERTu. Má službu v určené době (většinou jeden týden) a přebírá od NOC hlášení o problémech (tzv. Duty Case Manager - DCM). Pokud zjistí, že se jedná o záležitost patřící do PERTu, založí Případ (Case) a snaží se ho vyřešit. Každý CM má k dispozici znalostní databázi a může si vyžádat pomoc od SME. CM zodpovídá za postup v řešení všech dosud otevřených Případů. Pro řešení složitějších Případů je určen CM, který bude mít Případ trvale na starosti nezávisle na aktuální službě DCM (tzv. Special Case Manager - SCM).
- Subject Matter Expert (SME)
- Odborník na určitou třídu problémů (např. operační systém, hardware), který je schopen řešit komplikované problémy. Nepodílí se na rutinním provozu PERTu, jeho účast je pouze občasná a na základě kvalifikované žádosti CM. Tito experti jsou delegováni k účasti v PERTu svým zaměstnavatelem.
- PERT Manager (PM)
- Správci systému PERT.
2.2 Trouble ticket systém
Je systém pro evidenci a komunikaci při řešení jednotlivých Případů (case). Přístup do Trouble ticket system je autentizován pomocí osobních certifikátů (viz https://www.pert.geant2.net:8443/pert)
2.3 Znalostní databáze (knowledge base)
Databáze obsahující doporučení pro CM jak postupovat při konkrétním Případu se specifickými příznaky, aby se dospělo k nejpravděpodobnější příčině problému. Databáze je organizována tak, aby se v ní dalo hledat pomocí klíčových slov.
2.4 Provozní denník (PERT diary)
V denníku jsou uvedeny denní záznamy o událostech - nové případy, postup při řešení. Denník je určen jako evidence činnosti systému PERT a slouží především jako administrativní dodklad pro PM. Neuvádí se tam proto žádné detailní odborné informace.
2.5 Komunikační prostředky
Pro komunikaci v rámci PERTu se slouží dva listy:
- pert-report@geant2.net je určen pro hlášení problémů. Členy listu jsou NOCs, CM and PM. V tomto listu se řeší i administrativní záležitosti PERTu.
- pert-discuss@geant2.net je určen pro řešení problémů. Členy jsou CM a SME. Pomocí tohoto listu CM žádá o spolupráci SME.
3 Práce s ticket systémem
3.1 Stavy ticketu
- OPEN
- počáteční stav ticketu po otevření.
- ACKNOWLEDGED
- stav ticketu po začátku řešení
- UPDATED
- ticket se dostane do tohoto stavu (a zůstává v něm) po doplnění nějakých nových informací
- RESOLVED
- ticket se dostane do tohoto stavu, když PERT se domnívá, že je problém vyřešen
- CLOSED
- koncový stav ticketu. Uživatel potvrdil, že bylo nalezeno řešení
- CANCEL
- alternativní koncový stav v případě chybně zadaného ticketu nebo pokud se řešení nepodařilo nalézt.
Následující diagram znázorňuje vazbu mezi stavy ticketu:
Obrázek 1: Stavy ticketu
3.2 Struktura ticketu
Ticket je formalizovaný záznam o Případu. Obsahuje tři části: hlavičku (header), seznam provedených akcí (actions) a výsledek (resolution). V hlavičce jsou uvedeny veškeré vstupní informace o Případu. Při každé práci s Případem, která přináší nové poznatky (provedené testování, doplňující informace, úvaha o možných příčinnách,...) se zakládá nový záznam (action). V části výsledek je uvedeno řešení problému a údaje o celkové době řešení a o úspěšnosti.
3.3 Práce s ticketem
Veškerá manipulace se provádí přes intuitivní webové rozhranní. Po otevření stránky se objeví seznam vlastních ticketů a stručné menu.
- Založení nového ticketu
- Po výběru položky menu "Add ticket" se zobrazí formulář s atributy nového ticketu. Povinné položky jsou Date, Privacy, Urgency, Keyword, Contact information, Subject and Description, dále jsou ve formuláři nepovinné položky, které blíže specifikují koncový systém, projev chyby. Po vyplnění formuláře se na následující stránce musí ticket potvrdit tlačítkem Acknowledge, případně zrušit tlačítkem Cancel.
- Úprava ticketu
- Ticket je možné vybrat ze seznamu kliknutím na číslo ticketu nebo políčko Subject.
V následujícím formuláři je možné přidávat k ticketu nové popis vykonaných činností
(Actions).
Tlačítka Resolve a Cancel v horní části stránky mění stav ticketu, což je trochu matoucí - Cancel tedy neznamená zrušení posledních změn. Při změně na RESOLVED je možné doplnit upřesňující informace a stanovit v procentech odhad úspěšnosti řešení.
Ticket ve stavu RESOLVED je možné uzavřít (CLOSED) nebo převést zpět do stavu UPDATED.
4 Činnost Case Managera
4.1 Denní povinnosti
CM musí být pro činností pro PERT k dispozici v pracovních dnech v době 9:00 - 18:00 CET. Práce může být vykonána kdykoliv v uvedené době, ale je nutno zkontrolovat alespoň jedenkrát dopoledne a jedenkrát odpoledne, zda nejsou hlášeny nové Případy.
CM také musí na závěr své denní služby zapsat do denníku stručné shrnutí událostí v PERTu v daném dni.
Organizace DANTE, jako provozovatel sítě GEANT2, připravuje s přiměřeným předstihem rozpis služeb CM podle členských organizací. Každá organizace pak sama určuje, kdo z jejích pracovníků bude mít službu CM. Případné přesuny mezi organizacemi musí být vzájemně dohodnuté a nahlášené PM.
4.2 Založení nového Případu
Informaci o novém problému dostane CM většinou v listu pert-report. Před založením nového ticketu musí zkontrolovat úplnost informací s ohledem na druh hlášeného problému. Pokud nějaké údaje nemá, musí si je sám zjistit např. dotazem u NOC nebo koncového uživatele. Je nutné znát:
- kontakt na uživatele, který hlásil problém
- popis jak se problém projevuje a co uživatel požaduje
- hardware a software koncové stanice (koncových stanic)
- způsob připojení do sítě, příp. kontakt na místního správce sítě
- výpis cesty mezi oběma koncovými body a její vlastnosti (např. s použitím programů ping a traceroute)
Teprve po shromáždění nezbytných informací CM založí nový ticket a začne případ řešit.
4.3 Postup při řešení Případu
CM se snaží nalézt podobné rysy s některým dříve řešeným případem. V tom mu pomůže znalostní databáze. Pokud CM nalezne řešení, sdělí ho uživateli a požádá o vyjádření. Další možnosti jak postupovat:
- navržení testů nebo měření pro získaní nových dat nebo ověření nějaké hypotéz
- zaslání Případu do listu pert-discuss
- žádost CME o pomoc s řešením
O každé akci se uvádí záznam do ticketu. Pokud se při řešení Případu nic zjevného neděje, je na CM aby byl aktivní a dotázal se, zda je nějaký pokrok a případně sám navrhl nové testy. Cílem je dospět u každého případu k řešení, resp. zjistit, že řešení neumíme nalézt.
4.4 Uzavření Případu
Když se CM domnívá, že Případ je vyřešen, doplní informaci o řešení do ticketu a změní jeho stav na RESOLVED. Poté požádá koncového uživatele a vyjádření. V případě souhlasu s řešením je stav ticketu změněn na CLOSED, v opačném případě se vrátí do stavu UPDATED.
5 Závěr
Systém PERT se neustále vyvíjí a doplňuje. Není proto vhodné chápat tuto zprávu jako dokumentaci systému, ale jen jako úvodní text.