8   MetaCentrum

Dlouhodobým cílem aktivity MetaCentrum je budování, rozvoj a provoz distribuované výpočetní infrastruktury – gridu – v rámci České republiky a její zapojení do mezinárodní infrastruktury formou účasti v odpovídajících mezinárodních projektech. Součástí provozované gridové infrastruktury jsou i nezbytné úložné kapacity, sloužící zejména jako úložiště primárních dat, mezivýsledků a konečných výsledků výpočtů.

V průběhu roku 2009 byla aktivita významně ovlivněna i zapojením do přípravy národního projektu velké infrastruktury a do celé řady mezinárodních projektů, které představují přechod na novou gridovou infrastrukturu EGI. Příprava projektů s sebou přinesla určité zpomalení výzkumných aktivit a naopak vyšší důraz na vývoj s okamžitým uplatněním v infrastruktuře. Primárně se pak aktivita zaměřila na výraznou podporu provozu a uživatelů, s bezprostředním cílem zvýšit efektivitu využití poskytované infrastruktury a potvrdit tak přínosy sdílené výpočetní a úložné infrastruktury co největšímu poštu uživatelů.

V roce 2009 pokračovala tvorba uživatelsky přizpůsobivého gridového prostředí, postaveného na důsledné virtualizaci celého výpočetního prostředí MetaCentra. Tímto zaměřením je MetaCentrum plně kompatibilní s aktuálními trendy tzv. Cloud computing, tedy poskytování elastické výpočetní a úložné kapacity, kterou si uživatelé mohou přizpůsobovat svým vlastním potřebám. Uživatelé již dále nepracují s fyzickými počítači, ale s virtualizovanou vrstvou, v níž mohou spouštět vlastní obrazy operačních systémů a v nich optimalizovaných aplikací. Vedle jednotlivých „virtual appliances“ mohou spouštět i celé virtuální clustery, kterým MetaCentrum poskytuje i virtualizovanou síťovou vrstvu, garantující plnou izolaci jednotlivých uživatelů a jejich systémů. Vytvořené prostředí je současně velmi bezpečné, data jsou oddělena ve druhé vrstvě síťového modelu (L2) a je tak možné dokonce replikovat a paralelně spouštět i uživatelské virtuální clustery se statickými IP adresami. Jednotný virtualizovaný systém přitom umožňuje spravovat celé prostředí s minimálními náklady na systémovou péči.

V průběhu roku došlo k výraznému zvýšení míry využití výpočetních zdrojů, zapojených do MetaCentra. Za 11 měsíců roku 2009 uživatelé propočítali na 4,5 milionu hodin CPU v téměř půl milionu úloh. Úpravami práce s frontami a politikami, které omezovaly počet úloh souběžně spuštěných jednotlivými uživateli, se podařilo během druhého pololetí prakticky ztrojnásobit propočítaný strojový čas a zdvojnásobit počet úloh. Tím významně vzrostla efektivita využití zdrojů (snížil se „idle“ čas, při němž procesory nezpracovávají žádnou uživatelskou úlohu). Prudký nárůst úloh současně potvrdil stále rostoucí zájem uživatelů o výpočetní kapacity. Od roku 2008 jsme začali sbírat publikované práce, které vznikly s využitím zdrojů poskytovaných MetaCentrem. Během roku 2009 uživatelé zaregistrovali na 30 odborných prací publikovaných v mezinárodních časopisech nebo na prestižních mezinárodních konferencích s poděkováním MetaCentru.

Pokračovalo řešení projektu EU EGEE III (7. rámcový program), jehož prostřednictvím je MetaCentrum zapojeno do celoevropské gridové infrastruktury. CESNET rovněž vystupoval celý rok 2009 jako koordinátor dalšího EU projektu EGI_DS (European Grid Initiative Design Study), v jehož rámci byly položeny základy pro budoucí celoevropskou infrastrukturu EGI. MetaCentrum je také zapojeno do řešení projektu EUAsiaGrid, který je věnován rozšíření gridové infrastruktury v oblasti Dálného východu. Pracovníci MetaCentra se rovněž intenzivně zapojili do přípravy nových EU projektů v rámci výzvy, která explicitně zmiňovala EGI jako výsledek práce projektu EGI_DS. Celkem je MetaCentrum (a tedy sdružení CESNET) zapojeno v návrzích 6 projektů, včetně nejvýznamnějších – EGI InSPIRE, který má odpovídat za další provoz a rozvoj celoevropské gridové infrastruktury, EMI, zaměřený na další vývoj gridového middlewaru, a ROSCOE a SAFE, zaměřené na podporu uživatelských skupin. Jeden projekt – ESMI (European Security Monitoring Infrastructure) – sdružení koordinuje, v projektu CHAIN – tento projekt je věnován propojení EGI infrastruktury s oblastmi mimo Evropu – sdružení odpovídá za jednu workpackage. Toto zapojení do mezinárodních aktivit bylo celý rok úzce propojeno s přípravou transformace sdružení CESNET do velké národní infrastruktury, včetně podpory z Operačního programu Věda a výzkum pro inovace (OP VaVpI).

8.1   Provoz a uživatelská podpora

8.1.1   Základní statistiky

Ke konci roku 2009 MetaCentrum eviduje 371 registrovaných uživatelů (v roce 2008 to bylo 210 uživatelů). Úlohy během roku spustilo celkem 219 uživatelů, část uživatelů využívá registraci v MetaCentru pouze pro přístup k úložným kapacitách (několik desítek osob), část nikdy nebyla skutečně aktivní (v některých případech je to způsobeno tím, že jsou členy skupin, kde úlohy zadává pouze menší skupina a ostatní pracují pouze s výsledky – účet v MetaCentru jim umožňuje shlédnout výsledky přímo v MetaCentru, bez nutnosti kopírovat data na své lokální disky).

Pro srovnání uvádíme v tabulce 8.1 počty registrovaných uživatelů v jiných gridových infrastrukturách v Evropě1.

NGICPUUživatelů
PL-Grid (Polsko)2000400
Spanish Network for e-Science (Španělsko)1600300
Begrid (Belgie)800301
D-Grid (Německo)3000–5000250
IGI (Itálie)3000několik set
Austrian Grid (Rakousko)800220
Slovak grid (Slovensko) 17540
SweGrid (Švédsko)60075
CSC (Finsko) 121275

Tabulka 8.1: Počty uživatelů evropských gridových infrastruktur

Uživatelé MetaCentra měli k dispozici celkem 345 fyzických strojů s 1468 jádry (stav k 30. 11. 2009). Tabulka 8.2 ukazuje trend růstu počtu procesorů v MetaCentru v uplynulých letech.

2004200620082009/12009/2
262 CPU600 CPU1200 CPU1320 CPU1468 CPU

Tabulka 8.2: Vývoj počtu procesorů MetaCentra

V období do konce listopadu uživatelé propočítali 4 525 367 hodin CPU v celkem 477 871 úlohách. Za první pololetí to bylo pouze 1,5 milionu hodin a 125 tisíc úloh. Významný nárůst ve druhém pololetí je spojen se dvěma změnami:

  1. Přidání do té doby „soukromých“ clusterů Perian a Orca mezi sdílené zdroje MetaCentra (tyto clustery byly již dříve zapojeny do MetaCentra, ale byly k dispozici výlučně svým majitelů, tj. výzkumným skupinám v Brně, které tyto clustery pořídily).
  2. Zrušení limitu na počet úloh jednoho uživatele ve frontě.

V průběhu 2. pololetí vzrostlo vytížení clusterů MetaCentra na 75 až 90 %, došlo tedy k faktické saturaci. To potvrzuje i tabulka doby čekání úloh na obrázku 8.1, z níž je patrný nárůst doby čekání v souvislosti s podstatným vzrůstem zájmu uživatelů a současně vzrůstu efektivity využití zdrojů MetaCentra.

[Obrázek]

Obrázek 8.1: Čekací doby úloh (větší obrázek)

Zatímco v prvním pololetí prakticky žádná úloha nečekala více jak 5 dní, ve druhém pololetí je viditelný počet úloh, které ve frontě čekáním strávily více jak 20 dní.

[Obrázek]

Obrázek 8.2: Doba běhu úloh (větší obrázek)

Zajímavé srovnání poskytuje rovněž pohled na dobu běhu jednotlivých úloh (obrázek 8.2). Extrémně krátké úlohy zpravidla ukazují na problémy se zadáním a konfigurací – na uživatele s vysokým počtem těchto úloh se soustřeďuje uživatelské podpora. Graf nerozlišuje mezi sekvenčními a paralelními úlohami – přitom značné množství úloh s délkou trvání v řádu hodin je paralelních (využívajících zpravidla 4–32 procesorů), MetaCentrum tak efektivně zkracuje dobu čekání na výsledky (pětihodinová úloha na 16 procesorech by se počítala více jak 3 dny na jednoprocesorovém stroji a stále skoro celý den na čtyřprocesorovém systému).

Zájem o podporu paralelních úloh je rovněž možné demonstrovat na využití 16procesorových strojů Manwe, které dosahuje celoročně více jak 85 %, viz obrázek 8.3.

[Obrázek]

Obrázek 8.3: Vytížení clusteru Manwe (větší obrázek)

Efekt nasazení nové politiky práce s frontami je dobře viditelný na vzrůstu využití clusteru Hermes, který byl zprovozněn v lednu 2009 a který obsahuje v každém uzlu 8 jader. Z necelých 60 % v prvním pololetí se dosálo téměř 80 % využití ve druhém pololetí (stále je však cluster Hermes pod efektivitou využití vícejaderných systémů Manwe).

[Obrázek]

Obrázek 8.4: Vytížení clusteru Manwe (větší obrázek)

[Obrázek]

Obrázek 8.5: Podíl institucí na konzumaci výpočetního času (větší obrázek)

[Obrázek]

Obrázek 8.6: Podíl aplikací na konzumaci výpočetního času (větší obrázek)

Interakce s uživateli a řešení jejich problémů probíhá primárně prostřednictvím systému správy lístků (Request Tracking System, RT). V průběhu roku 2009 bylo v tomto systému založeno přímo uživateli (zpravidla konkrétní dotaz nebo oznámení problému) nebo portálem MetaCentra na základě požadavku uživatelů (zřízení či prodloužení účtu, žádost o zvýšení diskových kvót apod.) 924 nových lístků. K nim dále přibylo na 751 lístků generovaných správci (hardwarové problémy, chyby a náměty pro vylepšení softwaru, interní úlohy apod.). Z minulého roku zůstalo v systému přes 200 lístků, přitom za celé období bylo 1508 lístků uzavřeno (tedy vyřešeno).

8.1.2   Provozní zajištění

Skupina provozu se kromě běžné správy, řešení hardwarových a konfiguračních problémů věnovala především dalšímu dolaďování, stabilizaci a vylepšování služeb nasazených v předchozím období. Podstatně jsme vylepšili plánování paralelních úloh a úloh s vysokými nároky na jiné zdroje než CPU v plánovači PBSPro. Před touto úpravou byly často paralelní úlohy, které vyžadují současně větší počet procesorů, předbíhány jednoprocesorovými úlohami. Ty sice měly zpravidla nižší prioritu, avšak díky tomu, že vyžadovaly méně zdrojů (pouze jeden procesor) byly plánovačem spouštěny dříve a způsobovaly tak vyhladovění (starvation) víceprocesorových paralelních úloh (které přitom s vyšší prioritou měly být v provozu zvýhodněny). Plánovač nyní dokáže pro tyto úlohy automaticky rezervovat nezbytné zdroje a nedovolí jejich obsazení úlohami s nižší prioritou. Dále jsme vylepšili zpracování dlouho čekajících (starving) úloh tak, aby byly i u nich respektovány priority front. Nové nastavení front rovněž důsledněji podporuje princip fair-share, kdy se priorita úlohy dynamicky mění v závislosti na množství času dříve propočítaného stejným uživatelem – toto pravidlo zamezuje uživatelům, kteří zadávají velké množství úloh, získat neúměrně více výpočetních zdrojů. Dosáhli jsme tak zkrácení doby čekání úloh s nejvyšší prioritou při současné vyšší efektivitě spouštění krátkých úloh.

Dále jsme se věnovali vylepšování nástrojů pro sledování úloh na portálu, zejména zrychlení a snížení paměťových nároků a z nich vyplývající nestability při zvlášť velkém počtu úloh v systému. Zlepšili jsme rovněž chování systému pro koordinaci virtuálních strojů Magrathea, dále se věnovali analýze problémů a odstraňování chyb objevených v kódu některých klíčových služeb (objevili a opravili jsme závažný bezpečnostní problém v KDC Heimdal, chyby ve správě paměti v KDC, serveru NFSv4 a klientském kódu souborového systému AFS, falešně pozitivní výsledky programu pro vyhledávání napadení systému škodlivými kódy checkrootkit v prostředí Vserver a jiné).

Pokračovala virtualizace infrastruktury, ke konci roku 2009 jsou virtualizovány všechny vícejaderné uzly jednotlivých clusterů v majetku sdružení CESNET.

8.1.3   MetaPortál

V prvním pololetí byla hlavním výsledkem nová verze nástroje Pbsmon, který na portálu zobrazuje aktuální stav vytížení virtualizované infrastruktury. Aby bylo možné skutečný stav zobrazit, bylo nutné provést inventuru a změny v automatizované evidenci fyzických strojů v systému Perun a zavést evidenci mapování virtuálních strojů na fyzické.

Pro snadnější orientaci uživatelů ve stále složitější a rozšiřující se nabídce výpočetních zdrojů byl vytvořen nový nástroj „Sestavovač qsub“, dostupný na portálu, který pro konkrétního uživatele na základě znalosti aktuálního vytížení zdrojů a znalosti o účtech uživatele pomáhá se sestavením požadavku na zdroje.

Ve druhém pololetí jsme většinu vývojového úsilí věnovali na zlepšení výpočtů statistik o historickém vytížení výpočetních strojů. Tato problematika je ve virtualizovaném prostředí MetaCentra velmi komplexní, bylo třeba začít evidovat historické změny počtu procesorů fyzických počítačů, změny přiřazení počítačů do clusterů, výpadky fyzických i virtuálních počítačů, dobu přiřazení fyzických i virtuálních počítačů do speciálních front označujících výpadky a rezervace, rezervace počítačů mimo plánovací systém PBS, a řešit souběhy různých stavů více virtuálních strojů na jednom fyzickém. (Problematika počítání statistiky v MetaCentru je podrobně popsána na interní wiki https://meta.cesnet.cz/metawiki/index.php5/Metodika_statistiky).

Průběžně jsme vylepšovali portál o orientaci uživatelů v něm, přidávali či aktualizovali dokumentaci a rovněž zpřístupňovali nové aplikace dle požadavků uživatelů.

8.1.4   Semináře

V průběhu roku jsme realizovali dvě setkání s uživateli:

Obě setkání byla uživateli v anonymních dotaznících velmi pozitivně hodnocena. Do budoucna se ukazuje, že MetaCentrum bude muset organizovat nejméně dva druhy setkání s uživateli:

8.1.5   Nový hardware

Investiční aktivity jsme soustředili především do nákupu nového clusteru, který poslouží jako náhrada starého clusteru s 32bitovými procesory umístěného v sídle CESNETu. Nový cluster bude vybaven uzly s procesory Intel Nehalem (28 uzlů po dvou čtyřjádrových procesorech, celkem 224 jader) propojenými technologií Infiniband 4×QDR (40 Gb/s). Dále jsme pořídili dva stroje Sun X4600, každý s 32 jádry (další pokračování úspěšné série strojů Manwe, viz. statistiky výše). Tento nákup byl realizován díky výjimečným cenovým podmínkám ve slevové akci pro akademické prostředí „Sun Matching Grant“. Pořídili jsme také nové zálohovací servery pro obsluhu páskových knihoven (to si vyžádal několikanásobný nárůst zálohovaných diskových kapacit v průběhu roku), dvoučlennou clusterovou sestavu se sdíleným diskovým pole pro vývojové práce a další podobné sestavy pro povýšení kapacit portálu MetaCentra a dalších souvisejících služeb.

8.2   Služby ukládání dat

MetaCentrum rovněž provozuje několik systémů ukládání dat s lokálním i globálním dosahem. Každý uzel každého clusteru má k dispozici /scratch prostor pro ukládání mezivýsledků probíhajících výpočtů – kapacita se pohybuje v řádu desítek až stovek GB na uzel. Domovské adresáře (svazky /home) jsou lokální pro každý cluster a zpravidla realizovány lokálním NFS serverem (verze 3 nebo 4).

Hlavní úložné kapacity jsou zpřístupněny protokolem NFSv4. Na všech clusterech s výjimkou Loslab je k dispozici svazek /storage, který aktuálně zpřístupňuje na 44 TB diskové kapacity. Z ní je aktuálně obsazeno přes 31 TB ve více jak 30 milionech souborů Nějaká data mělo v tomto svazku uloženo 289 uživatelů (více než je uživatelů, spouštějících úlohy), tři největší uživatelé mají uloženo cca 5 TB každý. Měření realizovaná v průběhu roku ukázala, že NFSv4 diskové prostory nemohou být využity přímo jako /home svazek mezi městy – přístup klienta z Plzně na server umístěný v Brně je až 10krát pomalejší než lokální přístup z klienta v Brně na server v Brně. Příčinou je vysoká citlivost protokolu NFSv4 na latenci při výměně řídicí informace (velmi malé zprávy). Přes tento nedostatek je NFSv4 vhodným prostředím pro ukládání dlouhodobých dat, která se před vlastním výpočtem přesunou na cluster, kde probíhá výpočet a po skončení výpočtu se pak přesunou zpět do NFSv4 svazku.

MetaCentrum stále poskytuje uživatelům i globální systém souborů postavený na protokolu AFS. Primárně je takto zpřístupněn software, uživatelé ale mohou AFS používat rovněž jako další úložné prostředí.

V průběhu roku jsme pokračovali s experimentálním nasazením paralelního systému Lustre, který je v současné době k dispozici na clusteru Quark a uvažujeme o jeho postupném rozšíření na další clustery MetaCentra. Naopak dosavadní experimenty s pNFS zatím nepotvrdily použitelnost této paralelní verze protokolu NFS (dochází ke zhroucení operačního systému s ovladači pNFS), vývojáři slibují stabilnější verzi na jaře 2010.

8.3   Virtualizace

Rok 2009 byl v oblasti virtualizace ve znamení cesty virtualizačních nástrojů blíže uživatelům. Technicky to znamenalo integraci existujících řešení do nového celku sloužícího k poskytování nové služby. Využití virtualizace jako nástroje optimalizace infrastruktury a její správy samozřejmě zůstává důležitou strategickou orientací.

Nová služba představuje zásadní krok ke konceptu cloud computingu, poskytování zdrojů jako takových a ponechání volby uživatelského prostředí na preferenci uživatele. Uživatelé mohou požádat o spuštění vlastního stroje stejně snadno (stejnými prostředky), jako o spuštění výpočetní úlohy. Naše technické řešení je plně integrováno do stávající gridové infrastruktury a dovoluje poskytovat obě tyto služby efektivně nad jedním souborem fyzických zdrojů.

Novou službu nabízíme pod označením virtuální cluster, jelikož základním nabízeným celkem není jeden virtuální stroj, ale jejich sada. Součástí virtuálního clusteru může být i dedikovaná virtuální síť, což je nový zdroj dostupný uživatelům prostřednictvím plánovače. To je možné díky pokročilé technologii jádra sítě CESNET2, která umožňuje vytvářet na požádání virtuální sítě přes celou ČR s minimální režií zřízení i provozu.

Hlavním přínosem pro uživatele je vetší flexibilita, možnost používat zdroje MetaCentra v souladu se svými zvyklostmi a potřebami. Uveďme dva základní příklady, které jsou podrobně popsány v našich publikacích:

  1. Uvažujme uživatele, který je zvyklý spouštět si jednoduše své relativně nenáročné úlohy a nevyhovuje mu zadávání úloh dávkovým systémem. Tento uživatel má nyní možnost požádat dávkový systém o přidělení zdrojů ve formě virtuálního stroje, který má jen pro sebe a může si v něm spouštět libovolné procesy bez ohledu na plánovač úloh MetaCentra.
  2. Jiným příkladem je uživatelská skupina s vlastním malým clusterem, tudíž i konkrétním zaběhlým pracovním prostředím. Té nová služba MetaCentra nabízí možnost zcela obejít nutnost přizpůsobit své úlohy zvyklostem velkého národního prostředí či aktuálně dostupným verzím softwaru tam instalovaným. Výpočetní zdroje MetaCentra zde mohou být připojeny zcela transparentně do lokálního clusteru jako nové virtuální uzly (stejný OS a konfigurace, stejná bezpečnostní politika, stejný správce).

Práce v oblasti virtuálních clusterů směřovala k ustavení výše popsané architektury a zaměřovala se na

Podle plánu jsme do vyvíjené verze postavené na modifikacích plánovacího systému PBSPro integrovali služby SBF (pro správu virtuálních sítí), Magrathea s rozšířením pro dynamicky bootovatelné domény, Booot pro stavbu virtuálních strojů z obrazů uložených v repository. PBS podporuje i skupiny definované v autorizační skupině, pomocí nich je řízen přístup do clusteru pro spouštění úloh uvnitř clusteru.

Systémy PBS a Magrathea jsme rozšířili o podporu dynamicky bootovatelných strojů, které bootují obraz pracovního uzlu podle aktuálního požadavku uživatele. To je zásadní rozšíření dosavadního stavu, kde bylo možno do clusteru zařazovat pouze již nainstalované stroje. Systém Booot jsme rozšířili tak, aby umožňoval automatickou instalaci uživatelských obrazů z repozitáře.

Rozpracovali jsme zejména scénář, kdy celý virtuální cluster je uzavřen ve virtuální síti. Pak je potřeba vyřešit přístup uživatele ke clusteru a potenciálně přístup strojů uvnitř takto ošetřeného clusteru ke službám MetaCentra. V této oblasti jsme implementovali prototyp servisní domény, která zajišťuje VPN server pro přístup uživatele ke clusteru, DHCP server pro vnitřní adresaci virtuálního clusteru a služby překladu adres pro přístup do MetaCentrového AFS a NFSv4 i pro privátní clustery. První naměřené výsledky přístupu k souborovým systémům touto metodou ukazují, že dochází k poklesu propustnosti. Bude nutno hlouběji prozkoumat, zda se jedná pouze o efekt latence linky vlivem zapojení překladače adres, nebo zda samotný překlad také přináší další zhoršení, a podle výsledku navrhnout vhodné řešení. Služba vytvoření na síti uzavřeného virtuálního clusteru je dostupná v experimentální instalaci PBSPro pro první uživatele. Kompletní popis implementace je v technické zprávě [RŠS09].

8.4   Bezpečnost

Způsob využívání zdrojů MetaCentra v posledních letech ukázal potřebu sjednoceného přístupu k řízení přístupu. V roce 2009 jsme proto navrhli a implementovali autorizační infrastrukturu, která umožňuje centralizované nastavení přístupových politik a jejich jednotnou správu. Služba je plně integrována se systémem pro správu zdrojů Perun, ze kterého přebírá informace o dostupných službách a uživatelích a jejich identitách. Autorizační politiky jsou zapsány ve formě seznamů přístupových práv (Access Control Lists, ACL), které mohou popisovat i skupiny uživatelů. Pro správu skupin využíváme systém Grouper od Internet2, který je opět integrován se systémem Perun a umožňuje spravovat skupiny, a to i běžným uživatelům. Na rozdíl od jiných autorizačních řešení, autorizační služba MetaCentra nezavádí další komponenty do autorizačního procesu a v maximální míře využívá nativních mechanismů pro řízení přístupu, které jsou implementovány v koncových službách. Na základě aktuálních politik a informací o uživatelích a skupinách jsou generovány části konfiguračních souborů, které jsou pomocí „push“ modelu dopraveny až na koncové stroje a vloženy do konfigurace příslušných služeb. Díky tomuto mechanismu jsme vytvořili službu, která je dostatečně robustní a odolná proti výpadku autorizačních komponent a přitom stále poskytující dostatečnou globální správu přístupových politik. V současné době je autorizační služba nasazena pro řízení přístupu k interní části MetaPortálu, VPN serveru aktivity MetaCentrum a pro autorizaci přístupu na administrátorské účty na části strojů. V příštím roce budeme rozšiřovat počet podporovaných služeb.

V průběhu minulých let se vyskytlo několik bezpečnostních incidentů, jejichž řešení jsme se věnovali buď přímo v infrastruktuře MetaCentra nebo v rámci našich aktivit projektu EGEE. Získané zkušenosti ukázaly, že MetaCentru chybí podpora koordinovaného řešení incidentů. V roce 2009 jsme proto úzce spolupracovali s aktivitou CESNET-CERTS, která má zkušenosti, procedury i zkušený personál potřebný pro koordinaci řešení incidentů. Zaměření CESNET-CERTS bylo z naší iniciativy patřičně rozšířeno tak, aby pokrylo i incidenty z gridové oblasti. Tým CESNET-CERTS byl také rozšířen o dva pracovníky MetaCentra, kteří zodpovídají za jeho bezpečnost a vytváří tak potřebné rozhraní směrem ke gridovým aktivitám sdružení. CESNET-CERTS byl také napojen na komunikační kanály projektu EGEE, které slouží pro oznamování incidentů, jež se vyskytnou v evropském gridu a další diskusi o nich. Díky tomu je CESNET-CERTS plně informován o aktuálních incidentech v gridové infrastruktuře. Ustavené komunikační kanály i procesy byly využity v praxi během řešení incidentu, který se vyskytl na stroji projektu EGEE.

Věnovali jsme se také oblasti bezpečnostního monitoringu. Významným dílem jsme přispěli k rozvoji systému Pakiti, který slouží pro sledování bezpečnostních záplat a jejich aplikací. Pokračovali jsme v podpoře centralizovaného sběru logů, jak na úrovni spolehlivého transportu logovacích zpráv, tak i v oblasti jejich zpracování. Sledujeme tak např. uživatele, kteří používají heslo pro přihlášení do MetaCentra tak, abychom včas odhalili úspěšný slovníkový útok, jejichž frekvence velmi stoupla. Oblast bezpečnostního monitoringu je i klíčovou aktivitou CSIRT týmu projektu EGEE (Operational Security Coordination Team), kde zodpovídáme za koordinaci těchto činností.

V oblasti provozu jsme pokračovali v provozu registrační autority CESNET CA. Dále provozujeme Radius server pro eduroam pro uživatele MetaCentra a poskytovatel identit. V rámci podpory podpory federací identit poskytujeme technickou podporu pro elektronický atlas patologických snímků atlases.muni.cz, který jsme prosadili do velkého počtu akademických federací a stali se tak průkopníky poskytovatelů interfederačních služeb. S aktuálními 9 zapojenými zahraničními federacemi jsou atlasy pravděpodobně službou s nejrozsáhlejším zapojením na světě.

8.5   Nová plánovací architektura

Systém správy úloh MetaCentra využívá již téměř deset let centralizovanou instanci systému PBSPro. Tento přístup umožňuje poměrně snadno implementovat nové plánovací politiky – jak se ostatně prokázalo právě v průběhu roku 2009 – má globální přehled o všech zdrojích MetaCentra, umožňuje implementovat fair-share a využívat znalosti historie spuštěných úloh jednotlivých uživatelů atd. Přes tyto nepochybné výhody má však centrální plánovač PBSPro zásadní nedostatky, které se postupně projevují při růstu počtu zapojených clusterů:

  1. Centrální plánovač představuje úzké výkonnostní místo. Při rostoucím počtu uzlů i uživatelů nutně začne docházet k jeho zahlcení.
  2. Centrální plánovač představuje nejzranitelnější místo celého systému (single point of failure).

V roce 2009 jsme začali pracovat na nové koncepci plánování úloh v MetaCentru, která by oba výše zmíněné nedostatky odstranila, při současném zachování žádaných globálních vlastností (např. historie úloh, nezbytná pro implementaci fair-share politik). Navrhli jsme proto architekturu vzájemně kooperujících plánovačů, postavenou na následujících principech:

Schéma architektury je naznačeno na obrázku 8.7.

[Obrázek]

Obrázek 8.7: Architektura kooperujících plánovačů (větší obrázek)

Protože každá kombinace brány, lokálního plánovače a front může přijímat a plánovat úlohy pro celou gridovou infrastrukturu, nemá navržená architektura žádné slabé místo. Uživatel může zadávat nové úlohy na svůj lokální cluster i v případě, že ten je úplně odříznut od ostatních – v takovém případě budou úlohy posílány na lokální cluster (pokud jeho zdroje postačují) případně drženy ve frontě (označené „routing queue“ na diagramu výše) do doby, než budou další zdroje (clustery) opět dostupné. Naopak v případě výpadku lokálního clusteru (či jeho brány) může uživatel použít kteroukoliv jinou bránu v MetaCentru. Architektura je plně škálovatelná, přidání clusteru současně přidá lokální plánovač a bránu.

Paralelně s návrhem architektury jsme rovněž rozhodli o přechodu ze systému PBSPro na systém Torque. Systém PBSPro je komerční, s roční placenou licencí a cenou odvozenou od počtu spravovaných jader. To de facto znemožňuje jeho plošné nasazení v případě národní gridové infrastruktury (NGI), kde se předpokládá postupné připojování velkých clusterů různých organizací – nezbytné licence by buď musely hradit instituce, jejichž clustery se připojují, nebo sdružení CESNET samo. Přechod z PBSPro na Torque tyto problémy odstraní díky volné licenci tohoto systému. Ve druhé polovině roku jsme se proto soustředili na studium systému Torque, odlišností od PBSPro a rovněž podporu vlastností, které jsou potřebné pro implementaci výše naznačené architektury kooperujících plánovačů. Podařilo se nám prokázat, že systémem Torque bude možné plnohodnotně PBSPro nahradit a že současně jej bude možné rozšířit a doplnit tak, abychom v průběhu roku 2010 implementovali architekturu kooperujících plánovačů a připravili se tak na očekávaný přechod na NGI a výrazný vzrůst uzlů i procesorů v prostředí národní gridové infrastruktury.

 

Poznámky:

  1. Zdroj dat viz. http://knowledge.eu-egi.eu/knowledge/index.php/Main_Page, jedná se o údaje poskytnuté v roce 2008.

předchozí
obsah
následující
další weby:fond rozvojemetacentrumCzechLightpřenosyvideoservereduroameduID.cz