9 MetaCentrum
Gridy - rozsáhlé distribuované systémy počítačů, datových skladů a dalších zařízení, propojených počítačovou sítí - se stávají nezbytnou součástí globální výzkumné a vývojové infrastruktury. Provoz a další rozvoj gridové infrastruktury v České republice je hlavním cílem aktivity MetaCentrum, která tak vytváří nezbytné zázemí pro napojení nejen do mezinárodních gridově orientovaných aktivit, ale především poskytuje podmínky pro rozvoj všech vědních disciplin. Činnosti v rámci MetaCentra jsou úzce koordinovány jednak s dalšími aktivitami v rámci výzkumného záměru sdružení CESNET - především v oblasti bezpečnosti (spolupráce a intenzivní využívání výsledků práce kolem certifikační autority) a prostředí pro spolupráci - jednak s mezinárodními aktivitami v oblasti budování a rozvoje Gridů, zejména pak intenzivním zapojením do řešení celoevropského projektu EGEE (více viz samostatný text o tomto projektu dále ve zprávě). Aktivita MetaCentrum rovněž intenzivně spolupracuje s dalšími projekty, které přímo využívají budované gridové prostředí nebo je dále rozvíjejí specifickými požadavky (např. vývoj workflow a integrace ontologií v rámci projektu MediGRID).
Vlastní činnosti aktivity MetaCentrum lze obecně rozdělit do následujících oblastí:
- Provoz
- včetně nezbytného rozvoje výpočetních a datových zdrojů.
- Uživatelská podpora
- zajišťující kontakt mezi infrastrukturou (provozem) a vlastními uživateli; zprostředkovává rovněž zpětnou vazbu od uživatelů k vývoji.
- Bezpečnost
- zejména pak rozvoj nových přístupů, které vyvažují stále rostoucí potřeby zajištění bezpečnosti poskytované infrastruktury s požadavky a představami (a pohodlím) uživatelů.
- Výzkum a vývoj
- ve vybraných oblastech, zejména pak monitorování Gridů, tj. sledování provozních, spolehlivostních, výkonnostních a dalších charakteristik gridové infrastruktury.
V rámci aktivity MetaCentrum jsme se věnovali všem výše uvedeným oblastem, hlavní pozornost jsme v roce 2005 zaměřili na první dva, tj. provoz a uživatelskou podporu. Rozvoj bezpečnostní infrastruktury byl po většinu roku realizován v rámci samostatného projektu hardwarových tokenů Fondu rozvoje sdružení CESNET (hlavním řešitelem byla Masarykova univerzita). MetaCentrum výsledky projektu začalo přebírat od druhé poloviny roku. Výzkum byl úzce koordinován zejména s prací související se sítí excelence EU CoreGRID, do níž je zapojena Masarykova univerzita.
9.1 Provoz
Hlavním úkolem provozní skupiny MetaCentra je údržba a další rozvoj technického vybavení, které je tvořeno především výpočetními clustery, datovými kapacitami a zálohovacím zařízením. Provoz MetaCentra dále úzce spolupracuje s provozními skupinami jednotlivých uzlů (na ZČU, UK a MU) a garantuje tak plnohodnotné transparentní propojení lokálních a centrálně spravovaných výpočetních i úložných kapacit.
Veškeré výpočetní i datové zdroje MetaCentra jsou rozmístěny ve čtyřech lokalitách (všechny clustery jsou budovány z dual CPU uzlů s procesory Intel Pentium nebo AMD Opteron):
- V sídle sdružení v Praze Dejvicích je umístěn cluster skurut, jehož kapacity jsou využívány primárně v rámci mezinárodní spolupráce s projektem EGEE.
- V Praze na Ústavu výpočetní techniky UK na Ovocném trhu jsou do Gridu MetaCentra zapojeny výpočetní a diskové kapacity Univerzity Karlovy, především pak výpočetní systémy HAL, Mat a Acharon (všechny SGI) a související diskové kapacity (na ÚVT UK není umístěn řádný z vlastních clusterů MetaCentra).
- V Plzni na Západočeské univerzitě v Borech je umístěn výpočetní systém Pasifae (DEC/Compaq/HP) a clustery Nympha (vlastní cluster MetaCentra) a Minos (cluster patřící ITI ZČU spravovaný provozní skupinou MetaCentra).
- V Brně na ÚVT MU na Botanické ulici byly v roce 2005 k dispozici výpočetní systémy Eru, Grond a Gandalf a clustery Skirit (vlastní systém MetaCentra) a Perian (majetek NCBR MU ve správě MetaCentra). Je rovněž k dispozici dual CPU Power4+ počítač od IBM pro experimentální účely (majetek MetaCentra). Dále jsou na ÚVT k dispozici disková pole pro AFS (majetek MU) a rovněž pásková knihovna s kapacitou 12 TB nekomprimovaných on-line dat (majetek MetaCentra).
V průběhu roku došlo k postupnému vyřazení zastaralých systémů z provozu. Konkrétně šlo o počítače SGI s procesory MIPS (s výjimkou počítače Mat na UK) a počítač Pasifae na ZČU - výkon těchto strojů již neodpovídal současným požadavkům a očekávání uživatelů a jejich údržba již byla příliš drahá, případně ji výrobci zcela přestali poskytovat.
V roce 2005 nedošlo k významnému povýšení výpočetní ani diskové kapacity MetaCentra, investiční prostředky jsme použili primárně na plánovanou renovaci zálohovacího systému. Po předběžném průzkumu trhu jsme se rozhodli nahradit stávající zálohovací systém založený na páskové knihovně o kapacitě 12 TB, která již přestala vyhovovat z kapacitních důvodů, páskovou knihovnou založenou na technologii LTO-3 (kapacita jedné pásky zde činí 60 GB). Zvolená technologie kromě vysoké úložné kapacity zajišťuje i dlouhodobou ochranu investic, neboť se jedná o novou technologii, která bude na trhu dostatečný počet let. Ve vypsaném výběrovém řízení vyhrála pásková knihovna NEO8000 firmy Overland Storage s 500 úložnými pozicemi pro média. Nabídková cena umožnila nákup dvou rovnocenných knihoven, což poskytuje teoretickou kapacitu až 400 TB bez komprese.
Každá knihovna je vybavena čtyřmi páskovými mechanikami Hewlett-Packard Ultrium 3 a jedním výměnným mechanismem. Každý knihovna je obsluhována zálohovacím serverem (dual CPU AMD Opteron s 4 GB RAM), který je připojen třemi kanály SCSI Ultra320. Knihovny jsou umístěny v prostorách Západočeské univerzity v Plzni a Masarykovy univerzity v Brně a jsou ovládány kombinací zálohovacího software EMC Legato NetWorker a vlastními prostředky vyvinutého software (náhrada modulu Autochanger, viz dále). K serveru na ZČU je připojeno diskové pole EasySTOR 1606RPSA o kapacitě cca 8 TB, které slouží jako předřazená vyrovnávací paměť, umožňující provoz páskové knihovny s maximální rychlostí bez ohledu na rychlost přísunu dat přes počítačovou síť (zastavování pásek při nedostatečně rychlém přísunu dat negativně ovlivňuje životnost mechanik i médií i jejich využitelnou kapacitu). Analogické pole bude pořízeno v roce 2006 pro páskovou knihovnu v Brně.
V průběhu roku 2005 jsme vyvinuli programové vybavení, které nahrazuje funkce modulu Autochanger systému Legato NetWorker potřebné pro provoz páskové knihovny v našem prostředí. Tento postup jsme zvolili jednak z úsporných důvodů (cena příslušného modulu pro jednu páskovou knihovnu se pohybuje v řádu 1,2 milionu korun), jednak umožňuje přidání vlastních rozšíření pro správu médií, která by byla velmi obtížně integrovatelná, pokud by knihovnu řídil modul Autochanger. V příštím roce plánujeme další vývoj tohoto programového vybavení, především přidání funkce detailního sledování stavu mechanik a médií (chybovost, historie použití atd.).
Vytvořené distribuované řešení garantuje odolnost zálohovacího systému i proti "katastrofickým" událostem, při nichž by došlo k úplné havárii jednoho z uzlů MetaCentra. Přestože výběrové řízení bylo vypsáno začátkem druhého čtvrtletí, zákonné lhůty umožnily dodání páskových knihoven až v prosinci. Do rutinního provozu tak budou uvedeny až v roce 2006, v současné době probíhá pouze experimentální ověřování celého systému.
Součástí budování infrastruktury národního Gridu bylo i připojení brněnského uzlu MetaCentra na vysokorychlostní optickou síť CzechLight, budovanou v rámci aktivity Optické sítě. Konkrétně byl v první polovině roku pořízen přepínač Cisco Catalyst 6506 vybavený 24 porty 1GE (gigabitový Ethernet), třemi 10GE porty LAN PHY (pro napojení lokálních počítačů) a jedním zapůjčeným 10GE WAN PHY portem pro připojení do rozlehlé sítě (WAN). Přepínač byl připojen na 10 Gb/s trasu do Prahy, přes kterou se tak může brněnský uzel MetaCentra zapojit do mezinárodních vysokorychlostních aktivit (zejména prostřednictvím GLIF). Byla rovněž zakoupena jedna karta Chelsio T210 s akcelerovaným zpracováním TCP proudů s rozhraním 10GE. Vysokorychlostní připojení, zakoupené karty a přepínač byly intenzivně využívány při přípravě a vlastní realizaci demonstrace pro konferenci iGrid 2005 v San Diegu a při dalších podobných demonstracích (podrobněji viz kapitola Virtuální prostředí pro spolupráci). V roce 2006 počítáme s využitím pro experimenty vysokorychlostního přenosu mezi páskovými knihovnami.
Skupina provozu se dále zabývala následujícími činnostmi:
-
Zvýšení odolnosti celého provozu proti poruchám a výpadkům v jednotlivých uzlech. Jednalo se zejména o úpravy klíčových služeb a jejich konfigurací k odstranění závislostí, které nejsou nezbytně nutné. Konkrétně to bylo např. odstranění závislosti funkce obnovování kerberovských lístků a AFS tokenů (což jsou činnosti nezbytné pro spuštění každé úlohy v prostředí MetaCentra) na funkčnosti služeb systému Kerberos ve všech MetaCentrem obhospodařovaných realmech. Původní závislost vyplývá ze standardní implementace funkce vytváření AFS tokenů. Vylepšená implementace umožňuje spustit úlohu i v případě úplné- nedostupnosti některého realmu. Úloha se nespustí (a uživatel dostane hlášení o chybě) pouze v případě, že nedostupný je realm, který úloha nezbytně potřebuje.
Další oblastí bylo posílení redundance služeb a vlastní oprava chyb používaného programového vybavení, zejména pak v systému plánování úloh PBSPro. Konkrétně jsme vytvořili repliky v AFS systému pro nejpoužívanější programové vybavení, což snižuje pravděpodobnost nedostupnosti v případě výpadku (či nedostupnosti) pouze některého souborového serveru MetaCentra (v průběhu roku 2005 došlo k několika neplánovaným výpadkům napájení, zejména v brněnském uzlu, které následně znemožnily spuštění úloh i v dalších uzlech). V případě systému PBSPro jsme pak opravili chybné plánování úloh pro subclustery s vlastností typu "switch" - to jsou subclustery vnitřně propojené vysokorychlostní nízkolatenční sítí Myrinet, ale vzájemně propojené přes WAN IP sít - dále zhroucení celého plánovače při pokusu o spuštění velmi rozsáhlých paralelních úloh a vylepšení chybových hlášení tak, aby bylo možné snazší nalezení původní příčiny chyby. Rovněž jsme opravili chybný způsob analýzy některých příkazů v nástroji pro administraci, kde nebylo možné upravovat konfiguraci některých prostředků nabízenými nástroji. V systému Heimdal (volná implementace systému Kerberos, na jejímž vývoji se rovněž podílíme) jsme odstranili chybu v knihovně libkrb525 ve funkci pro automatické obnovování kerberovských lístků v dávkovém systému. Tato chyba způsobovala přeplnění tabulky souborových deskriptorů, což po jisté době používání vedlo k úplnému zhroucení dávkového systému. V systému Heimdal jsme dále odstranili chybu ve funkci pro zjištění adresy síťových rozhraní - tato chyba způsobovala náhodné zablokování procesů, využívajících služby systému Kerberos.
-
Údržba provozního software, zejména pak plánovacích systémů, a odborná pomoc uživatelům s vlastními aplikacemi, především v oblasti přizpůsobení a optimalizace pro prostředí MetaCentra. Jednalo se především o konzultace o problémech, na jejichž zvládnutí již uživatelům nestačí pouhé pročtení poskytnuté dokumentace.
-
Běžná správa clusterů, sledování stavu a řešení hardwarových závad. V průběhu roku 2005 přešel provoz MetaCentra na záznam všech problémů a výpadků v systému RT (Request Tracker) verze 3. Celkem bylo během roku 2005 založeno přes 200 lístků, z toho cca 100 uživateli (ostatní jsou interní, založené administrátory MetaCentra). Koncem prosince 2005 bylo v databázi RT systému 166 vyřešených lístků a 60 otevřených. Během roku bylo řešeno 15 hardwarových závad na vlastních clusterech MetaCentra a zhruba stejný počet závad na clusterech, které byly MetaCentru svěřeny do péče.
-
Podpora vysokorychlostních experimentů na vysokorychlostní síti CzechLight.
Provoz MetaCentra spravuje a dále rozvíjí i systém Perun, vyvinutý v rámci předchozího výzkumného záměru sdružení CESNET. Tento systém slouží ke správě informací o uživatelích i některých komponentách Gridu a významným způsobem usnadňuje práci administrátorů a nepřímo i uživatelů (např. minimalizací chyb v osobních údajích). V roce 2005 jsme tento systém rozšířili o komponenty umožňující snazší ("inteligentnější") komunikaci s uživateli, nové možnosti autentizace (použití uživatelských certifikátů) a podporu virtuálních organizací. konkrétně se rozvoj systému Perun soustředil do následujících činností:
- Podpora virtuální organizace VOCE pro projekt EGEE. Vytvořili jsme nástroje pro zavádění a správu údajů o certifikačních autoritách a jejich šíření na jednotlivé stroje MetaCentra. Perun nyní spravuje i informace o uživatelských certifikátech, včetně údajů o jejich platnosti, rozdělení na jednotlivé stroje a rovněž příslušnosti k externím organizacím. Vytvořili jsme celou řadu nástrojů, které umožňují komunikaci mezi databází systému Perun a portálem VOCE. Tyto nástroje budou v dalším období zobecněny pro podporu nových virtuálních organizací a jejich portálů.
- Rozšíření portálu MetaCentra o podporu nových vlastností, zejména správu certifikátů, registraci do virtuálních organizací a dále nástroje pro uživatelské změny v účtech (např. změna interpretu příkazů, kvóty).
- Administrátorskou část jsme rozšířili o lepší práci s notifikacemi, především hlídání termínů vypršení účtů, opakování nevyřízených notifikací atd.
V roce 2005 jsme rovněž pokračovali v rozvoji monitorovacích nástrojů pro sledování stavu infrastruktury Gridu a v jejich postupném nasazení v provozních podmínkách. Vzhledem ke komplexnímu charakteru těchto činností jsou do nich zapojeni pracovníci prakticky všech skupin MetaCentra. Ve spolupráci se studentem FI MU (obhájená bakalářská práce Monitorovací služba pro MetaCentrum) jsme navrhli a implementovali rozšíření systému Ganglia pro potřeby MetaCentra, zejména pak možnost modulárního přidávání senzorů, možnost definovat formát ukládaných dat podle jejich typu a rovněž jednoduchou podporu pro notifikace podle nastavených podmínek (situace, událost atd.). Upravená verze systému Ganglia je instalována na všech clusterech MetaCentra, webové rozhraní je dostupné na adrese http://lindir.ics.muni.cz/ganglia. Informace získané ze systému Ganglia jsou samozřejmě dostupné i na portálu MetaCentra.
Systém Ganglia měřené hodnoty pravidelně publikuje pomocí multicastu na další uzly clusteru, čímž je zaručena spolehlivost i při výpadku jednoho uzlu. Vybrané uzly (zpravidla front-endy) pak ukládají naměřené hodnoty do databází (RRD, textové logy), což zpřístupňuje pomocí webového rozhraní i dlouhodobé statistiky provozu.
Aktuální informace o clusterech poskytuje i systém PBSPro, který má také informační proces na každém uzlu clusteru. PBSPro je sice primárně určen pro plánování úloh, pro tento účel ale potřebuje aktuální informace o uzlech, zaplnění disku a dalších charakteristikách, které může též zpřístupnit uživatelům. Hlavní rozdíl mezi informačními systémy Ganglia a PBSPro je v tom, že Ganglia poskytuje poslední naměřenou hodnotu, zatímco v rámci PBSPro je hodnota vygenerována na žádost (jako součást dotazu). PBSPro tak poskytuje jednak skutečně aktuální hodnoty, jednak může poskytovat i údaje, nedostupné přes systém Ganglia (např. velikost kvóty konkrétního uživatele na konkrétním stroji).
Protože se podpora notifikací v systému Ganglia ukázala jako nedostatečná pro potřeby plně distribuované správy (Ganglia je primárně určena pro sledování clusterů, ne celého Gridu), pracujeme na integraci systému Ganglia do standardního notifikačního nástroje Nagios. To nám umožní propojení s lokálně provozovanými instalacemi systému Nagios v jednotlivých uzlech MetaCentra a zrychlení reakce na výpadky a nepředvídané stavy.
9.2 Bezpečnost
Bezpečnostní skupina odpovídá za další rozvoj bezpečnostní infrastruktury MetaCentra. Ta je založena primárně na systému Kerberos, kdy je elektronická identita uživatele prokazována lístkem, vygenerovaným před prvním přistoupením k MetaCentru nebo v průběhu první autentizace. Zatímco se systém Kerberos používá jako výhradní bezpečnostní protokol uvnitř MetaCentra, doposud jsme uživatelům umožňovali použít i dvojici jméno/heslo při primární autentizaci např. do portálu nebo při přihlašování na jednotlivé výpočetní uzly pomocí ssh. K dispozici je rovněž přístup pomocí OTP (One Time Password), ten je však využíván primárně administrátory a nikoliv vlastními uživateli.
Důsledkem různých možností autentizace prvního přístupu je narušení principu SSO (Single Sign-On), tj. principu, v němž uživateli stačí prokázat svou identitu pouze jednou (pro určitý časový interval, zpravidla 8 hodin) při přístupu k prvnímu zdroji MetaCentra a při dalších přístupech je již využívána vygenerovaná (dočasná) elektronická identita. Dalším nedostatkem bezpečnostní infrastruktury MetaCentra bylo nedůsledné využívání možností PKI, tedy uživatelských certifikátů. Ty přitom představují převažující (či v řadě případů jediný) autentizační prostředek v rámci mezinárodní spolupráce. V roce 2005 jsme se proto soustředili na postupný přechod na důsledně SSO autentizační infrastrukturu, která je i nadále interně založena na systému Kerberos, ale která bude ve stále větší míře vyžadovat při autentizaci buď uživatelský certifikát (preferované řešení) nebo předem vygenerovaný TGT lístek systému Kerberos. Předpokládáme, že uživatelé tak budou přistupovat ke zdrojům MetaCentra již s připravenou elektronickou identitou, kterou budou používat všechny subsystémy MetaCentra.
V souvislosti s touto vizí jsme jednak v průběhu první poloviny roku odstranili nedůslednosti dosavadní implementace a postupně vytvořili jednotné autentizační rozhraní pro všechny služby MetaCentra. Ve druhé polovině roku jsme se pak soustředili na integraci technologie čipových karet a hardwarových tokenů do prostředí MetaCentra. Zde jsme navázali na výsledky projektu Univerzální autentizace pomocí hw tokenů Fondu rozvoje sdružení CESNET (hlavním nositelem projektu byla Masarykova univerzita, na projektu se dále podílela většina organizací zapojených do MetaCentra). Do produkčního provozu jsme nasadili rozšíření bezpečnostní architektury o podporu PKI (ta byla v roce 2004 pouze ve zkušebním provozu pro vybrané administrátorské aktivity). Pro uživatele MetaCentra jsme začali organizovat školení, v jejichž rámci jim přidělujeme hardwarové tokeny s jejich osobními certifikáty. Úzce spolupracujeme s Certifikační autoritou sdružení CESNET, na MU jsme ustanovili Registrační autoritu pro CESNET CA určenou pro uživatele MetaCentra a využívanou zejména během zmíněných školení.
Dále jsme rozvíjeli mechanismy vzájemné spolupráce bezpečnostních gridových architektur založených na protokolech Kerberos a PKI, vytvořili jsme mechanismy pro plnohodnotný přístup do prostředí MetaCentra s využitím uživatelských certifikátů případně jejich proxy variant. Všechna implementovaná řešení jsou dostupná na více platformách, přinejmenším v prostředí MS Windows a Linux. Ve spolupráci s provozní skupinou jsme rozšířili systém Perun tak, aby podporoval překlad uživatelských identit bez ohledu na uživatelem použitou autentizační metodu. Rozšířili jsme technologii hardwarových tokenů o generování proxy certifikátů z tokenů. Pro prostředí MS Windows jsme upravili knihovny Globusu a klienty PuTTY a WinSCP tak, aby přímo podporovaly použití certifikátů uložených na tokenech. Veškerý vyvinutý software je dostupný pod open licencí z portálu MetaCentra (pro uživatele vytváříme variantu Travelkitů známých z distribuce klientů systému Kerberos).
Provedli jsme nezbytné úpravy přístupových metod na portálu MetaCentra tak, aby podporovaly autentizaci přímo pomocí uživatelského certifikátu. Hlavní částí těchto úprav je modul pro podporu mechanismu Kerberos, jehož vývoj jsme zveřejnili na portále SourceForge a který v současnosti patří k nejpoužívanějším modulům pro autentizaci Kerberem v prostředí http.
V závěru roku jsme se soustředili na podporu mobilních uživatelů, kterým poskytujeme možnost plnohodnotné práce na Internetu i zpoza restriktivních firewallů. Instalovali jsme OpenVPN server, autentizovaný pomocí uživatelských certifikátů, klientská část podporuje přímé použití hardwarových tokenů.
Bezpečnostní skupina dále v průběhu roku 2005 navázala spolupráci s dalšími skupinami, orientovanými na bezpečnost v síťovém (distribuovaném) prostředí. V rámci dalšího pokračování aktivit souvisejících s nasazením a dalším rozvojem čipových technologií jsme zahájili spolupráci se skupinou na FI MU a FIT VUT, která se zaměřuje na vývoj nových hardwarových tokenů. V rámci sdružení CESNET pak připravujeme spolupráci s aktivitou AAI pro vybudování jednotné národní AAI infrastruktury, která nebude rozlišovat mezi čistě síťovým a gridovým prostředím.
9.3 Uživatelská podpora
Skupina uživatelské podpory MetaCentra odpovídá za komunikaci uživatelů a pracovníků MetaCentra a současně poskytuje primární rozhraní pro řešení uživatelských problémů a požadavků. S ohledem na rozptýlení uživatelů po celé republice (a často i v zahraničí u mobilnějších uživatelů) jsou veškeré služby uživatelské podpory poskytovány prostřednictvím elektronických nástrojů, především portálu, systému zpracování požadavků a elektronické pošty, ve výjimečných případech i telefonicky.
Portál MetaCentra byl radikálně přebudován již v průběhu roku 2004, v roce 2005 jsme se soustředili na jeho další rozvoj a rozšiřování. Portál má veřejnou (neautentizovanou) i soukromou (autentizovanou) část, v rámci autentizovaných stránek pak poskytuje i specifickou podporu administrátorům MetaCentra. Přebudovali jsme úvodní stránku portálu, která byla rozšířena o rychlý rozcestník odkazující na klíčové části a související projekty. Vylepšili jsme anglickou část portálu, která mimo jiné nyní umožňuje i generování anglické verze přihlášky v PDF (podle uživatelem zadaných údajů). Implementovali jsme automatické generování novinek a informací o výpadcích podle uživatelských preferencí. Tyto informace jsme současně rozšířili o možnost příjmu prostřednictvím RSS kanálu. Veškeré novinky a informace jsou generovány dynamicky a mají přiřazenu dobu expirace, po níž jsou automaticky staženy a uloženy do archivu. Aktuální informace jsou poskytovány vždy v české i anglické verzi.
Ve spolupráci s bezpečnostní skupinou jsme doplnili portál o autentizaci pomocí uživatelských X.509 certifikátů. V rámci podpory širokého využití hardwarových tokenů a zvýšení celkové bezpečnosti jsme se rozhodli postupně přejít na autentizační metody bez zadávání explicitního jména a hesla, s preferencí použití právě uživatelských certifikátů z tokenů. V sekci Můj účet jsme přidali tři nové položky - změna interpretu příkazů, změna kvóty a zaslání prioritního požadavku do RT systému - které jsou přístupné pouze po autentizaci uživatelským certifikátem. Postupně počítáme s přidáváním dalších služeb - např. přístup k plné historii požadavku v RT systému - a postupným zavíráním služeb dostupných autentizací pomocí jména a hesla. Současně chceme usnadnit celý proces přihlašování tak, že zájemci s již vygenerovaným certifikátem CESNET CA nebudou muset vyplňovat a zasílat papírovou přihlášku - registrace platného certifikátu bude plně postačující.
Na portálu MetaCentra jsme postupně doplňovali nebo aktualizovali dokumentaci k jednotlivým modulům a programovému vybavení, které je v rámci MetaCentra dostupné. Pozornost jsme soustředili zejména na doplnění anglických mutací.
Vytvořili jsme novou sekci portálu s názvem USB tokeny, která obsahuje veškeré informace nutné pro řádné použití hardwarových tokenů v prostředí MetaCentra. Uživatelé tak mají k dispozici kompletní dokumentaci pro inicializaci tokenu, vygenerování certifikátu nebo jeho nahrání, pokud již uživatel certifikát má, postup pro import a použití v prohlížečích Mozilla, Firefox a MS Internet Explorer. K dispozici jsou rovněž informace o použití USB tokenů v prostředí OS Linux, MS Windows, stejně jako spolupráce s Globus GSI aplikacemi. V této sekci je také k dispozici veškerý relevantní software. Celkem byla v roce 2005 uspořádána tři uživatelská školení v souvislosti s distribucí tokenů.
Vytvořili jsme formát (DTD) dokumentace programových modulů, který umožňuje generovat jak vlastní dokumentaci určenou pro portál, tak i nápovědu dostupnou on-line při přístupu ke konkrétnímu modulu.
Zatímco vlastní RT systém pro sledování požadavků je obhospodařován provozní skupinou MetaCentra, skupina uživatelské podpory třídí a přiděluje požadavky, které nemůže přímo vyřídit sama. Skupina rovněž odpovídá za eskalaci déle neřešených požadavků (statistiky jsou k dispozici v části věnované provozu MetaCentra). Zahájili jsme rovněž práci na integraci RT systému do jednotného SSO prostředí MetaCentra autentizací pomocí uživatelských certifikátů.
Uživatelská skupina dále zorganizovala přednášku zástupců John von Neumann Institute of Computing (NIC) z Juelichu (SRN), kteří prezentovali způsob přístupu k významným výpočetním zdrojům superpočítačového centra Juelich.
9.4 Další výzkumné aktivity
Kromě výzkumných a vývojových činností zmíněných v předchozích částech jsme se v rámci MetaCentra v roce 2005 věnovali dalšímu rozvoji systémů monitorování Gridové infrastruktury.
V první polovině roku jsme rozvíjeli architekturu decentralizovaného monitorování stavu gridových prostředků s robustním decentralizovaným ukládáním výsledků. Vycházeli jsme z toho, že klasický monitoring, realizovaný pravidelným testováním dostupnosti a funkčnosti prováděným centrálně z jednoho místa nevypovídá dostatečně o skutečném stavu gridové infrastruktury. Zkušenost s maticově prováděnými testy (např. spojení z každého stroje na každý, přenos dat mezi každou dvojicí strojů atd.) ukázala, že centrálně sbírané údaje mnohdy nevypovídají o tom, zda jednotlivé uzly Gridu budou vzájemně spolupracovat. Častým důvodem je nastavení firewallů, které jsou staticky nastavené pro konkrétní spojení, ale nejsou adaptovány na rychle dynamicky se měnící prostředí Gridu, zejména pak přidání nových strojů. I dříve povolená komunikace bývá zastavena, pokud nebyla delší dobu používána.
Navrhli jsme proto architekturu testovacích programů, nazvaných červi (worms), které putují samostatně po strojích začleněných v Gridu a provádějí předepsané testy (chovají se tedy z pohledu Gridu jako standardní aplikace). Dohled nad červy, jejich řízení a sběr výsledků pak provádí další vrstva programů, zvaných pastýři (shepherds). Pastýři jsou organizováni v peer-to-peer struktuře, s redundantním ukládáním dat a možností převzetí spravovaných červů v případě výpadku některého pastýře.
Testy prováděné červy jsou tří druhů - jedno, dvou a tříbodové. Jednobodové testy zjišťují dostupnost nějaké služby nebo správnou konfiguraci na konkrétním stroji (na němž je červ aktuálně spuštěn). Příkladem je test na konfiguraci všech uznávaných certifikačních autorit.
Dvoubodové testy zjišťují dostupnost služeb na jiných strojích ze stroje, na němž se červ aktuálně nachází. Příkladem je test proveditelnosti gsissh spojení. Tříbodové testy pak zjišťují možnost využití dvojice jiných strojů, příkladem je řízení gridFTP přenosu souboru mezi dvěma jinými stroji. Kandidáty pro dvoubodové a tříbodové testy dostává červ prostřednictvím pastýře, případně je náhodně generuje z předem zadaného seznamu.
Červi testují gridovou infrastrukturu nejen vlastními testy, ale i samotným procesem plánování a spuštění - jakékoliv problémy jsou zaznamenány pastýři a nahlášeny.
Vlastní červi jsou velmi jednoduché programy, které mohou být spuštěny na strojích s libovolnou architekturou (od uzlů běžných clusterů přes SMP počítače až po vektorové superpočítače), prováděné testy jsou přidělovány pastýři. Selhání konkrétního testu (včetně nemožnosti jeho spuštění) nemá vliv na další činnost červa. Červi mohou být spouštěni pod libovolnou identitou (správce, konkrétní uživatel atd.), takže je možné identifikovat i problémy spojené pouze s konkrétními uživateli.
Testování pomocí červů lze kombinovat s výsledky pasivního monitorování (hlášení komponent gridové infrastruktury o běžném provozu). To umožňuje minimalizovat zátěž infrastruktury - např. není nutné testovat přenos mezi souborů mezi uzly, pokud mezi nimi v nedávné době uživatelé úspěšně přenesli své soubory.
Ve druhé polovině roku jsme se více zaměřili na další rozvoj architektury C-GMA jako obecného protokolu, zajišťujícího spolupráci konkrétních implementaci GMA. C-GMA značí Capability-based Grid Monitoring Architecture a je postavena na rozšíření konceptu producentů a konzumentů standardní Grid Monitoring Architecture o metadata v podobě atributů a vlastních capabilit. Každý datový proud (resp. každá událost) přenášený monitorovací architekturou, nese ve svých atributech i informaci o tom, jaké vlastnosti musí splňovat jednotlivé uzly monitorovací infrastruktury, aby jimi mohl být přenášen (např. se jedná o jedinečnou událost, která nesmí být ztracena - taková data mohou přenášet pouze uzly garantující persistenci). Jednotlivé komponenty pak publikují své schopnosti - capability. Je úkolem mediátoru najít odpovídající páry. Definicí specifických atributů je možno propojit dvě a více konkrétních implementací GMA a definovat přechodové prvky, které mohou data mezi těmito implementacemi převádět.
Navrhli a publikovali jsme model se třemi úrovněmi abstrakce, současně máme k dispozici prototypovou implementaci mediátoru postavenou na použití specifické formy popisu metadat pomocí Classad. Tato implementace nám umožnila ověřit, že navržené současné srovnávání tří classadů - nezbytné pro složitější výběr celých skupin vzájemně spolupracujících komponent monitorovací infrastruktury - je funkční.
9.5 Shrnutí
Součinnost jednotlivých skupin aktivity MetaCentrum zajistila v roce 2005 další rozvoj národní gridové infrastruktury České republiky. Nezbytnost zajištění provozu indukovala výzkumné, vývojové a implementační činnosti, které dále přispěly k snazšímu využívání zdrojů MetaCentra, výraznému zlepšení interakce s uživateli a současně vedly k postupnému nasazování nových technologií.
Řada činností byla ovlivněna rozhodnutím přechodu na PKI autentizaci s využitím USB tokenů. Odpovídajícím způsobem jsme modifikovali portál MetaCentra, vytvořili jsme samostatné sekce, které jsou přístupné pouze po autentizaci uživatelským certifikátem. Organizovaná školení umožnila bližší kontakt s uživateli, zkušenosti jsme následně převedli do dalších verzí portálu a skladby zpřístupněných informací.
Vlastní portál jsme dále doplňovali o anglické verze stránek, orientaci v něm jsme usnadnili vytvořením navigačních prvků a centrálního rozcestníku. V roce 2005 jsme také začali důsledně využívat RT systém pro práci s uživatelskými požadavky i s vlastními úlohami provozu MetaCentra. Více jak 150 vyřešených lístků ukazuje intenzitu používání. Ta současně odhalila nezbytnost další definice interních politik při zpracování požadavků (přidělování lístků, procesy eskalace, kontroly, zpřístupnění historie lístků uživatelům) a rovněž vlastní práce s RT systémem (rychlé vyřešení konkrétního požadavku, případné administrátorské vygenerování souvisejících požadavků namísto "nabalování" i souvisejících úkolů na původní lístek, který kvůli tomu zůstává trvale otevřený). Začlenění rozhraní RT systému do jednotného autentizačního procesu MetaCentra je dalším úkolem pro rok 2006.
V průběhu roku 2005 se rovněž podařilo úspěšně uzavřít výběrové řízení na páskovou knihovnu. Dosažená nabídková cena umožnila realizovat distribuované řešení s dvojnásobnou kapacitou proti původním předpokladům. To povede k realizaci velmi robustního zálohovacího systému MetaCentra s dostatečnou úložnou kapacitou.
V roce 2005 se také vyjasnily hranice spolupráce s výzkumným záměrem Paralelní a distribuované systémy, jehož nositelem je Masarykova univerzita, jmenovitě Fakulta informatiky a Ústav výpočetní techniky. Výzkum v oblasti plánování zdrojů bude nadále primárně realizován na MU, která se dále zaměří na využití gridového prostředí dle specifických požadavků vybraných aplikací (primárně zpracování obrazu), včetně nezbytného rozvoje nástrojů pro přenos aplikací na Grid. Vlastní výzkum v rámci MetaCentra se tak i nadále soustředí především na oblast bezpečnosti a na další rozvoj gridových monitorovacích architektur.
|
|
obsah |
následující
|