8   MetaCentrum

Digitální infrastruktura výzkumu - často označovaná pojmem eInfrastruktura - je charakterizována kombinací pokročilých služeb, jejichž využívání umožňuje uživatelům řešit nejsložitější problémy. eInfrastruktura podporuje rychlou tvorbu distribuovaných výzkumných týmů, jejichž složení co nejlépe odpovídá potřebám řešených problémů, a to aniž by se členové těchto týmů museli fyzicky přemisťovat - konkrétní odborník tak může být plnohodnotně zapojen v několika týmech současně, týmy mohou existovat jen krátkou dobu nutnou k vyřešení konkrétního problému apod. Součástí komplexně pojaté eInfrastruktury je i distribuované výpočetní prostředí, doplněné úložnými kapacitami - Grid. Dlouhodobým cílem aktivity MetaCentrum je tvorba a zajištění provozu takovéhoto gridu v rámci České republiky a jeho zapojení do evropské gridové infrastruktury. Souběžně se aktivita MetaCentrum zabývá nezbytným výzkumem a vývojem v oblastech, které souvisí s dalším rozvojem této infrastruktury.

V souladu se strategií přijatou koncem roku 2006 jsme v rámci aktivity MetaCentrum pokračovali v činnostech, jejichž cílem je tvorba uživatelsky přizpůsobivého gridového prostředí. Namísto snahy vytvořit jednotné prostředí, které by vyhovovalo všem uživatelům, vytváříme v rámci aktivity MetaCentrum podmínky, v nichž je možné provozovat různá prostředí podle uživatelských požadavků, a to i v případě zcela protichůdných potřeb (např. jiné verze operačního systému). Tato strategie je postavena na důsledné virtualizaci fyzické infrastruktury - výpočetních zdrojů, úložných kapacit, ale i vlastní počítačové sítě. Uživatelé mají přístup pouze k virtualizovaným zdrojům, na nichž spouští své úlohy. Virtualizované zdroje je možné propojit do virtuálních clusterů, zajistit jejich úplné oddělení od jiných prostředí stejného nebo dalších uživatelů, provozovat na nich specifické prostředí včetně konkrétních verzí operačního systému, vývojových nástrojů, middleware i aplikací. Virtualizace přitom zajišťuje naprosté oddělení uživatelských prostředí mezi sebou (a tak mimo jiné i garantuje vysokou míru ochrany), přitom jednotné rozhraní mezi fyzickými a virtualizovanými zdroji umožňuje zajistit správu celého systému bez enormních provozních nákladů.

Nezbytnou součástí plně uživatelsky přizpůsobivého prostředí je i podpora nových vlastností propojující počítačové sítě. Ve spolupráci s dalšími aktivitami výzkumného záměru, zejména Multimediální přenosy a kolaborativní prostředíRozvoj sítě národního výzkumu a vzdělávání, jsme v roce 2008 virtualizovali i síťovou infrastrukturu MetaCentra. Hlavní uzly MetaCentra v Plzni, Praze a Brně jsou propojeny na úrovni L2, tj. tvoří virtuální lokální síť (VLAN). V ní je možné vytvářet další úroveň virtuálních sítí, které tvoří základ propojení virtuálních clusterů. Vyvinuli jsme základ služby pro řízení těchto virtuálních sítí uvnitř VLAN MetaCentra, což tvoří základ pro uživatelskou stavbu dočasných virtuálních clusterů bez nutnosti koordinace s administrátory páteřní sítě CESNET2. Služba SBF je v současné době integrována se systémem podpory plánování virtuálních strojů Magrathea.

Přechod na virtualizované prostředí probíhal v roce 2008 souběžně se zajištěním standardního provozu, trvalé průběžné podpory uživatelů, spojené rovněž s údržbou a rozvojem portálu MetaCentra, systému sledování požadavků a dalším zvyšováním kvality poskytovaných služeb. Na druhé straně spektra činností MetaCentra pak stojí výzkumné a vývojové aktivity zejména v oblasti bezpečnosti a správy virtualizovaného prostředí.

Propojení národní gridové infrastruktury je realizováno formou zapojení do klíčových projektů EU. V oblasti vlastní infrastruktury a jejího rozvoje se jedná především o projekty EGEE II (do konce dubna) a EGEE III (od května), mimo oblast Evropské unie pak zasahuje projekt EUAsiaGRID, jehož řešení bylo zahájeno v dubnu a který rozšiřuje působení aktivity MetaCentrum do oblasti Dálné Asie a Pacifiku. Na koncepční úrovni je však nejdůležitější zapojení do projektu EU EGI_DS (European Grid Initiative Design Study), kde CESNET na základě dohody s ostatními partnery převzal od července roli koordinátora. Působení v projektu EGI_DS odpovídá i činnost na národní úrovni, kde MetaCentrum v průběhu celého roku intenzivně propagovalo myšlenky komplexní eInfrastruktury a zapojení CESNETu do jejího budování, mimo jiné i prostřednictvím Operačního programu Věda a výzkum pro inovace (OP VaVpI).

8.1   Uživatelská podpora a provoz

MetaCentru bylo na začátku roku 2008 zaregistrováno 210 uživatelů, z nichž 150 spustilo v průběhu roku alespoň 20 úloh a 30 uživatelů spustilo více než 1000 úloh. 3 uživatelé spustili v průběhu roku více jak 20 tisíc úloh. MetaCentrum spravuje na 577 fyzických strojů, které mají přes 1200 jader. Průměrné využití novějších strojů (zejména 16jaderné počítače manwe a stroje skirit49-83skurut33-66 s procesory s frekvencí 3 a více GHz) je kolem 50 % , což je srovnatelné nebo lepší než mezinárodně udávané hodnoty pro podobná prostředí. Zájem o starší, méně výkonné stroje je menší, využití se pohybuje mezi 10 a 30 % (100 % odpovídá situaci, kdy všechna jádra počítače jsou plně zaměstnána výpočtem 365 dní v roce).

Provoz MetaCentra je zajišťován jako nepřetržitý (24/7, 365 dní v roce), ovšem v režimu best effort, tj. bez zaručené odezvy mimo rozšířenou pracovní dobu (tj. pouze v pracovní dny v době od cca 8 do 18 hodin). Vzhledem k distribuovanému charakteru MetaCentra je průběžná podpora uživatelů zajištěna výhradně prostřednictvím elektronické komunikace, postavené na dvou základních složkách:

8.1.1   MetaPortál

MetaPortál je zpravidla prvním místem kontaktu uživatele s MetaCentrem. Portál má veřejnou, neveřejnou a administrátorskou část, jejichž prostřednictvím poskytuje služby jak obecné nespecifikované veřejnosti, tak již registrovaným uživatelům a rovněž správcům MetaCentra.

Veřejnou část MetaPortálu jsme v roce 2009 rozšířili o nové sekce, zejména pak s návody na používání aplikací. Upravili a rozšířili jsme sekce s dostupnou dokumentací, především v návaznosti na nové služby, které MetaCentrum poskytuje, průběžně jsme aktualizovali informace o dostupných výpočetních i úložných zdrojích, zpřístupnili technické zprávy popisující konkrétní výsledky práce aktivity atd. MetaPortál poskytuje i informace o souvisejících projektech a dalších činnostech na národní i mezinárodní úrovni.

Hlavní pozornost rozvoje MetaPortálu jsme soustředili na rozšíření možností autentizované části, určené pro registrované uživatele. Zcela jsme v roce 2008 přepracovali koncepci notifikací (zasílání zpráv uživatelům podle jejich volby), podporu jazykových mutací (uživatelé si mohou zvolit jazyk, ve kterém zprávy dostávají), podporujeme i agregaci notifikací a jejich větší personifikaci, kdy si uživatelé mohou lépe zvolit, které zprávy jsou pro ně důležité. Zavedli jsme i diskusní fórum, jež je přístupné pomocí federativní autentizační služby Shibolleth a umožňuje tak v principu i přístup neregistrovaných uživatelům z institucí zapojených do národní autentizační federace.

Na portále jsme také v průběhu roku 2008 zpřístupnili údaje o využití strojů. Je k dispozici jak kernel accounting (poskytuje především pohled na spotřebu CPU a paměti na úrovni jednotlivých uzlů), tak i PBS accounting (poskytuje především informace o spotřebě zdrojů z pohledu plánovacího systému a je tedy pro uživatele "přirozenější"). Údaje z PBS accountingu jsou dostupné zpětně od roku 2005, údaje z kernel accountingu pouze od roku zavedení, tj. 2008. Uživatelé mají dostupná data o svým úlohách k dispozici v sekci "Moje úlohy".

Nově portál poskytuje také údaje o dostupných diskových kapacitách na jednotlivých uzlech a o využití těchto kapacit vlastními daty.

V roce 2008 byla také rozšířena administrátorská část MetaPortálu o nové služby. V rámci pomoci novým uživatelům se pracovníci MetaCentra 14 dní po registraci kontaktují nového uživatele a snaží se mu pomoci v kritické době seznamování se s MetaCentrem a jeho infrastrukturou. Upozornění na tento termín je nově automaticky navázáno na notifikační službu, nedochází tak k tomu, že by uživatel byl "zapomenut". Administrátorům jsou dále zpřístupněny statistiky nejčastěji používaných programů a uživatelů s největším objemem propočítaného času (tzv. "Top N"). Administrátoři mají rovněž k dispozici časový profil počtu úloh a propočítaného strojového času, což jim umožňuje lépe identifikovat úzká místa infrastruktury či naopak uživatele se speciálním nároky.

8.1.2   Systém sledování požadavků

Zatímco portál je určen především pro informace poskytované MetaCentrem uživatelům (zpětná vazba od uživatelů přímo přes MetaPortál je zpravidla omezena pouze na registraci a potvrzení zájmu při každoroční kontrole uživatelů MetaCentra), systém sledování požadavků je určen pro interakci uživatelů se správci MetaCentra.

V případě problému či jen prostého dotazu mají uživatelé možnost zaslat požadavek prostřednictvím MetaPortálu, zasláním e-mailu na adresu meta@cesnet.cz (případně další e-mailové adresy uživatelské podpory MetaCentra) nebo přímo v rozhraní RT systému. Ve všech případech je požadavek uložen v RT systému. Uživatel je informován nejen o přijetí požadavku, ale také o změnách, včetně případných dotazů administrátorů či zpráv o vyřešení problému. Registrace všech uživatelských požadavků umožňuje současně sledovat rychlost reakce administrátorů, garantovat, že požadavky nejsou zapomenuty či případně jejich řešení netrvá neúměrně dlouho.

Za rok 2008 uživatelé zaslali do RT systému celkem 1298 dotazů a požadavků. Z toho na konci roku bylo 1026 vyřešených, 233 zůstává aktivních a zbývající byly přesunuty do speciální fronty s dlouhodobými požadavky (uživateli byl dotaz odpovězen, ale současně z něj vyplývá nějaký dlouhodobý úkol pro MetaCentrum). V průměru tak uživatelé posílají 3,5 požadavku denně, většinu z nich se daří vyřešit do jednoho týdne.

8.1.3   Systém front a prioritní fronta

Výpočetní kapacity MetaCentra jsou dostupné primárně neinteraktivně prostřednictvím dávkového systému PBSPro. Uživatelé zadávají své úlohy do jednotlivých front, přitom mají možnost upřesnit i další požadavky (např. využití uzlů v konkrétním městě, s konkrétním typem procesoru). Bez dalšího omezení nabízí MetaCentrum tři základní fronty:

Všechny uvedené fronty jsou určeny pro jedno- i víceprocesorové úlohy, doba čekání úloh ve frontách normalshort ukazuje na poptávku po výkonu převyšující možnosti MetaCentra.

Kromě speciálních front, které jsou zpravidla spojeny se specifickými požadavky výzkumných týmů, jež jsou vlastníky některých clusterů MetaCentra (viz úplný přehled front) jsme v roce 2008 zavedli i přístup k privilegované frontě privileged pro uživatele, kteří zaregistrují na portálu své publikace, vzniklé s přispěním výpočetních či dalších zdrojů MetaCentra. Fronta privileged podporuje krátké i dlouhé úlohy do jednoho měsíce, tj. jako fronta long), ovšem s prioritou jen o málo nižší než fronta short. Rovněž počet souběžně akceptovaných úloh je 16, tj. dvojnásobek úloh, které uživatel může mít současně ve frontě short. Publikace mohou uživatelé registrovat na portále, při registraci dvou a více publikací získají přístup do privilegované fronty. Služba registrace publikací a souvisejícího přístupu do privilegované fronty byla zpřístupněna v říjnu 2008, do konce roku bylo registrováno již přes 30 publikací více jak 10 uživatelů.

8.1.4   Monitoring

Aktuální stav infrastruktury MetaCentra je sledován systémem Nagios, který byl po předchozím zkušebním využití nasazen v roce 2008 do plného provozu. V současnosti monitorujeme všechny výpočetní zdroje MetaCentra (fyzické i virtuální počítače), stejný systém je používán i pro sledování vybraných služeb projektů EGEE a EGI_DS.

Systém Nagios sleduje 577 fyzických počítačů, na každém pak v průměru 6 služeb se 17 senzory. Celkem tedy shromažďuje data z téměř 60 tisíc aktivních senzorů, data jsou posílána do jediného virtuálního počítače. Data jsou z monitorovaných strojů přenášena zabezpečenými kanály se vzájemnou autentizací systémem Kerberos a šifrovaným přenosem. Při aktuálním zatížení CPU cca 19 % předpokládáme, že současné nastavení je schopno sledovat přes 2000 fyzických (víceprocesorových) strojů bez nutnosti změny architektury monitorovacího systému.

Systém Nagios v současnosti primárně využívají administrátoři MetaCentra. Po nasazení do rutinního provozu jsme rozšířili webové rozhraní o možnost zobrazování výsledků testů, přidali jsme nové možnosti řazení a filtrování zaznamenaných hodnot. Zabezpečený přenos mezi monitorovacími stroji a centrálním úložištěm je postaven na systému přenosu zpráv, který jsme pro tento účel převzali a modifikovali z vlastního vývoje pro projekty EU EGEE. Pro zlepšení škálovatelnosti jsme rovněž optimalizovali podporu strukturovaných (agregovaných) výstupů senzorů a přidali jsme i podporu pro přenos binárních dat.

8.1.5   Anketa a setkání s uživateli

Přestože většina interakce mezi správci MetaCentra a uživateli probíhá prostřednictvím výše uvedených systémů, v roce 2008 jsme se také pokusili získat bezprostřednější reakci uživatelů pomocí ankety a následnou organizací společného setkání s uživateli.

Elektronická anketa, realizovaná v první polovině roku 2008, měla za úkol zjistit názory uživatelů na poskytované i plánované služby MetaCentra, odhalit problémy a poskytnout zpětnou vazbu pracovníkům MetaCentra. Anketa obsahovala celkem 23 otázek, byla zpracována v systému SurveyMonkey a sumární výsledky jsou dostupné na on-line.

Na anketu celkem odpovědělo 53 uživatelů (cca 1/4 všech registrovaných, ale skoro 1/2 všech uživatelů, kteří v roce 2008 spustili v prostředí MetaCentra alespoň 50 úloh). Analýza odpovědí ukazuje, že uživatelé MetaCentra jsou poměrně spokojeni s poskytovanými službami a jsou rovněž relativně konzervativní a opatrní v požadavcích na nové služby. Na druhé straně se nadpoloviční většina uživatelů shoduje v tom, že v MetaCentru postrádají dostatečné výpočetní kapacity (pro úplnost je však třeba dodat, že prakticky stejné procento respondentů "spíše souhlasí" s tvrzením, že hardwarové vybavení MetaCentra je dostatečné - v kontextu příbuzné otázky na programové vybavení je to ovšem třeba interpretovat spíše tak, že nepostrádají nějaký konkrétní systém, např. vektorový superpočítač, a jsou spokojeni s clustery jako primárními výpočetními nástroji).

Ani anketa však nemůže nahradit přímou komunikaci s uživateli, rozhodli jsme se proto (i na základě pozitivního ohlasu na anketu) uspořádat setkání s uživateli. Zájem o uspořádání společné akce projevily i dodavatelské firmy, pro rok 2008 jsme se rozhodli pro firmu IBM s tím, že se tímto krokem pokusíme založit tradici setkání s uživateli a současně vždy jedním z dodavatelů MetaCentra.

Celodenní seminář o gridovém počítání (s podtitulem Budoucnost Gridu na obzoru) proběhl 26. listopadu v Zelené posluchárně UK v Praze. Seminář byl věnován přehledu informací o českém národním gridovém prostředí MetaCentrum, účastníci získali informace o aktivitě MetaCentrum a zejména o aktuálních implementacích nových služeb, které MetaCentrum začalo v poslední době nabízet. IBM zajistilo prof. Felixe Schuermanna z EPFL v Lausanne (Švýcarsko), který přednesl přednášku s názvem Technologie a využívání HPC ve švýcarském EPFL. IBM ve spolupráci se svými partnery zajistilo i další přednášky v rámci dopoledního programu, odpoledne pak již bylo věnováno činnostem a službám MetaCentra.

Semináře se celkem zúčastnilo 36 osob, z nichž 17 na závěr semináře vyplnilo dotazník. Ti celkově seminář hodnotili známkou 1,87 (na pětibodové stupnici, kde 1 je nejlepší a 5 nejhorší hodnocení), pozitivně byla hodnocena i kombinace firemně orientovaných prezentací a vlastních informací o MetaCentru. Setkání s uživateli jednoznačně ukázalo, že o podobné akce je zájem a plánujeme proto pokračovat i v roce 2009 s další firmou.

8.1.6   Zvyšování výpočetní kapacity

Namísto extenzivního rozšiřování výpočetních kapacit jsme se v roce 2008 soustředili na náhradu nejstarších clusterů, umístěných na ZČU v Plzni. Vzhledem k tomu, že se limitujícím faktorem dalšího růstu stává spotřeba elektřiny a související nároky na klimatizaci, vypsali jsme výběrové řízení, v němž kromě obvyklých parametrů technické specifikace přibylo i omezení maximální spotřebou dodaného systému - v našem případě se jednalo o 7 kW. Realizací výběrového řízení jsme získali i zkušenost s přístupem jednotlivých dodavatelských firem k této pro ně nové a nezvyklé dodatečné podmínce výběru.

Ve výběrovém řízení byla vybrána firma SGI, která nabídla celkem 20 počítačů Altix XE320, každý osazený dvěma quad-core procesory Xeon 5472 (3 GHz), 16 GB paměti a jedním 300 GB SAS diskem (15 tisíc otáček). Každý uzel je vybaven integrovaným gigabitovým Ethernetem a Infinibandem. Jedná se o systém s vysokou hustotou, všech 160 jader je umístěno v pouze 10U rackového prostoru.

Pořízený systém nahradil clustery nymphaminos, které společně poskytovaly ekvivalent 62 jader v prostoru dvou racků. Nahrazeny byly procesory s frekvencí 1,0 GHz a 1,6 GHz, tj. nový celkový poskytovaný výkon je zhruba šestinásobně větší, přitom prostorové nároky se výrazně zredukovaly a nároky na spotřebu elektrické energie vzrostly o cca 50%. Nový cluster bude plně integrován do provozu od ledna 2009.

8.2   Úložné kapacity

MetaCentrum poskytuje svým uživatelům i rozsáhlé úložné kapacity, a to jako součást výpočetních clusterů i samostatně. Primárním zdrojem nezávislých kapacit je velké diskové pole IS4500 firmy SGI, které bylo pořízeno koncem roku 2007 a je instalováno na MU v Brně. Po uvedení do provozu jsme postupně optimalizovali konfiguraci tohoto pole a ve druhé polovině roku pak realizovali jeho rozšíření a doplnění o další služby. Koncem roku 2008 má toto pole celkovou kapacitu téměř 100 TB, zpřístupněnou přes tři headnody. Rozšířené pole podporuje i hardwarové snapshoty, tj. možnost zálohovat data z pole souběžně s jeho využíváním. Uživatelé mohou pracovat s daty na poli i v průběhu zálohování, přitom technologie hardwarových snapshotů garantuje ukládání konzistentních dat a má minimální vliv na uživatelskou práci s daty.

Kapacity diskového pole jsou zpřístupněny protokolem NFSv4. V průběhu roku 2008 jsme začali nabízet NFSv4 s autentizací přístupu systémem Kerberos. To umožňuje úložné kapacity zpřístupnit nejen lokálně (jako je tomu v případě použití protokolu NFSv3), ale i vzdáleně do dalších lokalit MetaCentra a rovněž na pracovní stanice koncových uživatelů, pokud jejich operační systém NFSv4 podporuje. Protokol NFSv4 je postupně aktivován na jednotlivých clusterech MetaCentra ve vazbě na povýšení operačního systému. Rozšířili jsme rovněž systém správy uživatelských účtů tak, aby podporoval autentizovaný přístup k datům na NFSv4 serveru bez nutnosti na něm zakládat běžné uživatelské účty (což by výrazně snižovalo bezpečnost NFSv4 serveru).

Dostatečné úložné kapacity nám umožnily zrušit jakákoliv apriorní omezení přidělené diskové kapacity v NFSv4 poli. Abychom současně minimalizovali nebezpečí zaplnění celého prostoru např. chybou programu, implementovali jsme programovou podporu dynamického schématu diskových kvót. To nám umožňuje chránit operační systém i privilegované uživatele - kterým garantuje určitý minimální objem dat bez ohledu na požadavky ostatních uživatelů - před úplným zaplněním úložné kapacity, aniž by to jakkoliv omezovalo její využití běžnými uživateli. Uživatelům je tak průběžně k dispozici prakticky celá aktuálně volná kapacita úložného prostoru.

Zatímco velké diskové pole se systémem souborů zpřístupněným protokolem NFSv4 řeší aktuální potřeby uživatelů na úložnou kapacitu, rychlost přístupu je stále ovlivněna fyzickou vzdáleností klientů od serveru. Zejména při práci s menšími soubory je patrný významný rozdíl v rychlosti přístupu mezi clustery umístěnými v Brně a v jiných lokalitách. V dalším období se proto soustředíme jednak na optimalizaci využití zprovozněné L2 síťové infrastruktury pro zrychlení přístupu, jednak na návrh architektury úložných kapacit, postavené na instalaci dalších podobných polí v ostatních lokalitách MetaCentra.

8.2.1   Využití Infinibandu

Řada clusterů MetaCentra je vybavena vysokorychlostním propojením Infiniband, které je možné také využít pro rychlý přenos dat mezi uzly clusteru a lokálním datovým úložištěm. Před provozním nasazením jsme proto analyzovali chování systémů souborů zpřístupněných protokoly NFS, PVFS2, Gluster a Lustre přes rozhraní Infiniband. Server implementoval lokální systém souborů XFS s výjimkou Lustre, který používá vlastní implementaci. Měřili jsme propustnost blokových operací čtení a zápisu mezi jedním klientem a jedním serverem, následně jsme pak zjišťovali rychlost meta-operací, jako je založení či smazání souboru a rychlost čtení adresářů. Měření jsme realizovali nástrojem bonnie++, který používá velikost bloků pouze 8 kB, což zhruba odpovídá velikosti bloků, s nimiž pracují běžné aplikace. Protože použití větších bloků vede u blokových operací obecně k lepším výsledkům při měření propustnosti, je možné naměřené výsledky rovněž brát jako nejhorší případ vlastností analyzovaných systémů souborů.

Největší propustnost pro čtení i zápis se v uvedeném uspořádání jednoho klienta a jednoho serveru podařilo dosáhnout při použití NFS přes RDMS (tj. s přímým využitím Infinibandu, bez IP mezivrstvy), rychlost čtení byla přes 480 MB/s (3,8 Gb/s), rychlost zápisu pak 200 MB/s (1,6 Gb/s). Téměř stejné hodnoty vykazuje systém Lustre, u čtení 475 MB/s a při zápisu přes 190 MB/s, a to nezávisle na použití či vynechání IP mezivrstvy. Na obdobné úrovni se pohybují i hodnoty rychlosti čtení a zápisu pro NFS při použití IP mezivrstvy, ostatní analyzované systémy souborů jsou výrazně pomalejší (i nejrychlejší z ostatních, GlustreFS, dosahuje nejvýše poloviny hodnot naměřených u NFS a Lustre). Při čtení z lokálního disku jsme získali hodnoty 340 MB/s a při zápisu 143 MB/s, tj. v obou případech je vzdálených přístup jednoho klienta rychlejší.

Obdobné výsledky jsme dostali i pro metadatové operace, kde Lustre je nejrychlejší při zakládání a mazání souborů, NFS je nejrychlejším systémem při přístupu k adresářům. Zatímco v případě blokových operací je práce s nativním diskem dokonce pomalejší, jsou metadatové operace vždy nejrychleji prováděny lokálně (v případě přístupu k adresářům pak dokonce řádově rychleji než nejrychlejší NFS, u ostatních operací je zrychlení v řádu desítek procent až dvojnásobku). Přesto je dosažená rychlost meta-operací uspokojivá i pro rutinní nasazení.

Překvapivě špatně dopadlo měření pro PVFS2, což je dáno orientací tohoto systému souborů na práci s velkými bloky dat (tato orientace se negativně projevuje i při práci s metadaty, kde PVFS2 konsistentně vykazoval nejhorší výsledky).

Na základě této analýzy jsme se rozhodli pokračovat nadále u lokálních síťových systémů souborů s protokolem NFS, kde hlavním omezením je nutnost použití pouze jediného serveru pro operace zápisu. Z dlouhodobého pohledu proto za nejperspektivnější považujeme postupné nasazení systému Lustre pro pracovní úložné prostory clusterů (/scratch filesystém na uzlech clusterů). Nutnost použití dedikovaného serveru je plně kompenzována nejen rychlostí, ale zejména možností využití více serverů pro rozložení zátěže. PVFS2 se jeví jako vhodný pouze pro speciální použití u aplikací, které přímo pracují s velkými bloky dat (1 MB a více).

8.3   Virtualizace infrastruktury

Na konci roku bylo virtualizované prostředí (tj. jádro s podporou Xenu nebo VServer v případě více jak osmijaderných uzlů) instalováno na více jak 93 % všech počítačů MetaCentra. Převážná většina uživatelských výpočtů tak v provozním i testovacím režimu probíhá uvnitř virtuálních strojů, což nám umožnilo odladit řadu problémů, spojených s reálným nasazením vlastních virtuálních počítačů a interakcí se systémem plánování Magrathea.

Všechny virtualizované stroje s osmi a méně jádry mají instalován operační systém s podporou virtuálního monitoru Xen. Standardní nastavení předpokládá existenci privilegované domény Dom0 (označena jménem stroje, např. skurut10) a dvě aktivní uživatelské domény DomU, označené příponami -1-2 ke jménu stroje (skurut10-1skurut10-2). V obou uživatelských doménách mohou běžet různé instance operačního systému, resp. mohou být přizpůsobeny pro různá gridová prostředí. Z experimentálních důvodů jsme na řadě strojů provozovali dvě ekvivalentní uživatelské domény (testovali jsme v takovém případě jednak stabilitu virtualizovaného prostředí, jednak přeplánování mezi oběma doménami), na ostatních strojích pak prostředí MetaCentra a projektu EGEE (to nám umožnilo pružně reagovat na požadavky uživatelů o dodatečný výkon z obou prostředí a současně jsme tak testovali využití sdílené fyzické infrastruktury pro logicky odlišná prostředí).

Paralelně s provozem takto virtualizované infrastruktury jsme začali experimentovat s dalšími službami. Praktické zkušenosti se současným provozem dvou uživatelských virtualizovaných domén, zejména pak řešení problémů práce s paměti - plánovací systém musí brát do úvahy i čas, který je třeba na zvětšení či zmenšení paměti přidělené virtuálnímu stroji, případně další interakce, ke kterým při přepínání virtuálních strojů dochází a jejichž ignorování vedlo často ke zhroucení virtuálního stroje, případně k nekorektním informacím z monitorovacího systému - umožnily postupně nasadit preempci pro upřednostnění větších paralelních úloh (požadujících více jak 10 procesorů). Služba byla zavedena začátkem června 2008. Preempce je přitom rovněž základním předpokladem pro zavedení interaktivního přístupu k uzlům MetaCentra.

Souběžně běžící virtuální stroje mohou mít z pohledu plánovacího systému PBS různou prioritu. Máme instalovánu experimentální verzi plánovacího systému PBS s podporou uživatelských domén s různou prioritou. To nám umožňuje garantovat prioritní přístup na počítače, které patří jiným vlastníkům (např. ITI v Plzni či NCBR v Brně), kteří souhlasili s jejich integrací v MetaCentru, ale současně požadují garanci privilegovaného přístupu k těmto zdrojům podle svých konkrétních potřeb. Stejný princip využíváme rovněž pro podporu velkých paralelních úloh, bude rovněž nasazen pro garanci minimálních zdrojů vybraným skupinám uživatelů.

Použití izolovaných virtuálních počítačů je prvním krokem budování virtuálních clusterů. Vypracovaná koncepce je podrobně popsána v technické zprávě Virtual Clusters in MetaCentrum, její základy již existují v prototypové implementaci. Konkrétně jsme vyvinuli prototyp služby, která staví virtuální stroje z obrazů, které jsou uloženy v repozitáři (repository). Ten bude zpočátku obsahovat pouze obrazy poskytnuté MetaCentrem, postupně budou přibývat i vlastní uživatelské obrazy (po implementaci a integraci služeb virtualizace síťové infrastruktury, viz níže).

Takto postavené virtuální stroje pak jsou spojeny do virtuálního clusteru. Máme implementovánu vývojovou verzi, která umí přidělovat již běžící uzly (tj. aktivní virtuální počítače) do virtuálních clusterů a umí plánovat tyto virtuální clustery proti obyčejným úlohám (z pohledu plánovacího systému PBS je celý virtuální cluster pouze jedna paralelní úloha).

Spuštěné virtuální stroje (ať již samostatné nebo součást virtuálních clusterů) je možné po ukončení úlohy buď zrušit nebo uspat (hibernovat) a hibernovaný obraz uložit rovněž do repozitáře. Takovéto obrazy je pak možné později znovu rozplánovat a např. pokračovat ve výpočtu, případně využití prostředí, připravené předchozím výpočtem. Máme implementovánu vývojovou verzi, která umí bootovat pozastavené virtuální stroje.

8.3.1   Testovací prostředí a experimentální služby

Postupný přechod na principiálně nové, virtualizované prostředí nesměl samozřejmě ohrozit již poskytované služby MetaCentra. Virtualizace samotných počítačů představovala nejmenší problém, uživatelé ve většině případů nemohou poznat, zda jejich úloha běží na reálném nebo virtuálním počítači. Mnohem složitější situace však nastává v souvislosti s přesunem části odpovědnosti za provozované prostředí na koncové uživatele, kdy jsou zaváděny nové služby a současně uživatelé musí do určité míry změnit svůj styl práce. Souvisejícím problémem je rychlost zavádění nových služeb a jejich stabilita - řada chyb se projeví až po nasazení v provozu, vyšší výskyt chyb v provozním prostředí však negativně působí na uživatele a současně zvyšuje nároky na lidské kapacity, které provoz zajišťují. Abychom se s těmito problémy vypořádali, rozhodli jsme se souběžně nabízet jak standardní, tak i nové služby.

Každá nově zaváděná služba (nebo jejich kombinace) je nejprve uživatelům zpřístupněna jako experimentální v rámci testovacího prostředí MetaCentra. To má k dispozici několik desítek procent celkového výpočetního výkonu MetaCentra a umožňuje tak využívat (a ověřovat) nové služby v plně produkčním režimu, při řešení rozsáhlých úloh. Uživatelé, kteří mají o nové služby zájem (případně je nezbytně potřebují pro řešení svých specifických úloh), tak mají okamžitě k dispozici prostředí s dostatečným výkonem. To kompenzuje případnou nižší stabilitu testovacích clusterů. Ostatní uživatelé přitom používají i nadále původní stabilnější prostředí MetaCentra a nejsou tak nuceni podílet se na vyhodnocení (a testování) služeb, o něž v daném okamžiku nemají zájem.

Tento koncept umožnil začít v roce 2008 postupně do provozu nasazovat experimentální služby, spojené s důslednější virtualizací a orientací na uživatelsky definovaná prostředí. V testovacím prostředí MetaCentra se potkávají uživatelé přímo s vývojáři jednotlivých nových služeb, kteří odpovídají za rychlé odstraňování případných chyb. Jsme tak schopni rychle zavádět a ověřovat nové koncepty a služby v přímé vazbě na uživatele a jejich skutečné potřeby, přitom této činnosti se nemusí zúčastnit všichni uživatelé MetaCentra.

8.4   Síťová infrastruktura

Nasazení uživatelských obrazů virtuálních počítačů stejně jako konstrukce a provoz virtuálních clusterů vyžadují speciální podporu na úrovni síťové vrstvy. Hlavním cílem MetaCentra v této oblasti bylo během roku 2008 připravit síťovou infrastrukturu pro podporu virtuálních clusterů, tj. clusterů virtuálních počítačů, které mají poskytovat uživateli plnou kontrolu (včetně administrátorského přístupu ke strojům nebo používání vlastního obrazu virtuálního počítače). Z bezpečnostního hlediska není možné, aby takové virtuální stroje byly veřejně dostupné po Internetu pod adresním prostorem MetaCentra, neboť MetaCentrum by pak bylo zodpovědné za veškeré incidenty. Proto je nezbytné cluster na síti zapouzdřit, což přináší i další výhody. Mechanismus zapouzdření virtuálního clusteru na linkové vrstvě umožní provozovat softwarové komponenty se známými bezpečnostními problémy, jejichž odstranění ovšem učiní aplikaci nefunkční. Dalším případem užití síťově zapouzdřených clusterů je například možnost spustit více instancí clusteru se stejnými L3 adresami nebo připojit cluster do adresního prostoru uživatele.

Síťová podpora virtuálních clusterů sestává z pěti hlavních oblastí:

Ve spolupráci s aktivitou Optické sítě jsme realizovali, zprovoznili a otestovali plochou L2 síť pro virtuální clustery. Přístupové přepínače jednotlivých clusterů (Brno, Praha, Plzeň) se chovají jako jeden logický distribuovaný přepínač a zejména zachovávají značky VLAN. Na páteřní síti je toto realizováno ve dvou variantách, a to pomocí technologie Cisco Xponder (vytvářející dedikovanou 10 Gb/s síť na zvláštním DWDM kanále) a dále pomocí VPLS, které sdílí šířku pásma produkční páteře. Provedli jsme sérii testů na stabilitu prostředí a výkon jak pro VPLS, tak pro technologii Xponder.

Logický distribuovaný přepínač umožňuje stavbu virtuálních clusterů, které jsou na síti uzavřeny do VLAN, nezávisle na fyzickém umístění strojů, na kterých virtuální stroje běží. V jednotlivých městech jsme nakonfigurovali sítě (v některých případech to bylo doplněno fyzickým přepojením), aby podporovaly VLAN až na koncové fyzické uzly.

Navrhli jsme a následně implementovali systém pro konfiguraci fyzických strojů a virtuálních domén na nich spouštěných. Dále jsme navrhli a ve formě prototypu implementovali systém SBF pro řízení životního cyklu VLAN.

Systém SBF bude spolupracovat úzce s plánovačem procesů (Magrathea). Virtuální cluster je reprezentován speciální úlohou v plánovači. Plánovač stanoví, na jakých fyzických uzlech mají být virtuální stroje spouštěny a požádá SBF o konfiguraci virtuální sítě. SBF na základě znalosti topologie sítě nastaví přepínače, přitom je nutné všechny operace provést jako transakci (tj. neúspěch kterékoli části znamená návrat k původní konfiguraci a selhání celé operace), a dále drží mapování mezi identifikátory virtuálních clusterů a příslušnými konfiguračními zásahy. Současná prototypová implementace je schopna komunikovat s přepínači, zatím není integrována s plánovačem procesů.

Virtuální clustery skládající se ze spolehlivých obrazů virtuálních strojů (tj. dodaných MetaCentrem) a bez administrátorských práv pro uživatele mohou být připojeny na síť libovolně. I tak má zapouzdření do VLAN smysl, zejména usnadňuje migrace strojů i při použití IPv4 adres. Pro virtuální clustery, které nelze přímo připojit na Internet, je nezbytné, aby se k nim mohl připojit uživatel, který je vytvořil. Nejuniverzálnějším dostupným mechanismem je VPN do clusteru, kterým uživatel může logicky učinit svou pracovní stanici součástí clusteru. Připravili a odzkoušeli jsme prototypové řešení pomocí OpenVPN. To navíc umožňuje virtuální cluster zveřejnit pod adresním prostorem uživatele: protože L3 adresace clusteru je libovolná, uživatel může uzlům clusteru přiřadit L3 adresy z vlastního rozsahu a směrovat je do vlastní sítě.

L2 infrastruktura je v plném provozním režimu a propojuje všechny hlavní clustery MetaCentra. První experimenty ukazují, že i v rámci celé republiky má tato síť parametry běžné lokální L2 sítě. Latence obou implementací - VPLS v provozní síti i založené na Xponderech s dedikovanou optickou infrastrukturou - jsou srovnatelné. VPLS síť současně prověřuje kvalitu lokálního připojení,které je zdrojem jediných pozorovaných problémů s vyšším než očekávaným zpožděním. L2 síťová infrastruktura, zprovozněná během roku 2008, splňuje všechny požadované parametry a poskytuje tak MetaCentru prostředí, které v příštím roce umožní plnohodnotnou implementaci virtuálních clusterů.

8.5   Bezpečnost

8.5.1   Autentizace a Single Sign On

Obdobně jako virtualizace infrastruktury směřuje k vytvoření prostředí, které si mohou uživatelé přizpůsobit svým požadavkům, snažíme se rozšířit paletu autentizačních protokolů, které poskytuje bezpečný přístup k prostředí MetaCentra jeho uživatelům. Zatímco Kerberos i nadále zůstává základním autentizačním protokolem, soustředili jsme se na rozšíření podpory autentizace prostřednictvím PKI (certifikáty), federativních mechanismů a jednorázových hesel (OTP). To nám umožňuje namísto požadavku shody na jednom autentizačním (a následně i autorizačním) mechanismu - požadavku v podstatě nereálném, protože v řadě případů by jeho naplnění vyžadovala přepsání aplikací, postavených na konkrétních odlišných autentizačních mechanismech - se snažíme o vzájemné propojení a zastupitelnost autentizačních protokolů tak, abychom uživatelům usnadnili přístup ke službám a aplikacím bez ohledu na to, s jakým autentizačním mechanismem jsou spojeny.

V uplynulém období se ukázalo, že získání důvěryhodného certifikátu je pro mnohé uživatele nepřekonatelnou překážkou, a to i v případě přímé pomoci uživatelům, včetně nabídky osobní návštěvy Registrační autority (prověření pracovníci MetaCentra slouží jako Registrační autorita pro Certifikační autority sdružení CESNET). Zaměřili jsme se proto v roce 2008 na experimentální zprovoznění on-line certifikační autority, která vydává certifikáty na základě autentizace Kerberovským lístkem nebo jednorázovým heslem systému OTP. Uživatelé tak získávají X.509 certifikát, aniž by předtím museli podstoupit pro ně nepřekonatelný krok získání dlouhodobého certifikátu od Certifikační autority sdružení.

Souběžně jsme začali provozovat i instanci federované Certifikační autority, která je založena na implementaci z projektu GridShib. Tato Certifikační autorita umožňuje uživatelům české akademické federace získávat certifikáty, které jsou rovněž akceptované bezpečnostní infrastrukturou MetaCentra. Federativní Certifikační autorita MetaCentra je kompatibilní s řešením připravovaným aktivitou AAI.

Nasazení on-line certifikačních autorit umožnilo v průběhu roku ověřit základní koncepci náhrady dlouhodobých uživatelských certifikátů při zachování dostupnosti služeb, jejichž autentizace je založena na X.509 certifikátech.

Pro zpřístupnění systému generování jednorázových hesel (OTP, One Time Password) jsme v roce 2008 implementovali dva typy tzv. soft-tokenů, jimiž se snažíme řešit základní problém generování jednorázových hesel na straně uživatele. To je standardně řešeno buď vygenerováním posloupnosti jednorázových hesel na serveru - uživatel si pak musí tato hesla vhodným způsobem pamatovat - nebo přidělením technického zařízení (hard-tokenu), jehož pomocí uživatel generuje jednorázová hesla podle potřeby. Soft-token je obecně zařízení, které uživatel má k dispozici nezávisle a z vlastní vůle, doplněné o speciální program generování jednorázových hesel. V našem případě pak funkci soft-tokenů zastává mobilní telefon nebo PDA, na němž běží aplikace napsaná v jazyce Java. Uživatelé si jednoduchým způsobem mohou nahrát aplikaci na své mobilní zařízení a po synchronizaci se serverem OTP generují jednorázová hesla podle potřeby.

Popsané prostředí umožňuje, aby uživatelé přistupovali ke svým účtům v MetaCentru buď pomocí hesla v systému Kerberos (heslo je použito lokálně na uživatelově počítači), nebo pomocí jednorázových hesel. Díky napojení na on-line Certifikační autoritu mají uživatelé k dispozici X.509 certifikát, který lze následně převést na kerberovský lístek pomocí mechanismu PKINIT. Samozřejmě je pro vygenerování kerberovského lístku také možné použít dlouhodobý X.509 certifikát, případně certifikát poskytnutý federativní certifikační autoritou. Všechny tyto transformace jsou pro uživatele transparentní a jsou realizovány pomocí vlastního PAM modulu, který jsme během roku implementovali a nasadili do provozu. Je tak vytvořeno rozsáhlé prostředí typu SSO (Single Sign On), které uživatelům umožňuje zvolit si autentizační mechanismus podle aktuálních potřeb (např. Kerberovskou autentizaci na vlastním počítači a OTP při přístupu z neznámého prostředí, např. Internetové kavárny). Integrace s PKI přitom zaručuje plnou kompatibilitu s gridovými prostředími, jejichž autentizace vyžaduje použití X.509 certifikátů.

8.5.2   Bezpečnostní monitoring

Přístup ke zdrojům MetaCentra není omezen žádným firewallem, což umožňuje uživatelům používat na uzlech MetaCentra jakékoliv služby bez předchozí domluvy se správci firewallů. Orientace na bez firewallový provoz nemá negativní dopad na množství zaznamenaných bezpečnostních incidentů  - pouze dva během roku 2008. Přesto otevřenost přístupu kompenzujeme bezpečnostním monitoringem, kdy nejen jednotlivé uzly zaznamenávají informace, které mohou odhalit potenciální průnik nebo pokus o něj, ale zejména jsou tyto informace shromažďovány na bezpečném místě a průběžně analyzovány.

Zkušenosti z roku 2007 ukázaly, že systém syslog.ng pro vzdálené logování není dostatečně robustní pro rozsáhlé distribuované prostředí MetaCentra. V roce 2008 jsme proto implementovali novou transportní vrstvu pro vzdálené logování, postavenou na L&B infrastruktuře, kterou vyvíjíme v rámci EU projektů EGEE. Provedli jsme úpravu původního kódu, postaveného na autentizaci pomocí X.509 certifikátů tak, aby podporoval použití systému Kerberos pro autentizaci a ochranu komunikace. Implementované řešení je v současné době nasazeno na 142 strojích MetaCentra, logy jsou shromažďovány a analyzovány ve virtuálním počítači, provozovaném na High Availability systému zprovozněném v uplynulých letech. Implementované řešení vykazuje vyšší stabilitu než původně použitý syslog.ng. Po vyhodnocení zkušeností plánujeme postupné rozšíření na všechny uzly MetaCentra.

V rámci systému Pakiti, který vyvíjíme společně s kolegy z projektu EGEE, sledujeme stav aktualizací instalovaného software na celkem 490 počítačích. Minimalizujeme tak riziko neprovedených záplat a ponechaných bezpečnostních děr v infrastruktuře MetaCentra.

Pro lepší analýzu bezpečnostních incidentů jsme získali i přístup do systému FTAS, jehož data využíváme při zkoumání strojů podezřelých z napadení.

8.5.3   Další činnosti

I v roce 2008 jsme pokračovali v údržbě RADIUS serverů projektu eduroam, včetně přechodu z IPsec na RadSec proxy pro bezpečnou komunikaci mezi servery. Provozujeme vlastní Registrační autoritu Certifikační autority sdružení CESNET. V systému Perun jsme centralizovali správu kořenových certifikátů certifikačních autorit, které jsou uznávány v rámci prostředí MetaCentra nebo souvisejících podporovaných gridových projektů.

V roce 2008 jsme také provedli revizi a aktualizaci bezpečnostních politik. Převzetím EGEE politik popisujících práva a povinnosti uživatelů gridového prostředí jsme usnadnili uživatelům MetaCentra přechod mezi národním prostředí a mezinárodním gridem EGEE. S ohledem na zaznamenané bezpečnostní incidenty (pouze dva) jsme rovněž aktualizovali interní bezpečnostní postupy, jimiž se musí řídit administrátoři uzlů v případě podezření nebo prokázání bezpečnostního incidentu. Tyto postupy nejsou záměrně veřejně přístupné, aby případným útočníkům neusnadnily útok. Zkušenosti ze zaznamenaných incidentů a s přihlédnutím k materiálům a doporučením TERENA TF-CSIRT a cert.org jsme aktualizovali i procedury pro popis zaznamenaných incidentů.

Pokračovali jsme také v přípravě koncepce bezpečnostního týmu, který by řešil incidenty v gridovém prostředí. Naše koncepce je postavena na myšlence rozšíření existujících týmů CSIRT, ustavených pro sledování bezpečnostních incidentů v prostředí počítačových sítí. Jeden pracovník MetaCentra proto mimo jiné absolvoval i řádné školení TF-CSIRT.

8.6   Koncepční činnost

Koncepce evropské gridové infrastruktury, jak je připravována v rámci projektu EU EGI_DS, jehož se CESNET stal v polovině roku 2008 koordinátorem, předpokládá existenci Národních gridových iniciativ (NGI), které v analogii s NREN (Národními operátory výzkumných a výukových sítí) mají koordinovat gridové aktivity na národní úrovni a reprezentovat stát na mezinárodní úrovni, kde za koordinaci bude odpovídat organizace EGI.org, opět svým způsobem analogie DANTE.

Aby sdružení CESNET mohlo plnit roli NGI, bylo třeba v roce 2008 zajistit alespoň rámcový souhlas členů sdružení s rozšířením poskytovaných služeb. Na valné hromadě sdružení v polovině roku 2008 byl přijat rámcový záměr budování komplexní eInfrastruktury - záměr byl připraven v úzké spolupráci s MetaCentrem. eInfrastruktura v tomto pojetí rozšiřuje poskytované služby vysoce nad rámec pouhého přenosu dat počítačovou sítí a jako svou integrální součást zahrnuje i rozsáhlé výpočetní a úložné kapacity. CESNET budující eInfrastrukturu tak může začít plnohodnotně plnit roli nejen NREN, ale i NGI a reprezentovat Českou republiku ve vznikajícím mezinárodním gridovém prostředí EGI.

Budování komplexní eInfrastruktury však bude vyžadovat mimo jiné i netriviální investice pro výrazné zvýšení dostupného výpočetního výkonu a úložných kapacit. MetaCentrum proto začalo v průběhu roku 2008 připravovat rámcovou koncepci projektu pro Operační program Věda a výzkum pro inovace (OP VaVpI). Záměr se na jaře 2008 zúčastnil i posledního screeningu MŠMT, svým rozsahem nepatří mezi "velké projekty" (s plánovaným rozpočtem nad 50 milionů Euro), a proto nebyl v polovině roku zahrnut do mezinárodního hodnocení připravovaných velkých projektů OP VaVpI.

V prosinci 2008 pak další valná hromada sdružení projevila souhlas se záměrem realizace eInfrastruktury formou podání přiměřeně rozsáhlého projektu do OP VaVpI, zhruba v intencích, které MetaCentrum navrhovalo. Vlastní příprava projektu pak bude hlavní součástí koncepčních prací MetaCentra v první polovině roku 2009.

předchozí
obsah
následující
další weby:fond rozvojemetacentrumCzechLightpřenosyvideoservereduroameduID.cz