8 MetaCentrum
Aktivita MetaCentrum pokračovala v roce 2010 v zajištění provozu a dalším rozvoji národní distribuované výpočetní infrastruktury – gridu. Národní grid v nezbytné míře zahrnuje i úložné kapacity a služby s nimi spojené, umožňující uživatelům zpracovávat i velké objemy experimentálních dat či uchovávat rozsáhlé mezivýsledky po přiměřeně dlouhou dobu. Součástí činností aktivit MetaCentra je i propojení národního gridu do nadnárodních infrastruktur, především pak prostřednictvím odpovídajících mezinárodních (7RP EU) projektů.
S ohledem na pokračující přípravu transformace aktivity MetaCentrum do plnohodnotné Národní Gridové Infrastruktury (NGI) a v přímé návaznosti na přípravu velké infrastruktury CESNET byly hlavní aktivity roku 2010 zaměřeny na další zkvalitňování uživatelské podpory, dokončení aktuální etapy vývojových prací v oblasti plánování a virtualizace. To vše s cílem úspěšně ukončit práce na výzkumném záměru a připravit tak hladký přechod do nové etapy rozvoje NGI při reflexi změny celkového prostředí – nové služby sdružení CESNET v oblasti úložných kapacit, vznik Centra excelence IT4Innovations v Ostravě i transformace dlouhodobého partnera MetaCentra – Superpočítačového centra Brno – na Centrum CERIT-SC. Aktivita MetaCentrum se soustředila na další rozvoj procesů, které usnadní její budoucí roli jako národního koordinátora gridových aktivit s výrazným relativním poklesem výpočetního výkonu zajišťovaného technickým vybavením sdružení CESNET. Aktivita v roce 2010 nepořídila nové výpočetní kapacity a plány na další období jsou v této oblasti také spíše umírněné – model budoucího rozvoje počítá s tím, že primárními poskytovali výpočetního výkonu se stanou centra IT4Innovations a CERIT-SC, doplněná výpočetními zdroji velkých výzkumných skupin a institucí (např. CEITEC).
V souvislosti s těmito plány jsme v roce 2010 dokončili logické rozdělení MetaCentra na koordinační složku a složku poskytovatele zdrojů. Transformovali jsme odpovídajícím způsobem portál MetaCentra, kde údaje o MetaCentru jako národním koordinátoru gridových aktivit v ČR obsahují stránky na metacentrum.cz, zatímco informace o poskytování zdrojů (a tedy i role MetaCentra jako jednoho z národních poskytovatelů zdrojů pro grid) jsou soustředěny na stránkách metavo.metacentrum.cz. Pro uživatele i spolupracující organizace je tak k dispozici lépe strukturovaná informace o rolích MetaCentra, interně je lépe definována odpovědnost za jednotlivé činnosti.
Vývoj se v roce 2010 soustředil na dokončení podmínek pro přechod na novou infrastrukturu plánovačů, která počítá v daleko větší míře s autonomií jednotlivých uzlů národního gridu a současně odstraňuje závislost na komerčním plánovači PBSPro, který nahrazuje systémem Torque a samostatně vyvinutými komponentami. Pokračovaly práce v oblasti virtualizace, které zajišťují pro MetaCentrum a jeho zdroje plnou kompatibilitu s principy Cloud Computingu a umožňují podstatně lépe reagovat na nenadále požadavky uživatelů („elastický“ výpočetní výkon). Odstranění přímé vazby na fyzickou infrastrukturu umožnilo rovněž nadále rozvíjet možnosti tvorby plně uživatelského prostředí, včetně možnosti spouštět virtuální počítače s operačním systémem MS Windows a aplikacemi, které toto prostředí vyžadují. MetaCentrum tak začalo být schopno poskytovat výpočetní kapacity i uživatelům, jejichž aplikace neběží na Linuxu.
V roce 2010 pokračoval trend vysokého využití všech poskytovaných zdrojů MetaCentra, ať již vlastních nebo do národního gridu zapojených výpočetních kapacit dalších subjektů. Celkové využití všech zdrojů se podařilo držet na cca 75 %, výkonné nové stroje pak měly dlouhodobé využití přes 85 %, tj. v podstatě byly plně saturovány (do této míry využití nejsou záměrně započteny režijní potřeby a zejména čas přesunu uživatelských dat před či po výpočtech). Souběžně s vysokým využitím poskytovaných kapacit roste i počet registrovaných publikací s poděkováním MetaCentru. Vysoká míra využití a rostoucí počet i kvalita publikací jasně prokazují správnost orientace MetaCentra na přímou spolupráci a podporu uživatelů a potvrzují rovněž vysokou životaschopnost konceptu virtualizace v prostředí národní distribuované výpočetní kapacity. Současně praktická saturace všech zdrojů MetaCentra ukazuje na nedostatek výpočetních kapacit v ČR a poskytuje tak další argumenty pro vznik či transformaci nových center, jako jsou IT4Innovations a CERIT-SC.
MetaCentrum je plně integrováno do mezinárodních aktivit a souvisejících projektů. V roce 2009 se MetaCentrum podílelo na přípravě celé řady projektů 7RP EU, z nichž několik bylo komisí vybráno pro realizaci. Do konce dubna 2010 pokračovalo řešení projektu EGEE III, od května 2010 pak bylo zahájeno řešení projektů EGI InSPIRE a EMI. Projekt EUAsiaGrid pokračoval až do konce června 2010, pokračováním části jeho aktivit je pak projekt CHAIN, který začal v prosinci 2010. V návaznosti na velmi pozitivní hodnocení projektu EUAsiaGrid jsme ve druhé polovině roku 2010 připravili a podali (pod koordinací sdružení CESNET) projekt eSCAPE, zaměřený na rozvoj nástrojů, postupů a prostředí pro efektivní využití distribuované infrastruktury, opět s partnery z asijsko-tichomořské oblasti. Zahájení nových projektů v roce 2010 jsme využili pro intenzivnější propojení mezi aktivitami MetaCentra a těchto mezinárodních projektů s cílem maximalizovat synergie, které vyplývají z národních a mezinárodních činností. Sdružení CESNET je tak prostřednictvím MetaCentra zapojeno do hlavních mezinárodních aktivit na celoevropské úrovni a nadále tak drží pozici významného partnera v oblasti distribuovaných výpočetních infrastruktur.
8.1 Základní statistiky
Ke konci roku MetaCentrum VO eviduje 420 aktivních uživatelů (pro srovnání koncem roku 2009 to bylo 371 uživatelů). O prodloužení účtu požádalo 281 uživatelů, získali jsme 139 nových uživatelů. Alespoň jednu úlohu v tomto období spustilo 243 uživatelů, část uživatelů využívá registraci v MetaCentru pouze pro přístup k úložným kapacitách a dalším službám, část nikdy nebyla skutečně aktivní. Diskové pole je přístupné pro 388 uživatelů MetaCentra, 289 uživatelů má na něm uložena data. Celkem je na diskovém poli 80 mil. souborů o celkovém objemu 60 TB. V období leden až listopad 2010 uživatelé propočítali 6,4 milionů CPU hodin v 590 tis. úlohách (z toho v prvním pololetí více než 3 miliony CPU hodin ve 190 tis. úlohách). Průměrné vytížení všech strojů v MetaCentru oscilovalo po celý rok okolo 75 % (vážený průměr za celé MetaCentrum VO vztažený k počtu CPU). Uživatelé přihlásili v roce 2010 prostřednictvím webového rozhraní 64 publikací s poděkováním MetaCentru.
Uživatelé z mezinárodních VO v roce 2010 propočítali prostřednictvím center praguelcg2 na FZÚ AV ČR a prague_cesnet_lcg2 na CESNETu více než 10 milionů CPU hodin ve 2,4 milionech úloh.
8.2 Nové služby uživatelům
V roce 2010 jsme pro naše uživatele zprovoznili následující nové služby:
Zřídili jsme kerberizovanou uživatelskou wiki, ve které uživatelé MetaCentra mohou sdílet své znalosti, tipy, manuály, howto a doporučení v rámci své skupiny i s ostatními uživateli. Vložili jsme do ní rady pro úplné začátečníky – jak používat MetaCentrum, tutoriál k ukládání dat, tutoriál k VOCE, atd.
Nabídli jsme uživatelům nový nástroj pro archivaci dat z NFSv4 na pásky, je k dispozici prostřednictvím webového rozhraní. Uživatelé si sami podle svého uvážení mohou zálohovat důležitá data, o provedené archivaci jsou informováni e-mailem. Archivovaný soubor mohou následně kdykoliv převést zpět do příslušného adresáře na diskovém poli.
Představili jsme novou službu SCP přístup ke sdíleným NFS4 diskovým svazkům. Přímý SCP přístup na datové úložiště je pro uživatele pohodlný (není třeba čekat na spuštění interaktivní úlohy) a v neposlední řadě nevyžaduje instalaci NFSv4 na koncové stanici uživatele.
V roce 2010 jsme pořídili a zprovoznili novou verzi oblíbeného SW Gaussian09 (A.02). Ze statistik vyplývá, že o licenci tohoto SW je mezi uživateli dlouhodobě vysoký zájem, jedná se o druhou nejoblíbenější komerční aplikaci v MetaCentru.
Dokončili jsme rozdělení portálu v souvislosti s novou rolí MetaCentra – MetaCentrum NGI (koordinátor gridových aktivit) a virtuální organizace MetaCentrum VO.
Sjednotili jsme podmínky prodlužování účtů v MetaCentru VO a ve VOCE.
8.3 Interakce s uživateli, semináře a školení
V březnu jsme se zúčastnili 8. setkání strukturních biologů v Nových Hradech, na kterém jsme prezentovali služby MetaCentra. Získali jsme zde mimo jiné kontakty na ESFRI projekt INSTRUCT.
V březnu jsme rovněž prezentovali výsledky vývoje nové infrastruktury kooperujících plánovačů na mezinárodní konferenci ISGC 2010 v Taipei (Tchaj-wan), paralelně s našimi aktivitami v projektu EUAsiaGrid.
V popularizačním projektu Science Café, tématicky zaměřeném na superpočítače a vědecké gridy, jsme v květnu v Praze prezentovali MetaCentrum, českou NGI a EGI.
Ve spolupráci s uživateli z Univerzity v Pardubicích jsme na konci května připravili šestidenní kurz Kvantová chemie a modelování struktur, který se zabýval vývojem kvantově chemických metod, metodami výpočtu korelační energie, báze atomových orbitalů, výpočty a modelováním vlastností nových materiálů. MetaCentrum vyhradilo účastníkům kurzu 15 výpočetních uzlů a umožnilo využívat aplikační software VASP, Gaussian, Molden a MATLAB. Dva zástupci uživatelské podpory MetaCentra v kurzu předvedli v praktickém cvičení možnosti využívání zdrojů MetaCentra a seznámili účastníky kurzu se službami, které MetaCentrum nabízí.
V červenci vyšla elektronická verze Ročenky MetaCentra 2009 s více než 20 příspěvky vybraných uživatelských skupin a perspektivních jednotlivců – klíčem k výběru příspěvků byly vykázané výsledky (publikace s poděkováním MetaCentru) stejně jako významný podíl na využití zdrojů MetaCentra. Od srpna je k dispozici její plnobarevná tištěná verze.
V září jsme prezentovali MetaCentrum na European AFS & Kerberos Conference 2010.
V září jsme se rovněž zúčastnili EGI technického fóra. Toto fórum bylo prvním velkým setkáním komunity v rámci nového EU projektu EGI InSPIRE. Setkali se zde zástupci NGI a jejich spolupracovníci z akademické obce i komerční organizace z celé Evropy.
V říjnu jsme pořádali, ve spolupráci se společností Bull, s. r. o., již tradiční Seminář gridového počítání 2010, kterého se zúčastnilo více než sedmdesát odborníků z České republiky. Hlavním cílem setkání bylo informovat stávající i potenciální uživatele MetaCentra o činnosti Národní Gridové Infrastruktury (NGI) v České republice a současných trendech výkonného počítání na národní i mezinárodní úrovni. Zvaným hostem byl ředitel výkonného počítání v divizi Bull Extreme Computing společnosti Bull Jean-Pierre Panziera, který přítomným představil novinky a trendy v HPC a GPU počítání. Reprezentanti tří největších českých e-infrastrukturálních projektů (CESNET, IT4Innovations, CERIT-SC) seznámili v panelové diskusi přítomné výzkumníky s budoucností národní e-infrastruktury v České republice.
V listopadu vyšlo podzimní číslo EGI Newsletteru Inspired s článkem o konání Semináře gridového počítání 2010 v České republice.
V listopadu rovněž proběhlo školení uživatelů ze ZČU v Plzni o možnostech využití MATLAB Parallel Toolboxu, zejména jeho použití na úlohy statické a dynamické optimalizace.
8.3.1 RT systém
Interakce s uživateli a řešení jejich problémů probíhá primárně prostřednictvím systému správy lístků (Request Tracking System, RT). V 1. pololetí roku 2010 jsme uvedli do provozu novou verzi RT systému, která kromě bezpečnostních patchů vyřešila problém s přílohami. Díky vyladění spamového filtru došlo k výraznému poklesu „falešných“ požadavků, neposílají se už uživatelům zprávy informující o nepřijetí příspěvku, sporné zprávy (spamy) jdou do fronty „karanténa“, kterou pravidelně kontrolujeme a čistíme.
V rámci našeho RT jsme zprovoznili zvláštní fronty pro uživatelské skupiny, které o ně projevily zájem – např. skupina NCBR nebo ESFRI projekt ELI.
V souvislosti s transformací stávajícího MetaCentra na českou NGI jsme zprovoznili napojení našeho RT systému na systém požadovaný v EGI – GGUS. Dostali jsme z něj pětinu všech dotazů a požadavků, které jsme v tomto roce řešili.
Ve sledovaném období (leden až prosinec 2010) bylo v RT systému založeno přímo uživateli (zpravidla konkrétní dotaz nebo oznámení problému) nebo prostřednictvím portálu MetaCentra na základě požadavku uživatelů (zřízení či prodloužení účtu, žádost o zvýšení diskových kvót apod.) nebo správci 1469 nových lístků, z toho 249 dotazů a požadavků se týkalo mezinárodního gridového prostředí. Zároveň se podařilo RT statistiky očistit od falešných požadavků (spamů).
8.4 Spolupráce s významnými uživatelskými skupinami
V roce 2010 jsme vyčlenili úvazky na přímou podporu uživatelů s cílem vyhledat uživatelské skupiny s výbornými vědeckými výsledky a v přímé spolupráci s nimi napomoci optimalizaci jejich úloh spouštěných v MetaCentru, optimalizovat přenos a ukládání dat, a v neposlední řadě nabídnout pomocnou ruku při přechodu skupiny z národního do mezinárodního gridového prostředí. Konkrétním výsledkem spolupráce s jednou takovou skupinou je technická zpráva [KHB10].
Skupina se po celý rok soustředila na řešení dvou základních typů uživatelských problémů – zpracování velkého počtu úloh a řešení problémů se zpracováním velkého objemu dat. Na základě zkušeností s přímou prací s uživateli skupina vytvořila návody řešící jejich nejčastější problémy týkající se spouštění úloh a práce se souborovými systémy dostupnými v MetaCentru. Návody jsou dostupné všem ostatním uživatelům na uživatelské wiki a byly prezentovány rovněž na Semináři gridového počítání.
Celkem jsme v roce 2010 podpořili čtyři významné uživatelské komunity. Dvě z podpořených skupin se podařilo vzájemně zkontaktovat, vyměnily si své zkušenosti s digitalizací a zpracováním objemných obrazových dat (konverze do JPEG2000) a poskytly příslušné nástroje. Ve spolupráci s dalšími dvěma uživatelskými skupinami jsme v MetaCentru nasadili framework Diane, který optimalizuje spouštění velkého množství úloh v gridu. V prostředí s plánovacím systémem PBS, vzhledem k režii PBS, není efektivní zadávat velká množství úloh jednotlivě, ale výhodnější je využití vhodného frameworku spouštění pilotních úloh. Po otestování v MetaCentru plánujeme nasazení frameworku Diane také v EGI (VOCE).
8.5 Provozní statistiky MetaCentra VO
Pokračovali jsme v dalším rozvoji výpočtu provozních statistik využití zdrojů ve virtualizovaném prostředí MetaCentra. Zprovoznili jsme on-line nástroj pro generování grafů z accountingových dat, který je k dispozici v interní sekci portálu MetaCentrum VO. Data jsou získávána ze záznamů plánovacího systému PBS, ze systému pro správu účtů Perun a z logů jader výpočetních uzlů. Následující statistiky byly generovány s využitím tohoto nástroje. Podrobnosti ke generování statistik jsou popsány na wiki.
8.5.1 Výpočetní zdroje
Uživatelé MetaCentra VO měli k dispozici více než 1500 CPU. Tabulka 8.1 ukazuje trend růstu počtu procesorových jader v MetaCentru v uplynulých letech.
| rok | 2004 | 2006 | 2008 | 2009 | 2010/1 | 2010/2 |
|---|---|---|---|---|---|---|
| jader | 262 | 600 | 1200 | 1468 | 1560 | 1522 |
Tabulka 8.1. Vývoj počtu procesorových jader v MetaCentru VO
V prvním pololetí došlo k mírnému nárůstu počtu CPU zapojených do MetaCentra. Integrovali jsme nově pořízený cluster Tarkil (CESNET), kterým byl nahrazen cluster Skurut (CESNET) v Praze. Zprovoznili jsme obnovený stroj Ajax v Plzni (ZČU) a došlo k rozšíření clusteru Alela (FEEC VUT) a Hermes (JČU). Na žádost vlastníků byly odstaveny clustery Perian17-68 a Perian69-76 (oba PřF MU). Oproti prvnímu pololetí tak došlo k mírnému poklesu počtu CPU zapojených v MetaCentru. Clustery Perian77-86 a Perian87-96 (všechny PřF MU) byly přestěhovány do nového sálu ve správě vlastníků clusteru, zůstaly však zapojeny v MetaCentru.
O začlenění svých zdrojů do NGI projevily zájem další instituce. Aktuálně jednáme s Univerzitou Tomáše Bati ve Zlíně a Západočeskou univerzitou v Plzni, kde bude v roce 2011 zprovozněn cluster vybavený grafickými koprocesory (GPU) jako prostředky urychlení výpočtů.
| období | počet úloh | CPU hodin |
|---|---|---|
| 2009/1–6 | 125 tis. | 1,5 mil. |
| 2009/7–12 | 364 tis. | 3,2 mil. |
| 2010/1–6 | 190 tis. | 3 mil. |
| 2010/7–11 | 400 tis. | 3,2 mil. |
Tabulka 8.2. Srovnání počtu a doby trvání úloh v 1. a 2. pololetí let 2009 a 2010
![[Obrázek]](img/prumer_vytizeni.png)
Obrázek 8.1. Průměrné vytížení clusterů (větší obrázek)
Koncem května byl v MetaCentru nainstalován uživateli žádaný program Gaussian09 v nejnovější verzi A.02. Ihned po uvedení novinky o zprovoznění se stal po Amberu třetí nejoblíbenější aplikací v MetaCentru. Na prvním místě je vlastní aplikace dr. Benedikta ze ZČU. Přehled propočítaného času aplikací je zachycen na grafu 8.2.
Na žádost uživatelů jsme vylepšili dokumentaci aplikace JDK, nainstalovali nové aplikace RAxML a Molden 64b a nové verze balíků Python a SciPy.
![[Obrázek]](img/aplikace.png)
Obrázek 8.2. Aplikace podle propočítaného CPU času (větší obrázek)
Graf na obrázku 8.3 ukazuje dobu běhu jednotlivých úloh. Doba běhu převážné většiny z nich nepřekračuje 24 hodin. Extrémně krátké úlohy zpravidla ukazují na problémy se zadáním a konfigurací. Výskyt takovýchto úloh průběžně monitorujeme a na uživatele s vysokým podílem tohoto typu úloh se soustřeďuje uživatelské podpora. Zjistili jsme, že v prvním pololetí významně stoupl počet úloh s dobou běhu několik jednotek až desítek vteřin, což ukazovalo na velký podíl chybně zadaných úloh. Značnou část takových úloh měl na svědomí jediný uživatel, kterému v červnu 2010 skončilo chybou v zadání programu téměř 100 tis. úloh v rozmezí několika dnů. Po zásahu uživatelské podpory se již u tohoto uživatele problém neopakoval.
![[Obrázek]](img/doba_behu_comp.png)
Obrázek 8.3. Doba běhu úloh v CPU hodinách (větší obrázek)
![[Obrázek]](img/procesory.png)
Obrázek 8.4. Počet spuštěných úloh a propočítaný čas s rozlišením počtu použitých CPU (větší obrázek)
Graf doby běhu úloh (obr. 8.3) nerozlišuje mezi sekvenčními a paralelními úlohami – přitom značné množství úloh s délkou trvání v řádu hodin je paralelních (využívají zpravidla 4–32 procesorů), MetaCentrum tak efektivně zkracuje dobu čekání na výsledky (pětihodinová úloha na 16 procesorech by se počítala více jak 3 dny na jednoprocesorovém stroji a stále skoro celý den na čtyřprocesorovém systému).
Podíl víceprocesorových úloh dokládají grafy na obrázku 8.4. Zatímco podle počtu spuštěných úloh jasně vedou jednoprocesorové úlohy, většina propočítaného CPU času je spotřebována víceprocesorovými úlohami. Tyto výsledky jsou potvrzením orientace MetaCentra na víceprocesorové počítače.
Uživatel s nejdelším časem propočítal v prvním i druhém pololetí více než pětinu z celkového propočítaného CPU času za celé MetaCentrum, první čtyři uživatelé propočítali v roce 2010 dohromady cca 60 % celkového propočítaného CPU času. Z grafu 8.5 je zřejmé, že v MetaCentru je zastoupeno několik málo skupin, které dokáží využít nezanedbatelnou kapacitu MetaCentra. Tyto skupiny je možné současně identifikovat s velkými projekty OP VaVpI nebo ESFRI, což dokládá úzkou korelaci mezi využitím výpočetních kapacit MetaCentra a kvalitou výzkumu podporovaných a spolupracujících výzkumných týmů.
![[Obrázek]](img/uzivatel.png)
Obrázek 8.5. Žebříček uživatelů podle propočítaného CPU času a počtu úloh v 1. a 2. pololetí (větší obrázek)
Podrobnější náhled na využití strojového času institucemi nabízí graf na obr. 8.6. Mezi nejaktivnější instituce už tradičně patří Masarykova univerzita (44% podíl na celkovém CPU času), Západočeská univerzita (25 %) a Akademie věd ČR (18 %).
![[Obrázek]](img/organizace.png)
Obrázek 8.6. Instituce podle propočítaného CPU času a počtu propočítaných úloh (větší obrázek)
8.6 Plánovací systém a správa front
V roce 2010 jsme provedli další úpravy plánovacího systému PBS směřující k efektivnějšímu využití disponibilních výpočetních zdrojů a uspokojení co největšího počtu uživatelů. Všechny tyto úpravy jsou souběžně komponovány do nově vyvíjeného prostředí kooperujících plánovačů Torque a budou i nadále uživatelům k dispozici. Nový systém plánovačů byl v průběhu roku již nasazen pro experimentální ověření, k ostrému přechodu dojde začátkem roku 2011.
Začátkem roku jsme vyšli vstříc uživatelům s velkým počtem úloh, kteří si opakovaně stěžovali na nastavené limity pro maximální počet běžících úloh jednoho uživatele. Vytvořili jsme novou nízkoprioritní frontu s názvem „backfill“ („zavážka“ či „výplň“), vhodnou pro velké množství úloh s dobou trvání do 24 hodin. Úlohy v této frontě vyplňují volná místa na strojích a mohou být z naší strany v případě potřeby (mobilizace zdrojů pro náročnou úlohu jiného uživatele) přerušeny nebo ukončeny. Fronta si postupně získává mezi uživateli oblibu, i přes skutečnost, že úlohy v této frontě jsou pouze výplňové a spouštějí se s nízkou prioritou na strojích, o které v danou chvíli není zájem v jiných frontách, a mohou být kdykoliv přerušeny. Ve druhém pololetí roku se stala frontou s nejvyšším počtem spuštěných úloh. Přikládáme to skutečnosti, že ve frontě není limitován počet současně spuštěných úloh jednoho uživatele, což hojně využívají zejména ti uživatelé, kteří figurují v žebříčku propočítaného času na prvních místech.
Upravili jsme podmínky umožňující přístup do privilegovaných front „privileged“ a „privileged@arien“ – nově mají uživatelé možnost získat přístup ke frontě za poskytnutý návod k aplikaci (původně jen za 3 publikace s poděkováním MetaCentru). V současné době má přístup do fronty 25 uživatelů. Podle statistik je fronta využívána převážně pro mnohaprocesorové úlohy obvykle s vysokými nároky na paměť, které by v jiné frontě čekaly neúměrně dlouho. Vyhovujících strojů v MetaCentru pro takto náročné úlohy je omezené množství.
![[Obrázek]](img/fronta_cas.png)
Obrázek 8.1. Žebříček front podle propočítaného CPU času (větší obrázek)
V prvním čtvrtletí jsme zaznamenali dlouhou dobu čekání úloh na spuštění v obou privilegovaných frontách, až 25 dní. V této frontě uživatelé obvykle spouští mnohaprocesorové úlohy, které by v ostatních méně prioritních frontách čekaly mnohem déle. CPU čas propočítaný v těchto frontách před úpravou nastavení se pohyboval v jednotkách procent celkového propočítaného času v MetaCentru. Na začátku května jsme zvýšili maximální počet zároveň běžících úloh v obou privilegovaných frontách a zároveň jsme omezili přístup fronty „backfill“ na silné stroje (ajax, aule, eru, manwe). Díky těmto opatřením se výrazně zvýšil podíl úloh spuštěný do jedné minuty, což dokládají grafy na obr. 8.8.
![[Obrázek]](img/cekani-privil.png)
Obrázek 8.2. Čekání úloh v privilegované frontě v 1. čtvrtletí a ve zbytku roku (větší obrázek)
V dubnu jsme v rámci nové politiky zpřístupnili cluster Quark vyhrazený původně pro zpracování záznamů přednášek na MU všem uživatelům MetaCentra prostřednictvím méně prioritních front „short“ a „backfill“.
Po celý rok 2010 přetrvává trend vysokého vytížení clusterů MetaCentra z konce minulého roku. Vytížení většiny strojů s volným přístupem mezi 70 a 90 procenty znamená faktickou saturaci MetaCentra, pro uživatele znamená delší dobu čekání na spuštění úloh, pro správce vyšší tlak na efektivitu využití zdrojů.
![[Obrázek]](img/cekani_uloh_comp.png)
Obrázek 8.7. Porovnání doby čekání úloh na spuštění v 1. a 2. pololetí (větší obrázek)
![[Obrázek]](img/cekani_uloh_comp2.png)
Obrázek 8.8. Porovnání doby čekání úloh na spuštění v roce 2009 a 2010 (větší obrázek)
8.7 Využití zdrojů MetaCentra
![[Obrázek]](img/stroje.png)
Obrázek 8.9. Stroje podle počtu úloh a propočítaného CPU času (větší obrázek)
Mezi nejžádanější stroje tradičně patří silné víceprocesorové clustery s poměrně velkou pamětí, např. Nympha, novější Skirit, Tarkil a Manwe. Cluster Tarkil (28 osmijaderných strojů) jsme zprovoznili až v březnu, přesto zaujal prvenství v počtu propočítaných CPU hodin v roce 2010. Na obrázku 8.11 jsou clustery seřazeny podle celkového propočítaného CPU času a podle počtu propočítaných úloh, není zohledněn počet CPU.
Stále rostoucí zájem o podporu paralelních úloh je možné demonstrovat na využití 16procesorových strojů Manwe, které osciluje celoročně okolo 90 % (v loňském roce 85 %).
![[Obrázek]](img/manwe.png)
Obrázek 8.10. Vytížení clusteru Manwe (větší obrázek)
Daří se nám zajistit vysoké vytížení spravovaných zdrojů ve vlastnictví uživatelských skupin. V polovině loňského roku přistoupila skupina NCBR (National Centre for Biomolecular Research, PřF MU) na zpřístupnění svého clusteru Orca dalším uživatelům, vlastníkům clusteru zůstal prioritní přístup ke svým výpočetním zdrojům. Vytížení vzrostlo z 18 % před zpřístupněním na téměř 90 %. Obdobné výsledky dosahuje cluster Perian patřící rovněž NCBR.
![[Obrázek]](img/orca.png)
Obrázek 8.11. Vytížení clusteru Orca (NCBR/PřF MU) (větší obrázek)
V dubnu jsme z větší části zpřístupnili původně vyhrazený cluster Quark všem uživatelům MetaCentra prostřednictvím méně prioritních front. I u něj se projevil významný nárůst jeho průměrného vytížení, které ve druhém pololetí přesáhlo 60 %.
![[Obrázek]](img/quark.png)
Obrázek 8.12. Vytížení clusteru Quark (větší obrázek)
Na gridovém semináři jsme prezentovali rozdíl ve vytížení vyhrazených a volně přístupných clusterů. To vyvolalo zájem některých skupin o integraci jejich clusterů do MetaCentra, případně volnější zpřístupnění již integrovaných clusterů s omezeným přístupem. Praktické zkušenosti tak jasně ukazují smysluplnost gridového prostředí a pozitivní vliv na vyšší efektivitu využití instalovaných kapacit.
8.8 Datové úložiště
Ve spolupráci s MU, jehož SCB poskytlo finanční prostředky, jsme rozšířili kapacitu diskového pole o 24 TB, celková hrubá kapacita pole je nyní 124 TB. Využitelná kapacita datového úložiště byla povýšena z 44 TB na 77 TB, uživatelská data zabírají cca 60 TB (80 %) v 80 milionech souborů (pro srovnání loni jen 30 milionů souborů). Průměrná velikost jednoho souboru je 741 kB.
Diskové pole je přístupné prostřednictvím svazku /storage pro 388 uživatelů MetaCentra, 289 uživatelů má uložena nějaká data. Většina (250) uživatelů má uloženo méně než 100 tisíc, 23 má uloženo méně než milion souborů a 16 uživatelů má uloženo více než milion souborů. 144 uživatelů má uloženo alespoň 1 GB dat, což představuje dvojnásobný nárůst oproti loňskému roku. Anonymizovaný žebříček datově náročných uživatelů uvádí tabulky 8.3 a 8.4 (uživatel s největším počtem souborů není identický s uživatelem s největším objemem uložených dat).
Oproti loňsku se rozrostly u nás uložené archivy IT sekce kampusu Bohunice (částečný překryv s projektem CEITEC) z 3,8 TB na 9,6 TB a archiv Moravské zemské knihovny z 4,6 TB na 6,8 TB.
| počet souborů v diskovém poli | |
|---|---|
| Uživatel A | 21 578 425 |
| Uživatel B | 12 691 831 |
| Uživatel C | 8 655 936 |
| Uživatel D | 4 884 061 |
| Uživatel E | 4 449 573 |
Tabulka 8.3. Žebříček uživatelů podle počtu uložených souborů
| objem dat v diskovém poli | |
|---|---|
| Uživatel U | 10,6 TB |
| Uživatel V | 9,6 TB |
| Uživatel X | 6,8 TB |
| Uživatel Y | 4,8 TB |
| Uživatel Z | 4,0 TB |
Tabulka 8.4. Žebříček uživatelů podle počtu objemu dat
8.9 Bezpečnost
V oblasti bezpečnosti jsme pokračovali v aktivním vývoji služby pro sledování stavu bezpečnostních aktualizací Pakiti. Pakiti je volně dostupná aplikace určená pro monitorování softwarových balíků, zejména s důrazem na identifikaci bezpečnostních problémů a nedostatečně aplikovaných záplat. V průběhu roku se nám podařilo systém Pakiti povýšit z pilotního provozu do zcela rutinní služby, která je využita pro každodenní monitoring jak MetaCentra, tak i celé evropské gridové infrastruktury EGI. Zejména v organizačně heterogenním prostředí EGI přispělo nasazení Pakiti ke zkrácení doby aktualizací a celkově tak ke zvýšení bezpečnosti, jelikož útoky využívající nezáplatované zranitelnosti patří stále k největším rizikům v počítačových systémech.
Další oblastí, které jsme se věnovali, byla již tradičně federace identit. Pokračovali jsme v technické podpoře elektronického atlasu patologických snímků. Služba je v současné době napojena na 14 mezinárodních akademických federací, jejichž uživatelé tak mohou používat pro přístup k atlasům svou běžnou identitu. Počtem podporovaných mezinárodních federací je tato služba naprosto unikátní i ve světovém rozsahu a je často používána jako příklad interfederační podpory.
V průběhu roku jsme byli přizváni do nového projektu Moonshot, který se také zabývá využitím federací. Moonshot je aktivita podporovaná společně GN3 a JANET (UK) a jeho hlavním cílem je podpora federovaných mechanismů i v newebovém světě. Typickým příkladem je realizace federovaného SSH, kdy by uživatel nepotřeboval zvláštní heslo pro přihlášení na SSH server, ale mohl využít svou federovanou identitu. Navržená architektura se podobá systému eduroam a je z velké části složena z komponent, které jsou prověřené v praxi. Velký důraz v projektu Moonshot je kladen na standardizaci a jeho účastníci se aktivně podílejí na specifikaci IETF dokumentů v nově ustavené skupině IETF ABFAB (Application Bridging for Federated Access Beyond). MetaCentrum bylo do projektu přizváno na základě našich předchozích prací v oblasti autentizace v HTTP prostředí. V průběhu roku jsme se tak věnovali vývoji modulů pro Apache a Firefox, které podporují federovanou infrastrukturu Moonshotu a plánujeme se dále zaměřit na využití této architektury v gridovém prostředí.
V roce 2010 jsme také pokračovali v podpoře autorizační služby, která vznikla v minulých letech. V průběhu roku bylo přepsáno uživatelské rozhraní pro správu ACL tak, aby umožnilo snadnější a intuitivnější manipulaci se seznamy práv. Řízení přístupu ke zdrojům byl také jeden z hlavních motivačních úkolů při návrhu a implementaci nového systému pro správu zdrojů (Perun3) a zkušenosti s autorizační službou byly do návrhu promítnuty. Díky tomu počítá návrh systému Perun3 s tím, že velká část autorizace bude řešit přímo jeho jádro. Do budoucna tedy budeme více spoléhat na funkce přímo dostupné ze systému Perun3 a nespoléhat na samostatnou autorizační službu.
Pokračovali jsme v provozu registrační autority CESNET CA a přenesli tuto službu i pro novou autoritu CESNET CA3. Dále provozujeme RADIUS server pro eduroam pro uživatele MetaCentra a poskytovatele identit. Úzce spolupracujeme s CSIRT týmem CESNETu a jsme aktivními členy CSIRT týmu, který je zodpovědný za prostředí EGI.
8.10 Podporované mezinárodní virtuální organizace (VO)
MetaCentrum poskytuje do EGI zdroje prostřednictvím dvou center praguelcg2 na FZÚ AV ČR a prague_cesnet_lcg2 na CESNETu (2720 + 80 jader). Tyto zdroje jsou využívány námi spravovanými (Auger, VOCE) a námi podporovanými (Belle, SuperNEMO, EUAsia, Atlas, Alice, ...) mezinárodními virtuálními organizacemi.
Virtuální organizace Auger (ve správě MetaCentra, 57 uživatelů) projektu Observatoř Pierra Augera figuruje v oficiální EGI statistice na 11. místě dle počtu poslaných úloh a na 14. místě dle celkového propočítaného CPU času (z celkových 266 virtuálních organizací). Zároveň je největším uživatelem dostupných CESNET gLite zdrojů s 82% podílem na normalizovaném výpočetním CPU čase. Simulovaná data se přenášejí do výpočetního střediska v Lyonu, kde jsou pomocí SRB dostupná i uživatelům bez gridového certifikátu.
VOCE (ve správě MetaCentra, 196 aktivních uživatelů) Virtual Organisation for Central Europe je tzv. catch-all virtuální organizace poskytující zdroje (gLite middleware) uživatelům, kteří nepřísluší žádné speciální VO nebo si chtějí gridy vyzkoušet, v regionu střední Evropy.
EUAsia je tzn. catch-all virtuální organizace reprezentující uživatele v regionu Asie a Pacifiku. Tato virtuální organizace byla založena jako součást projektu EUAsiaGrid.
Japonský experiment Belle (KEK B-factory) spouštěl v roce 2010 dvě simulační kampaně na gridových zdrojích, do obou jsme zapojili i zdroje CESNETu. Většinu výpočetních zdrojů pro Belle poskytuje středisko KEK v Japonsku mimo grid, ale následný projekt Belle II plánuje přenést většinu simulačních aktivit na distribuované gridové zdroje. Příprava a testy se provádějí pomocí simulací potřebných pro současný projekt Belle. Projekt vyžadoval instalaci vlastní databáze na vyhrazeném virtualizovaném serveru. Celkem spotřeboval 14 % normalizovaného výpočetního času na pracovních uzlech CESNET gLite.
Projekt SuperNEMO částicových fyziků univerzity v Manchesteru využívá zdroje CESNETu spíše nárazově při potřebě hromadných simulací, celkem se na našich strojích spustilo téměř 1500 úloh (z celkového počtu 89 tis. propočítaných v rámci celého EGEE/EGI.
Uživatelé z mezinárodních VO v roce 2010 propočítali prostřednictvím praguelcg2 na FZÚ AV ČR a prague_cesnet_lcg2 na CESNETu více než 10 milionů CPU hodin ve 2,4 milionech úloh. Data jsou převzata z portálu EGI Accounting.
![[Obrázek]](img/norm_elaps_time_perVO.png)
Obrázek 8.13. prague_cesnet_lcg2 – normalizovaný propočítaný CPU čas (elapsed HEPSPEC06) jednotlivými VO (větší obrázek)
![[Obrázek]](img/jobs_cesnetperVO.png)
Obrázek 8.14. prague_cesnet_lcg2 – počet úloh jednotlivých VO (větší obrázek)
EGI celkem eviduje 266 virtuálních organizací. Podle oficiálních accountingových údajů (propočítaný čas a počet úloh) za celou EGI figurují námi spravované a podporované virtuální organizace na předních místech v žebříčcích VO s nejvyšším propočítaným CPU časem (viz tabulka 8.5) a s největším počtem propočítaných úloh (viz tabulka 8.6).
| pořadí | VO | CPU hod. |
|---|---|---|
| 1 | atlas | 479 mil. |
| 2 | cms | 146 mil. |
| 3 | alice | 120 mil. |
| 4 | lhcb | 62 mil. |
| 13 | auger | 4,8 mil. |
| 23 | belle | 2,1 mil. |
| 44 | voce | 0,6 mil. |
| 46 | euasia | 0,6 mil. |
| 73 | supernemo | 0,2 mil. |
Tabulka 8.5. Pořadí VO v rámci celé EGI podle propočítaného CPU času
| pořadí | VO | počet úloh |
|---|---|---|
| 1 | atlas | 175.478 tis. |
| 2 | cms | 37.879 tis. |
| 3 | alice | 17.703 tis. |
| 4 | ops | 14.320 tis. |
| 11 | auger | 712 tis. |
| 32 | euasia | 166 tis. |
| 42 | voce | 105 tis. |
| 50 | supernemo | 89 tis. |
| 55 | belle | 78 tis. |
Tabulka 8.6. Pořadí VO v rámci celé EGI podle počtu úloh
8.11 Speciální služby
Česká NGI provozuje služby typu „back office“ pro velké mezinárodní projekty ELI a EGI InSPIRE.
Pro projekt EGI provozujeme:
- weby (http://www.egi.eu/ a http://www.einfrastructure-forum.eu/),
- wiki (http://wiki.egi.eu/),
- dokumentový server (http://documents.egi.eu/),
- Indico (https://www.egi.eu/indico/) a
- mailingové listy (http://mailman.egi.eu).
Pro projekt ELI připravujeme:
- wiki (http://eli.cesnet.cz/wiki),
- dokumentový server (https://eli.cesnet.cz/DocDB/ldap/DocumentDatabase),
- single sign on (https://eli.cesnet.cz/sso/),
- podporu přes RT pomocí mailových adres eli@rt3.cesnet.cz a eli@metacentrum.cz.
Podrobnější informace ke jmenovaným službám jsou k dispozici na MetaCentrové wiki (https://meta.cesnet.cz/metawiki/index.php5/EGI a https://meta.cesnet.cz/metawiki/index.php5/ELI).
|
|
obsah |
následující
|