9 MetaCentrum
Budování distribuované infrastruktury - národního Gridu, propojujícího výpočetní i datové kapacity a tvořícího základ pokročilých aplikací nad počítačovou sítí - je hlavním cílem aktivity MetaCentrum. Původní plány, dané návrhem výzkumného záměru, bylo třeba redukovat tak, aby odpovídaly omezeným finančním možnostem schváleného rozpočtu výzkumného záměru. Redukce vedla k výraznému omezení nově pořízené výpočetní a datové kapacity a způsobila určité omezení celkového rozsahu práce.
Řada činností MetaCentra je úzce koordinována s prací na řešení projektu 6. rámcového programu EGEE (viz. kapitola 15). Úzká spolupráce obou týmů současně garantuje jak bezprostřední využití výsledků mezinárodního projektu v rámci výzkumného záměru, tak i dává možnost prezentace a využití výsledků záměru v mezinárodním prostředí.
V průběhu roku byla činnost v rámci aktivity MetaCentrum rozdělena do následujících oblastí:
- Zajištění provozu
- Vytvoření uživatelské podpory, včetně kompletní rekonstrukce portálu MetaCentra
- Vývojové aktivity v oblasti monitorování gridové infrastruktury
- Bezpečnost v prostředí Gridů
Vývoj v oblasti plánování zdrojů nebyl v roce 2004 zahájen, především z důvodu omezení rozsahu činnosti. Dlouhodobě předpokládáme využití výsledků výzkumu, který bude v roce 2005 zahájen na Masarykově univerzitě v Brně v rámci přijatého výzkumného záměru Fakulty informatiky MU.
9.1 Zajištění provozu
Hlavní výpočetní kapacitou MetaCentra jsou clustery osobních počítačů. Spravujeme tři uzly - na ZČU v Plzni, v prostorech CESNETu a na MU v Brně - které měly na konci roku 2004 celkem 262 procesorů. Všechny tyto clustery jsou osazeny procesory Intel Pentium (od verze III pracující na 700 MHz až pro 3GHz Xeony) a pracují pod operačním systémem Debian Linux. Část kapacit je propojena vysokorychlostní sítí Myrinet, což umožňuje realizovat i výpočty s vysokými nároky na rychlost a kapacitu přenosu mezi uzly clusteru. Uživatelům jsou však k dispozici i alternativní výpočetní prostředí, především 64 bitové systémy IBM Power4+ a AMD Opteron, obé pod operačním systémem SuSe Linux. MetaCentrum dále ve spolupráci se ZČU, UK a MU spravuje i výkonné výpočetní systémy firem SGI třídy Origin, osazené procesory MIPS (v Praze a Brně) a HP/Compaq AlphaServer s procesory EV7 (v Plzni).
MetaCentrum dále spravuje velkoobjemovou páskovou knihovnu s kapacitou 12 TB, která slouží k zálohování všech uzlů. Pro vlastní zálohování používáme systém NetWorker firmy Legato (resp. IBM, která firmu Legato zakoupila), zálohy jsou drženy po dobu tří měsíců. Zálohujeme diskové kapacity MetaCentra (kapacita sítě CESNET2 bez problému umožňuje vzdálenou realizaci i velkoobjemových záloh), služba je k dispozici i dalším akademickým institucím. V roce 2004 jsme např. páskovou knihovnu využili pro průběžné zálohování videoarchivu, kde je v současné době uloženo přes 1,5 TB videodat.
Podrobné informace o dostupném hardware i software jsou k dispozici na webu MetaCentra.
V roce 2004 jsme dále povýšili výpočetní kapacitu MetaCentra. Po vyhodnocení nabídek a stavu překladačů a vývojového prostředí pro 64bitové architektury jsme se rozhodli zůstat u osvědčené architektury IA-32 a pořídit nový cluster s procesory Intel Pentium 4 Xeon, s 1 MB vyrovnávající paměti a pracujícími na frekvenci 3 GHz. Dostupné finanční prostředky umožnily nákup 36 dvouprocesorových uzlů, každý s 2 GB vnitřní paměti a jedním ATA diskem s kapacitou 80 GB. Tento cluster je umístěn v prostorách sdružení CESNET v Praze, kde postupně nahradí již dosluhující cluster firmy SGI (Pentium III na 700 MHz).
Kromě nákupu a instalace nových výpočetních kapacit se provozní část MetaCentra zabývala následujícími činnostmi:
- Zprovoznění procesního účtování na všech uzlech clusteru. Jsou k dispozici podrobná data o využití programového vybavení, která budou průběžně zveřejňována na portálu MetaCentra.
- Údržba provozního software, zejména pak plánovacích systémů. V průběhu roku 2004 jsme rozšířili licenci na systém správy úloh PBSPro, což umožní od roku 2005 tímto systémem plně pokrýt všechny výpočetní kapacity MetaCentra a zjednoduší práci správcům i uživatelům (kteří se nebudou muset seznamovat s rozdílnými systémy správy úloh). Omezení počtu podporovaných systémů správy úloh umožnilo soustředit se i na podrobnější studium systému PBSPro a jeho modifikace. Byla např. odhalena a odstraněna příčina nežádoucího rušení uživatelských úloh v tomto systému. V průběhu roku jsme rovněž realizovali přechod na novou verzi používaného operačního systému.
- Správa clusterů, včetně nástrojů na sledování stavu. V současné době mají uživatelé možnost sledovat stav svých úloh přímo prostřednictvím portálu, kde jsou dostupné všechny běžně potřebné informace: stav strojů, stav jednotlivých front, stav konkrétních úloh (viz. web a obrázek 9.1).
- Nejužívanější aplikace byly rovněž portovány do prostředí počítačů s architekturou jinou než IA-32. Výsledky budou bezprostředně využity i mimo MetaCentrum, např. uživateli z Národního centra pro výzkum biomolekul, které koncem roku 2004 zakoupilo menší cluster vybavený 64bitovými procesory AMD Opteron.
Provoz MetaCentra obhospodařuje a dále rozvíjí i systém Perun, který jsme vyvinuli v rámci předchozího výzkumného záměru sdružení. Tento systém slouží ke správě informací o uživatelích i některých komponentách Gridu a významným způsobem usnadňuje práci administrátorů. Systém jsme propojili s PKI autentizací (základní autentizace v rámci MetaCentra využívá systém Kerberos), s tím souvisí rozšíření datového schematu, vytvoření odpovídajících nástrojů CLI (Command Line Interface) a rovněž jsme zprovoznili službu generování gridmap souborů (autorizační informace). Současně jsme zakoupili a plně přešli na novou verzi 10 databáze Oracle, která tvoří základ systému Perun. V dalším období plánujeme využití systému Perun mimo MetaCentrum, zejména pro správu zdrojů projektu EGEE. Připravili jsme proto první samostatnou distribuci tohoto systému, včetně instalační příručky.
Ve druhé polovině roku 2004 byl úspěšně obhájen projekt Fondu rozvoje sdružení CESNET s názvem Distribuované datové sklady (DiDaS). Výsledkem projektu je distribuovaný diskový prostor, přístupný protokolem IBP (Internet Backplane Protocol). Celkem je k dispozici 15 TB v 7 lokalitách ČR, všechna datová úložiště jsou přímo připojena na páteř počítačové sítě CESNET (viz. didas.ics.muni.cz). Hlavním nositelem tohoto projektu byla Masarykova univerzita v Brně, i další partneři projektu jsou členy sdružení, často aktivně participující na aktivitách MetaCentra. Na základě dohody s MU bude proto další rozvoj a zejména využití pořízeného diskového prostoru zajištěno v úzké koordinaci s MetaCentrem. Disková kapacita je k dispozici jako dočasné úložiště pro datově náročné výpočty (intenzivně je využívána např. při transkódování videa) a též pro dočasné ukládání velkých objemů dat (rozbalené archivy, rozsáhlé mezivýsledky, redundantní uložení dat často používaných při výpočtech apod.).
9.2 Uživatelská podpora a portál
Plně v souladu s původním plánem jsme vytvořili novou koncepci prezentace. Portál MetaCentra byl v průběhu roku 2004 kompletně přebudován, z původní verze tvořené (nedokumentovanou) kombinací statických stránek, PHP a Perl skriptů byl převeden na modernější platformu, v jejímž rámci je statický obsah spravován systémem OpenCMS (Content Management System) a interaktivní stránky jsou založeny na využití technologie Java 2 Enterprise Edition.
Kompletní portál je k dispozici na meta.cesnet.cz a postupně jej plníme českou i anglickou mutací stránek.
Prostřednictvím portálu nabízíme nové služby, které výrazně zvyšují uživatelský komfort. Kompletně jsme v roce 2004 přepsali veřejnou interaktivní část portálu pro přihlášení se k MetaCentru, stejně jako části zpřístupňující správu osobních údajů uživatelů MetaCentra, žádosti a aktivace účtů na jednotlivých strojích a rovněž část určenou pro podávání zpráv o činnosti. Ve spolupráci s dalšími skupinami MetaCentra byla doplněna interaktivní část portálu o stránky pro sledování aktuálního využití výpočetních prostředků, informace z PBSpro jsou přímo zobrazovány v přehledné grafické formě.
Koncem roku jsme implementovali i notifikační službu pro zasílání informací o plánovaných i neplánovaných výpadcích výpočetních zdrojů MetaCentra.
V roce 2004 MetaCentrum rovněž zahájilo přechod na standardní systém sledování požadavků, a to prostřednictvím RT systému, který je dlouhodobě používán v rámci zajištění provozu sítě CESNET2. Zakoupili jsme hlavní a záložní server RT systému (sdíleno s provozem celé sítě), instalovali RT systém verze 3 a začali budovat lokální elektronický helpdesk, který bude v roce 2005 integrován s portálem MetaCentra.
9.3 Sledování stavu infrastruktury (Grid monitoring)
Toto je hlavní výzkumná aktivita MetaCentra, ovšem v roce 2004 stále převažovaly spíše činnosti související s podporou provozu a vlastní vývoj byl soustředěn spíše do projektu EGEE.
Sledování stavu uzlů clusteru přešlo na systém ganglia, soustředili jsme se proto především na jeho modifikace a rozšiřování. Před dokončením je bakalářská práce, která umožní snazší přidávání nových senzorů (stávající množina byla rozšířena, ale "starým" způsobem, který nevyhovuje) a dále umožní registraci "háčků" (hook) do centrální části systému ganglia tak, aby zvolená data bylo možno ukládat i do jiných než RRD databází. Bude možno specifikovat podmínky výběru ukládaných dat, ukládání bude možné do SQL databáze (primárně MySQL), do soketu i do pipe, což umožní přímé napojení na notifikační službu. Webové rozhraní ganglie leží na https://lindir.ics.muni.cz/ganglia, přístup ale vyžaduje autentizaci uživatele MetaCentra. Integrace s portálem MetaCentra je plánována na rok 2005.
Vlastní výzkum se soustředil na vývoj nového modelu Gridové monitorovací architektury (GMA), kde jsme koncem roku v Krakově prezentovali návrh Capability based Grid Monitoring Architecture (CGMA). Zatímco klasická GMA obsahuje producenty a konzumenty monitorovacích informací, vzájemně propojené prostřednictvím rejstříku, v CGMA zavádíme meta popis komponent i dat tak, aby vzájemné párování konzumentů a producentů garantovalo splnění požadavků, které na infrastrukturu klade charakter přenášených dat. Příkladem může být požadavek persistence, kdy data mohou být předávána pouze komponentám, u nichž nehrozí riziko ztráty. Naopak jiná data mohou mít požadavek na rychlost přenosu a případná občasná ztráta některého údaje není fatální (např. periodicky obnovovaná informace o zátěži clusteru). Na vývoji CGMA budeme pokračovat i v dalším roce, včetně prototypové implementace pro EGEE.
Součástí výzkumných aktivit je i integrace monitorování a informačních služeb. Na portálu MetaCentra již nerozlišujeme mezi těmito službami, uživatel získává přístup k integrovaným informacím bez rozlišení, zda byla získána informačními nebo monitorovacími systémy.
Interně MetaCentrum používá infrastrukturu adresářových služeb pro integrované zpřístupnění informací, které jsou uloženy v různých částech Gridové infrastruktury. V průběhu roku 2004 jsme navrhli a zprovoznili novou infrastrukturu LDAP serverů. Ta je již plně integrována se systémem Perun a garantuje inkrementální, prakticky okamžitou propagaci změn v databázi Perun nástroji na straně LDAPu. Robustnost systému je zajištěna replikací, prováděnou standardními nástroji LDAP.
Pro zrychlení přístupu k datům uloženým v LDAP serverech jsme navrhli LDAP bránu s částečným ukládáním ve vyrovnávací paměti serveru (partial caching). Prototyp je implementován prostřednictvím Perl modulu do OpenLDAP, experimentálně je v provozu na interním testbedu. Plánujeme převést do řádného provozu po vyhodnocení výsledků z prototypového provozu.
9.4 Bezpečnost
Rostoucí potřeba zajištění bezpečnosti v distribuovaném prostředí Gridu vedla k ustavení samostatné skupiny v rámci MetaCentra, která se touto problematikou zabývá. Zatímco ve střednědobém horizontu předpokládáme užší spolupráci s dalšími bezpečnostními skupinami sdružení - ta se zatím omezuje pouze na využití služeb Certifikační autority - v roce 2004 jsme se zaměřili na pokračující podporu spolupráce různých autentizačních služeb a na studium oblasti autorizačních služeb.
Základním autentizačním mechanismem MetaCentra je systém Kerberos, uživatelé však nejsou omezeni při prvotní autentizaci pouze na toto řešení. Podporujeme volný přechod mezi různými autentizačními službami (kromě Kerbera především PKI, jednorázové heslo, hardwarové tokeny, ...). Implementovali jsme odpovídající knihovny a tvoříme základ univerzální cross-autentizační služby (credential valet). O výsledky naší práce projevila zájem bezpečnostní skupina projektu EGEE. Před dokončením je diplomová práce (na FI MU) s názvem "Autentizační infrastruktura pro jednorázová hesla". V jejím rámci jsme vytvořili a otestovali generátor jednorázových hesel pro mobilní telefony, získali jsme zájem ze strany EduRoam o spolupráci.
9.5 Shrnutí
Aktivita MetaCentrum i v roce 2004 pokračovala v budování národní Gridové infrastruktury České republiky. Hlavní důraz jsme kladli na zvýšení uživatelského komfortu a snadnější využití zdrojů. Tomu odpovídá nová koncepce a obsah portálu, sjednocení systému správy úloh, zjednodušení administrativy uživatelských informací a účtů, další vývoj v oblasti bezpečného přístupu ke zdrojům MetaCentra. Uživatelům jsou prostřednictvím portálu zpřístupněny všechny důležité informace jak o zdrojích MetaCentra, tak o jejich vlastních úlohách, portál tak odstraňuje nutnost ručního sledování stavu úlohy. Významnou roli v roce 2004 hrála i úzká spolupráce s projektem EGEE, mimo jiné i proto, že část zdrojů MetaCentra se stala součástí celoevropského EGEE Gridu.
Výzkumné a vývojové práce jsme kromě portálu soustředili na oblast informačních a monitorovacích služeb, kde hlavním výsledkem je návrh nové gridové monitorovací architektury, CGMA.
V roce 2005 budeme pokračovat v dalším rozvoji ve všech výše uvedených směrech, s pokračujícím důrazem na další zvyšování uživatelského komfortu a současně hlubší integrací s dalšími aktivitami sdružení CESNET. To se týká zejména spolupráce v bezpečnostní oblasti a v podpoře prostředí pro spolupráci - mimo jiné i v rámci projektu MediGRID, který bude od 1. 1. 2005 řešen v rámci programu Informační společnost, vypsaného Akademií věd ČR.
Specifickou činností bude zapojení MetaCentra do aktivit optických sítí (CzechLigth). Koncem roku 2004 jsme zakoupili dvojprocesorový Opteronový server a dvě 10GE TCP akcelerované karty firmy firmy Chelsio. Toto zařízení využijeme pro připojení na CzechLigth a výzkum v oblasti využití skutečně vysokorychlostních přenosů pro podporu paralelních výpočtů (předpokládáme spolupráci mimo jiné s Louisianna State University v USA, která bude od poloviny roku 2005 připojena optickou sítí na TransLight v Chicagu).
|
|
obsah |
následující
|