9 MetaCentrum
Aktivita MetaCentrum je primárně věnována provozu a dalšímu rozvoji gridové infrastruktury v České republice. Odpovídá za budování národního gridu a jeho propojení se souvisejícími aktivitami, především v Evropské unii. V rámci aktivity je za grid považován rozsáhlý distribuovaný systém, tvořený počítači, datovými sklady a dalšími zařízeními, napojenými na počítačovou síť. Tyto distribuované systémy (gridy) tvoří ve stále větší míře výzkumnou a vývojovou infrastrukturu globálně chápané vědy a představují kvalitativní nadstavbu počítačových sítí.
Infrastrukturní charakter aktivity MetaCentrum je patrný nejen z významné provozní činnosti, za kterou aktivita odpovídá, ale rovněž z úzké spolupráce s dalšími aktivitami výzkumného záměru sdružení. I v roce 2006 pokračovala úzká spolupráce v rámci bezpečnosti, která se kromě již tradičního využívání služeb Certifikační autority zaměřila především na oblast federativních přístupů a jejich propojení s gridovými autentizačními a postupně i autorizačními službami. Rok 2006 potvrdil trend rostoucího propojení některých aktivit prostředí pro spolupráci, které v mnoha ohledech buduje či využívá infrastrukturu, jež má všechny rysy gridů. Na mezinárodní úrovni pokračovala úzká spolupráce s projektem EGEE a návazným projektem EGEE II (od dubna 2006), které odpovídají za budování celoevropské gridové infrastruktury. Aktivita má svého zástupce v Project Management Board tohoto projektu (viz kapitola EGEE a EGEE II). MetaCentrum rovněž spolupracuje s dalšími projekty, které nějakým způsobem využívají či dokonce rozvíjí gridové prostředí (např. projekt MediGRID).
Činnosti aktivity MetaCentrum je možné rozdělit na provozně a výzkumně orientované, přičemž na gridovém výzkumu MetaCentrum úzce spolupracuje s částí komplementárního výzkumného záměru MU Rozsáhlé paralelní a distribuované systémy a jeho prostřednictvím se sítí excelence CoreGRID. Pod provozně orientovanými činnostmi se skrývají následující oblasti:
- Uživatelská podpora, realizovaná zejména formou rozvoje portálu MetaCentra a systému Charon, dalším rozvojem systému správy uživatelských požadavků, poskytováním nových informací uživatelům a samozřejmě přímou komunikací s uživateli a řešením jejich požadavků.
- Vlastní provoz a zvyšování jeho stability.
- Rozvoj výpočetních kapacit, v roce 2006 realizovaný nákupem nového clusteru a víceprocesorového serveru.
- Další rozvoj bezpečnostní infrastruktury, zejména pak pokračující podpora využití hardwarových tokenů, rozvoj práce s certifikáty a vytvoření Single Sign On prostředí.
- Integrace uživatelských clusterů do prostředí MetaCentra.
Výzkum pak byl zaměřen především do následujících oblastí:
- Grid monitoring, zejména rozvoj C-GMA jako prostředí pro integraci různých monitorovacích služeb.
- Bezpečnost, zejména pak otázka možné integrace federativních s gridovými autentizačními a autorizačními službami.
Do oblasti výzkumu pak patří i práce na nové architektuře MetaCentra, pracovně nazvané Meta 2.
9.1 Provozní prostředí
MetaCentrum v roce 2006 spravovalo poměrně homogenní výpočetní prostředí, tvořené clustery či samostatnými víceprocesorovými servery. Všechny výpočetní systémy přímo vlastněné MetaCentrem využívají procesory Intel nebo AMD (jedinou výjimkou je dvouprocesorový počítač ibun.ics.muni.cz, který využívá procesory IBM Power 4+). Kromě nich MetaCentrum zpřístupňuje i víceprocesorové počítače SGI s procesory MIPS. Poté, co byly z provozu vyřazeny počítače SGI grond a eru, jsou tyto systémy dostupné pouze v Praze na ÚVT UK. Všechny zmíněné výpočetní zdroje jsou umístěny v celkem čtyřech lokalitách tří měst:
- v sídle sdružení CESNET v Praze v Zikově ulici,
- v prostorách Ústavu výpočetní techniky Karlovy univerzity v Praze na Ovocném trhu,
- v prostorách Centra informatizace a výpočetní techniky Západočeské univerzity v Plzni na Borských polích,
- v prostorách Ústavu výpočetní techniky Masarykovy univerzity v Brně v Botanické ulici.
Podrobné informace o současném vybavení MetaCentra, stejně jako o již zrušených výpočetních systémech je možné najít na webových stránkách. Po většinu roku bylo celkem k dispozici přes 600 procesorů, které bylo možné využívat jak v jednoprocesorovém režimu, tak i pro zpracování paralelních úloh, které vyžadovaly součinnost většího množství procesorů. Ze statistik využití vyplývá, že uživatelé využívali až 32 současně pracujících procesorů pro zpracování svých úloh (aktuální nastavení systému plánování úloh již větší počty současně využitelných procesorů znevýhodňuje velmi dlouhými dobami čekání ve frontě - toto znevýhodnění vyplývá ze snahy o efektivní využití zdrojů). MetaCentrum má cca 150 registrovaných uživatelů, z nichž skutečně aktivních (tj. takových, kteří pravidelně spouští své úlohy) je zhruba jedna třetina.
V první polovině roku jsme do prostředí MetaCentra plně integrovali nové páskové knihovny NEO8000 firmy Overland Storage, zakoupené v roce 2005. MetaCentrum disponuje dvěma identickými knihovnami s 500 úložnými pozicemi pro média technologie LTO-3. Knihovny jsou umístěny v uzlech v Plzni a Brně a mají celkovou nekomprimovanou kapacitu 400 TB. Každá knihovna je obsluhována zálohovacím serverem, od poloviny roku 2006 mají obě předřazeno diskové pole s kapacitou 8 TB. Tato pole slouží jako vyrovnávací disková paměť, umožňující kompenzovat různou rychlost přesunu dat ze zálohovaných počítačů a dosáhnout tak maximální rychlosti ukládání na magnetické pásky. Přechod na zálohování novými páskovými knihovnami proběhl zcela transparentně pro koncové uživatele. Jediná pozorovatelná změna spočívá v podstatném prodloužení doby, po níž jsou zálohovaná data ukládána. Je tak výrazně sníženo riziko, že uživatel zjistí ztrátu svého souboru příliš pozdě, kdy již data nejsou k dispozici ani v zálohovacím systému.
Koncem roku jsme pak publikovali první verzi nové zálohovací politiky, která garantuje minimální dobu dostupnosti záloh v délce 3 měsíce. Současně garantuje, že všechna zálohovaná data jsou uložena duálně v Plzni i Brně. Toto uspořádání minimalizuje riziko ztráty dat i v případě, že by došlo k nenávratnému poškození dat jedné z knihoven (např. vlivem přírodní katastrofy). Přestože jsou páskové knihovny určeny primárně pro zálohování, uživatelé mohou požádat i o dlouhodobější archivaci dat. Tato služba je prozatím poskytována pouze na vyžádání.
MetaCentrum disponuje několika desítkami TB diskových kapacit, které jsou dostupné uživatelům. Pro ukládání uživatelských dat je stále k dispozici AFS, jehož hlavní výhodou je globální jmenný prostor a jednotná dostupnost na všech uzlech MetaCentra (a uživatelé si mohou bez problémů instalovat klienty i na svých domovských stanicích). Protože AFS má poměrně omezenou prostupnost, mají uživatelé pro svá data k dispozici další diskový prostor, zprostředkovaný zpravidla NFS servery, obsluhujícími konkrétní výpočetní cluster. Výpočty pak mohou používat rychlé lokální disky, zpravidla přes systémy souborů v adresářích umístěných v tzv. scratch prostoru (pod adresářem /scratch, který je lokální každému uzlu clusteru). Zatímco data v AFS i home adresářích na NFS či lokálních discích se pravidelně zálohují, data ve scratch prostoru zpravidla zálohována nejsou a uživatelé sami odpovídají za včasný přesun do zálohované oblasti.
Základní výpočetní prostředky MetaCentra jsou přímo napojeny na páteř sítě CESNET2, zpravidla přes 10 Gb/s rozhraní. Kromě toho uzly v Brně a Plzni měly v roce 2006 přístup i k 10 Gb/s rozhraním sítě CzechLight a jejím prostřednictvím do uzlu SurfNetu v Amsterdamu a dále do StarLightu v Chicagu. Toto experimentální připojení do GLIFu jsme společně s aktivitou Virtuální prostředí pro spolupráci využili např. při demonstraci na konferenci SC06.
Ve druhé polovině roku MetaCentrum získalo přímý přístup na dedikované DWDM trasy páteční sítě CESNET2, a to mezi Prahou a Plzní a Prahou a Brnem. Ve spolupráci s MU jsme proto do Brna i Plzně zakoupili HP přepínače ProCurve 5406, každý s osmi 10GE porty. Tyto přepínače propojí a současně zpřístupní všechny 10 Gb/s linky s lokálními 10 Gb/s rozhraními jak návazných provozních i experimentálních přepínačů, tak i 10GE karet umístěných jak v clusterech MetaCentra, tak i počítačích aktivity Virtuální prostředí pro spolupráci. Toto prostředí plánujeme v roce 2007 doplnit vhodným 10 Gb/s přepínačem v Praze a vytvořit tak vlastní 10 Gb/s experimentální infrastrukturu, která bude využívána pro společné experimenty s dalšími aktivitami (např. paralelní výpočty, generování a přenos vizualizačních data jejich propojení s nekomprimovanými HD video přenosy, přesun velkých objemů dat, synchronizace páskových robotů atd.).
9.2 Rozvoj výpočetních kapacit
Po nákupu páskových knihoven v roce 2005 jsme se v roce 2006 rozhodli dále povýšit výpočetní kapacity MetaCentra. Po analýze použití výpočetních zdrojů v roce 2005 jsme se rozhodli primární rozšíření realizovat opět formou clusteru, vybaveného dvouprocesorovými uzly. V první polovině roku jsme připravili výběrové řízení, kdy hlavním favoritem byly dlouho počítače založené na procesorech AMD Opteron se dvěma jádry (dual core systémy). Po konzultacích s firmami jsme se rozhodli výběrové řízení vyhlásit až v červenci poté, co na trh byla uvedena nová generace dvoujádrových procesorů firmy Intel (Woodcrest). Stoupající ceny energií nás rovněž přivedly k rozhodnutí upřednostnit při výběru procesory s nejvyšším dostupným výkonem a pokud možno nižší spotřebou.
Výběrové řízení vyhrála firma AutoCont s nabídkou clusteru vybaveného procesory Intel Woodcrest s frekvencí 3 GHz (to byla v době vyhodnocení výběrového řízení nejvyšší dostupná frekvence). Celkem jsme mohli zakoupit 35 uzlů, každý se dvěma dual-core procesory, 4 GB paměti a jedním 73 GB diskem (SAS, 10 tisíc otáček), přibylo tak 140 nových jader (to v podstatě odpovídá 140 novým procesorům). Cluster byl dodán koncem roku a je instalován v prostorách ÚVT MU v Brně.
Posílení výpočetních kapacit MetaCentra se však v roce 2006 neomezilo jen na výše uvedený cluster. Ve spolupráci s MU jsme pořídili celkem 4 SMP servery SunFire 4600, postavené na procesorech AMD. Každý server má 8 dual-core procesorů AMD Opteron s frekvencí 2,6 GHz. 64 GB paměti a přes 300 GB na 4 discích. Tři tyto servery zaplatila MU, jeden byl pořízen z prostředků MetaCentra; všechny čtyři jsou integrovány do gridové infrastruktury. Tyto servery přidaly dalších 64 jader, přitom usnadnily podporu středně paralelizovaných úloh (do 16 procesorů).
Snaha podpořit paralelní úlohy vyžadující 32 a více procesorů vedla k rozhodnutí pořídit i vysokorychlostní propojení postavené na technologii Infiniband. Po počátečním průzkumu trhu jsme se rozhodli orientovat výhradně na řešení firmy Cisco Systems, od níž jsme zakoupili celkem čtyři 24portové Infiniband přepínače a 40 karet, vše v DDR (double data rate) provedení. Přepínače a 10 karet opět hradila MU. Volba několika menších přepínačů namísto jednoho mnohaportového byla dána ekonomickými parametry, kdy zvolené řešení bylo několikanásobně levnější a navíc poskytuje větší flexibilitu pro případné rekonfigurace. Infiniband karty (dodané až v samém závěru roku) budou instalovány do uzlů nově pořízeného clusteru a rovněž do nové pořízených víceprocesorových serverů. Tímto způsobem chceme vytvořit virtuální superpočítač s 204 procesory (jádry) a 396 GB paměti. Vysoká propustnost a nízká latence Infiniband propojení přitom umožní tento virtuální superpočítač používat i v režimu sdílené paměti. Tento systém je tak v současné době nejvýkonnějším počítačem v ČR.
9.3 Integrace clusterů
Jedním z cílů aktivity MetaCentrum v roce 2006 byla integrace clusterů původně pořízených (a provozovaných) dalšími subjekty. To se podařilo s clustery hydra.fav.zcu.cz a wood.feec.vutbr.cz.
V prvním případě se jednalo o cluster, zakoupený původně pro potřeby výuky na FAV ZČU. Studenti, kteří mají na tomto clusteru vyvíjet a ladit své paralelní či distribuované úlohy, jej však příliš nevytíží. Na druhé straně není možné uspokojit zájem o větší počet procesorů. Majitelé clusteru proto chtěli cluster integrovat do MetaCentra, což na jedné straně zpřístupní cluster jednoduše i dalším uživatelům, na straně druhé pak umožní i spouštění rozsáhlejších úloh. Na clusteru je provozován operační systém Linux v distribuci Debian (stejná distribuce je používána i ve výpočetních uzlech MetaCentra). Lokální správci doinstalovali nezbytný software, který tvoří gridový middleware MetaCentra (PBSPro, modules, ganglii,...), případně propojili již instalované služby (Kerberos, AFS) s odpovídajícími službami MetaCentra. Správa účtů byla plně integrována do systému Perun MetaCentra, administrátoři mají kromě toho možnost vytvářet lokální účty, kde odpovídají za nekonfliktnost s Perunem generovanými uživatelskými jmény. Cluster je plně integrován, jsou na něm k dispozici všechny služby.
Cluster wood.feec.vutbr.cz je v majetku Ústavu nauky o dřevě, což je společné pracoviště VUT a MZLU v Brně. Motivace majitelů byla odlišná, jejich malý uzel je přetížen a jeho integrací do prostředí MetaCentra chtěli vytvořit prostředí, které jejich uživatelům umožní snazší využívání zdrojů MetaCentra. Na uzlech tohoto clusteru je instalován Linux v distribuci Rocks, úlohy jsou spravovány systémem OpenPBS, který je umí předávat PBSpro MetaCentra (předávání úloh z MetaCentra na tento cluster nemá vzhledem k přetížení clusteru smysl). Instalovali některé naše služby, zejména Perun (na ten je delegována správa uživatelských účtů), případně měli tyto služby již k dispozici (Ganglia, která zasílá informace o uzlu i doMetaCentra). Vyzkoušeli jsme i možnost spuštění paralelní úlohy, která vyžaduje více zdrojů než má cluster wood k dispozici. Pro integraci PBSPro a OpenPBS plánovačů jsme využili Globus, bežící úloha využívala MPICH-G2 pro paralelní komunikaci mezi jednotlivými procesy.
Kromě toho MetaCentrum integruje další clustery, zejména pak perian.ics.muni.cz v Brně a minos.zcu.cz a konos.fav.zcu.cz v Plzni. A rovněž SMP servery ajax.zcu.cz v Plzni a acharon.ruk.cuni.cz a mat.ruk.cuni.cz v Praze na UK.
9.3.1 Spolupráce s EGEE gridem
V roce 2006 jsme se snažili nalézt vhodný přístup pro integraci MetaCentra a gridu, budovaného v rámci projektu EU EGEE (a později EGEE II). Cílem bylo nalézt takové řešení, které nevyžaduje opuštění prostředí MetaCentra a úplný přechod na middleware projektu EGEE. Máme připraveny dva základní způsoby přebírání úloh z EGEE do MetaCentra. Celé prostředí MetaCentra je možné nabídnout jako jeden Computing Element infrastruktury EGEE, která se pak domnívá, že pracuje s jedním homogenním clusterem. Úloha je v takovém případě předána PBSPro MetaCentra, jejím prostřednictvím je pak možné infrastruktuře EGEE poskytovat základní informace o úloze a jejím stavu. Druhou zkoumanou alternativou je vystavení jednotlivých uzlů MetaCentra jako worker nodes EGEE. V tomto případě EGEE "vidí" jednotlivé výpočetní uzly. Cenou je větší náročnost zajištění prostředí, v němž skutečně mohou běžet jak nativní úlohy MetaCentra, tak i EGEE. Předávání úloh z MetaCentra do EGEE je možné přes speciální frontu, problémem je ale zpřístupnění výsledků, které se v EGEE děje výrazně odlišným způsobem. Možnou variantou řešení je instalace Storage Elementů, které budou dostupné jak z prostředí MetaCentra, tak i EGEE.
Principiální řešení problému vzájemné koexistence gridů s různým middleware však očekáváme od důsledné virtualizace prostředí MetaCentra, viz kapitolu o Meta 2.
9.4 Provoz a uživatelská podpora
Nedílnou součástí obecně vzatého provozu je oblast uživatelské podpory. Ta odpovídá za kontakt s uživateli a přenos jejich požadavků. Stejně jako v minulých letech uživatelská podpora důsledně staví na zprostředkované interakci s uživateli prostřednictvím elektronické pošty, systému pro sběr požadavků a portálu. Technickým zázemím uživatelské podpory je portál MetaCentra, do nějž v roce 2006 přibyla celá řada nových sekcí. Mezi významné nové informace,m které jsou na portálu nyní dostupné, patří sekce pro začátečníky Jak začít, sekce věnované práci s certifikáty, doplnění popisu hardware i informace o již odstavených strojích atd. Významným příspěvkem jsou i další monitorovací informace, poskytované přímo systémem PBSPro. Zlepšil se také výběr jazykové verze podle preferencí uživatele. Interní část portálu je přístupná buď přes uživatelský login a heslo nebo (preferováno) pomocí uživatelského certifikátu. Zprovoznili jsme také přístup k portálu pomocí Eduroam identity. Řada služeb je pak přístupná jen při autentizaci uživatelským certifikátem, tímto způsobem se snažíme uživatele motivovat k získání a využívání uživatelských certifikátů (z národních certifikačních autorit akceptujeme prozatím pouze certifikační autoritu sdružení CESNET). Umožňujeme takto např. změnu uživatelského hesla po autentizaci certifikátem nebo přes Eduroam.
Během roku pokračovala činnost Registrační autority CESNET CA a ověřili jsme 32 uživatelů.
Požadavky uživatelů jsou zachyceny v systému správy požadavků (RT system). Celkem bylo za rok 2006 registrováno 654 lístků, (35 % vytvořeno samotnými správci, 14 % automatizovanými požadavky administrativního systému, tj. 51 % neboli 333 požadavků zadali sami uživatelé). 563 požadavků bylo vyřešeno, 21 odloženo a 70 zůstává ke konci roku otevřených. V průběhu roku jsme do RT systému implementovali řadu nových vlastností, např. stav "feedback" pro označení požadavků vyžadujících informaci od uživatele či "RT3 reminder" pro notifikaci neřešených požadavků. RT systém jsme také těsněji propojili se systémem pro správu uživatelských účtů Perun tak, aby již nedocházelo k duplicitnímu držení určité informace v obou systémech (zdrojem autoritativní informace je vždy Perun).
V roce 2006 pokračoval samozřejmě i další rozvoj systému Perun, který odpovídá za správu uživatelů i výpočetních zdrojů (včetně kompletní databáze údajů o uživatelích). V první polovině roku jsme vytvořili koncepci jeho zásadního přepracování tak, aby umožnil podporu vysoce variabilních virtuálních organizací a různých workflow v nich. Analyzovali jsme stávající a předpokládané požadavky použití systému Perun (např. správa externích clusterů) a na základě výsledků této analýzy jsme navrhli jeho novou architekturu. Ve druhé polovině roku jsme zahájili postupnou implementaci, ta však probíhá relativně pomalu, neboť je třeba souběžně udržovat (a do jisté míry i rozvíjet) i stávající implementaci (ta již byla obohacena o některé nové prvky podpory virtuálních organizací).
9.4.1 Podpora aplikací
V úzké spolupráci s projektem EGEE pokračoval vývoj systému Charon. Ten poskytuje jednoduché nástroje pro přípravu, zadávání a správu úloh v různorodém výpočetním prostředí (od jednoduchých clusterů až po gridy). Charon (resp. Charon Extension Layer, CEL) vytváří jednoduchou uniformní vrstvu nad konkrétním gridovým (či clusterovým) middleware. Jejím prostřednictvím pak výrazně zjednodušuje přístup k potenciálně velmi složité distribuované výpočetní infrastruktuře. Uživatel s gridem komunikuje prostřednictvím uniformního rozhraní, které je zpřístupněno na příkazové řádce (Charon není portálové řešení, orientace na příkazovou řádku umožňuje pokročilým uživatelům mnohem snazší manipulaci zejména se skupinami úloh).
CEL je tvořen dvěma hlavními komponentami:
- Systémem modulů, který odpovídá za správu aplikačního software, který je Charonem podporován.
- Vlastním CEL, který odpovídá za správu uživatelských úloh.
Systém modulů zprostředkuje jednotné rozhraní nejen pro různé aplikační programy, ale zejména umožňuje jednoznačně identifikovat různé verze a rovněž různé platformy, pro něž je konkrétní software (resp. jeho konkrétní port) určen. Systém modulů tak umožňuje na jedné straně připravit a jednoznačně identifikovat celou skupinu specifických verzí stejného programového vybavení pro různé systémy (např. Amber pro IA-32, IA-64 a AMD64 platformy, a to ještě s rozlišením podle konkrétní distribuce Linuxu či podstatných knihoven). Na straně druhé pak jednoduchý jmenný systém umožňuje zvolit (manuálně nebo poloautomaticky) správnou verzi a instalaci požadovaného software. V průběhu roku 2006 jsme dále rozšířili portfolio podporovaného software, které dnes zahrnuje několik desítek programů (např. Amber, namd, Gaussian, Turbomole, dalton, MPB, GetDP ad.).
CEL pak poskytuje nástroje pro vytvoření úlohy (volba správné verze a implementace, příprava dat, ...), její spuštění a sledování stavu. To vše zcela transparentně na konkrétním použitém gridu. CEL je v současné době k dispozici pro clustery, prostředí MetaCentra i pro prostředí EGEE Gridu. Podrobnější informace je možné nalézt jednak v souvisejících publikacích, jednak na webových stránkách.
9.5 Bezpečnost
Distribuované prostředí Gridu je nemyslitelné bez odpovídajících bezpečnostních mechanismů. V roce 2006 jsme navázali na nasazování čipových technologií v prostředí MetaCentra. Vydali jsme novou uživatelskou dokumentaci týkající se použití tokenů a pravidelně jsme zdokonalovali instalační balíčky. Pro účely udržování balíčků pro řadu linuxových distribucí a MS Windows jsme nainstalovali VMWare server, který hostuje několik instalací systémů. Zvýšenou pozornost jsme věnovali použití tokenů pro Single Sign On (SSO) přístup do evropského prostředí. Na systém MS Windows jsme portovali klientskou část systému VOMS, který slouží pro generování proxy certifikátů obohacených o autorizační atributy. Nad knihovnami VOMS a Kerberos jsme začali vyvíjet GUI pro MS Windows pro přehlednější správu proxy certifikátů a kerberovských lístků a jejich vytváření pomocí hardwarových tokenů. Spolu s FI MU se věnujeme dalšímu výzkumu v oblasti čipových karet.
Věnovali jsme se dalšímu rozvoji autentizačního modulu pro Kerberovskou autentizaci v Apache (zejména na základě osobních diskusí s uživateli z velkých institucí - Stanford a University of Michigan). Dále jsme se věnovali provozu a dalšímu rozšiřování služby VPN, kterou poskytujeme pro uživatele MetaCentra. Implementovali jsme podporu pro několik VPN profilů lišících se požadavky uživatelů (typ protokolu TCP, UDP, lokální versus soukromé IP adresy). K dispozici je monitoring VPN kanálů sbírající data přes mrtg.
Pro usnadnění přístupu do PKI prostředí jsme zprovoznili pilotní instalaci serveru MyProxy v CA módu, která podporuje autentizaci kerberovským lístkem nebo heslem a vydává krátkodobé certifikáty. Tuto službu lze volat transparentně např. z PAM modulů a zajistit tak jednotné prostředí pro uživatele bez ohledu na konkrétní použitý autentizační mechanismus. Pro server MyProxy jsme také implementovali podporu autorizace přes VOMS. V rámci diplomové práce na FI MU je připravována podpora jednorázových hesel (One Time passwords, OTP) pro MyProxy a METACentrum.
Od jejího založení jsme součástí skupiny Cifer, která v rámci sdružení CESNET koordinuje zavádění federačních řešení do českého prostředí. Pro MetaCentrum jsme připravili interní technickou zprávu popisující oblasti, které mohou využít federační infrastrukturu. Systém správy uživatelů MetaCentra jsme rozšířili o podporu identit Eduroam, kdy si uživatelé mohou zaregistrovat svůj Eduroam účet a následně použít autentizaci přes federaci Eduroam pro přístup k některým službám MetaCentra. V současné době je možné tímto způsobem měnit zapomenuté heslo do MetaCentra přes webový portál. Pro tyto účely jsme zprovoznili podporu Radius autentizace na Apache a speciální konfiguraci Apache, kdy heslo ověřuje jiná instance Apache pomocí HTTP Redirect. Tato funkce je podobná používanému přístupu Shibboleth a zajišťuje větší bezpečnost, protože hlavní HTTP server nemá přístup k uživatelském heslu Eduroam.
V roce 2006 jsme se zapojili do prostředí Eduroam, pilotní instalace byla provedena v prostorách SCB MU a jako jedna z prvních využívala pro autentizaci certifikát. V současné době postupně předáváme zkušenosti provozní skupině ÚVT MU, která zavádí podporu Eduroam v rámci celé MU. Pro uživatele MetaCentra také nabízíme Radius server zapojený v Eduroam infrastruktuře, který je určen pro uživatele, jejichž domovská instituce Eduroam dosud nepodporuje. Realizovali jsme rovněž několik změn do implementace freeradius (zejména podporu řízení přístupu pro uživatele používající PKI autentizaci).
9.6 Meta 2
V průběhu roku 2006 jsme také začali připravovat koncepci dalšího rozvoje MetaCentra. Cílem bylo vypořádat se důsledně se změnami, ke kterým došlo jak v technologii, tak v přístupu uživatelů za 10 let, které uplynuly od vzniku původní koncepce MetaCentra. To v době svého vzniku poskytovalo výkonnou výpočetní techniku, která svými parametry (výkon a počet procesorů, velikost paměti) téměř řádově překonávala vše, co měli běžní uživatelé k dispozici. MetaCentrum dále poskytovalo pravidelně zálohované dostatečné diskové kapacity. Výpočetní zdroje byly vysoce spolehlivé (i dnes se průměrná doba mezi restartem jednotlivých uzlů měří na měsíce), k dispozici bylo jinde nedostupné vývojové i aplikační programové vybavení, sjednocené přes několik akademických center.
Postupem let však uživatelé, mající k dispozici stále rostoucí výkon počítačů, které si mohou sami dovolit ze svých (projektových a jiných) rozpočtů, začínají požadovat služby, které více odpovídají způsobu práce s jejich vlastní výpočetní technikou. To vede i k odklonu od zcela jednotného prostředí - uživatelé mají specifické požadavky a nevidí důvod, proč by se oni měli přizpůsobovat nějakému "nejmenšímu společnému jmenovateli" služeb, když si mohou postavit vlastní clustery, jež si přizpůsobí přesně svým potřebám a požadavkům. U systémů plně pod kontrolou konkrétní skupiny je v podstatě triviální vytvořit nové účty (a dokonce přitom i vyhovět požadavkům na uživatelské jméno), většina takto spolupracujících uživatelů nemá vyšší nároky na bezpečnost (skoro se zdá, že uživatelé buď mají vysoké nároky na bezpečnost nebo spolupracují), takže autentizace založená na loginu a heslu je pro ně zcela akceptovatelná.
Zcela nekompromisním požadavkem uživatelů však začíná být:
- Možnost interaktivní práce s výpočetním prostředím.
- Plná kontrola (resp. alespoň její pocit) nad "vlastními" výpočetními zdroji, tj. garance, že výpočetní kapacita pořízená z vlastních prostředků bude kdykoliv dostupná bez jakýchkoliv omezení, zejména bez dlouhého čekání - "své prostředky si mohu plánovat sám".
- Udržení "svého" prostředí (jsem-li zvyklý na RedHat nechápu, proč bych si musel nainstalovat Debian).
- Minimální dodatečné požadavky na lidské kapacity spojené s propojením do vyšších celků (Gridu).
- Prakticky neomezená disková kapacita (v době, kdy neplacené mailové servery nabízejí kapacitu schránek v rozsahu GB a kdy se do osobních počítačů pro studenty kupují disky s kapacitou stovek GB není možné nabízet v rámci nejvýkonnějších výpočetních systémů kapacity menší).
9.6.1 Základní koncepce
Nové MetaCentrum se této výzvě nového prostředí a nových požadavků postaví následujícím způsobem:
- Výpočetní kapacity MetaCentra budou tvořeny kombinací vlastních (centrálně pořízených) a uživateli poskytnutých systémů. Půjde tedy o otevřený model, kdy počítáme s tím, že primární zdroje nejsou vždy plně pod naší kontrolou (musíme se umět dohodnout, nikoliv diktovat).
- Výpočetní prostředí umožní koexistenci dávkových i interaktivních přístupů, včetně podpory okamžité "akvizice" zdrojů na žádost (tedy nikoliv formou čekání na interaktivní přístup).
- Jednotné prostředí bude vyžadováno jen u jisté množiny základních služeb (bude probíhat trvalá diskuse toho, co tyto základní služby jsou), uživatelům poskytneme možnost vytvářet a modifikovat si svá prostředí podle svých požadavků.
- Výpočetní prostředí bude heterogenní, obecně neomezujeme gridy na jednu platformu nebo jejich malou část (na druhé straně v počátku předpokládáme, že výpočetní prostředí MetaCentra bude tvořeno systémy s architekturou kompatibilní s IA-32 a IA-64).
9.6.2 Architektura
Dosažení výše uvedených cílů a zajištění celkové koncepce nového MetaCentra bude po technické stránce postaveno na virtualizaci zdrojů. Bude třeba důsledně oddělit "nižší" a "vyšší" složky, přitom pod výhradní správou MetaCentra budou nižší vrstvy a uživatelé naopak mohou (ale nemusí) dostat pod svou kontrolu vyšší vrstvy.
Při současném stavu vývoje virtualizačních technik bude virtualizace postavena na celých virtuálních počítačích. Nižší vrstvy budou tedy tvořeny vlastním hardware a vhodným virtuálním monitorem, naopak vyšší vrstvy budou postaveny na konceptu virtuálních strojů. Uživatelům tak budou poskytovány logické počítače (jejich clustery a gridy), MetaCentrum bude zajišťovat vhodné mapování takovýchto logických systémů na fyzický substrát.
Mezi základní funkce nižších vrstev bude patřit:
- údržba virtuálních monitorů,
- plánovaní zdrojů, tedy dynamické mapování fyzické a logické vrstvy,
- monitorování stavu hardware, virtuálních monitorů a virtuálních strojů,
- správa uživatelů (souvisí s následujícím bodem),
- bezpečnostní infrastruktura, zajištění přístupu (autentizace, autorizace) k fyzickým i logickým zdrojům,
- síťová a komunikační vrstva. Potenciálně velmi vysoký počet virtuálních strojů v podstatě vyžaduje buď využití soukromého adresního prostoru (a NATu) nebo přechod na IPv6. Podpora plné end-to-end konektivity bez zbytečných omezení pak nebude možná bez IPv6, proto očekáváme postupný (ale dostatečně rychlý) přechod na tento protokol. V mezičase bude podporován samozřejmě i IPv4 a pro rozsáhlejší virtuální clustery bude zřejmě nezbytná i podpora formou privátních sítí (a NAT).
Všechny tyto činnosti budou spadat do výhradní kompetence MetaCentra. Tam, kde architektura procesoru nebo speciální konfigurace konkrétních fyzických počítačů neumožní virtualizaci, budeme s podobnými systémy pracovat jako se základními zdroji.
Na vyšší vrstvě budou k dispozici virtuální počítače, jejichž správa buď bude svěřena MetaCentru nebo budou spravovány přímo uživateli (jimi pověřenými správci). V případě systémů ve správě MetaCentra budou na vyšší úrovni k dispozici různá gridová prostředí (např. gLite/EGEE, současné MetaCentrum, případně podle potřeby Globus a další).
Důsledné oddělení logické a fyzické vrstvy umožní podporovat celou řadu nových vlastností, např.
- Vzdálený reboot virtuálních strojů, a to i jednotlivými uživateli.
- Checkpointing a migrace celých virtuálních strojů (zde předpokládáme využití budované 10 Gb/s infrastruktury MetaCentra).
- Preemptivní plánování, sdílení zdrojů při současné plné garanci zapouzdření (důsledné oddělení uživatelů a jejich procesů). Uživatelé takto budou moci získat okamžitě i plně interaktivní přístup ke "svým" počítačům, aniž by bylo nutné násilně ukončit běžící výpočty.
- Koexistence různých virtuálních gridů, a to jak sdílených tak i sloužících jednomu konkrétnímu uživateli. Zahrnuje i podporu různých verzí gridů, případně přechod na novou verzi middleware při dočasném zachování předchozí verze.
Nové MetaCentrum tak bude schopno poskytnout uživatelům výrazně vyšší kontrolu nad virtuálními zdroji. Uživatelé musí získat pocit, že jsou to "jejich" zdroje, musí být schopni si je spravovat (a samozřejmě za ně a jejich případné výpadky také nést odpovědnost).
Důsledná virtualizace MetaCentra a řešení souvisejících otázek je prioritním úkolem aktivity na rok 2007 a další období.
|
|
obsah |
následující
|