7.1  Projekt MetaCentrum

Projekt MetaCentrum navazuje na předchozí úspěšný projekt MetaCentrum - prostředí pro rozsáhlé distribuované výpočty, který byl realizován v letech 1996-1998 jako projekt programu TEN-34 CZ. Tento původní projekt spojoval výpočetní centra vysokých škol České republiky vybavená nejvýkonnější výpočetní technikou. V jeho rámci se podařilo realizovat:

Jedním z významných výsledků původního projektu bylo zahájení konvergence velkých výpočetních center na MU, ZČU a UK, rozpoznání základních rozdílů v přístupu těchto center (s technikou využívající SMP architekturu) a centra ČVUT (vybaveného počítačem IBM SP2 s důsledně distribuovanou architekturou) a zejména analýza nedostatků vytvořeného prostředí.

Velmi úzká závislost MetaCentra na vysokorychlostních sítích a nezbytnost koordinovat rozvoj sítí i MetaCentra vedla k rozhodnutí začlenit další rozvoj MetaCentra (nikoliv však nutně jednotlivých uzlů) do tohoto výzkumného záměru. Do jedné organizace se tak soustředily aktivity, běžně označované zkratkou HPCN (High Performance Computing and Networking). Do práce se aktivně zapojila pracoviště a pracovníci ZČU, UK a MU. Veškerá činnost je koncipována otevřeně a mohou se připojit nejen oba původní uzly na ČVUT a VUT, ale kterékoliv další pracoviště se zájmem o rozsáhlé distribuované výpočty a podpůrná prostředí.

Paralelně s těmito globálními aktivitami probíhá další rozvoj jednotlivých uzlů, a to zejména v rámci programu Infra 2. Vzhledem k podmínkám programu byl vlastní investiční rozvoj dokončen v roce 1999 a pro rok 2000 se počítá především se stabilizací instalované techniky, přechodem na plně rutinní provoz a definicí dalších rozvojových plánů.

Otevřené problémy

Přestože se podařilo vytvořit základy distribuovaného MetaPočítače, zůstala otevřena celá řada problémů, které si vyžadují dlouhodobější realizaci. Mezi nejzávažnější patří:

Snaha o řešení uvedených otevřených problémů spojená se zajištěním provozu a zvýšení jeho spolehlivosti představovala hlavní cíle naší práce v roce 1999. Následující text uvádí nejvýznamnější výsledky, kterých se nám podařilo dosáhnout.

Bezpečný přístup

V průběhu roku byl ve spolupráci s autory systém heimdal modifikován a rozšiřován tak, aby plně odpovídal potřebám MetaCentra (viz např. [Kou98]). V září 1999 došlo k plnému přechodu uzlů MetaCentra na systém Kerberos 5 a veškeré interní služby již komunikují pouze tímto protokolem. Současně byl vypracován jednoduchý návod pro uživatele [Rud99].

Podstatnou změnou bylo zavedení nového realmu META, v němž jsou registrováni všichni uživatelé MetaCentra nezávisle na příslušnosti k domovskému uzlu (každý uživatel má jeden domovský uzel, který spravuje základní administrativní udaje o uživateli a zpravidla rovněž poskytuje sdílené diskové prostory v AFS). Toto řešení umožňuje specifikovat přístupová práva a další autorizace nezávisle na aktuální domovské příslušnosti uživatele i jejích případných změnách. Současně jsou takto v podstatě odstraněny původní problémy s cross-realm autentizací, kterou vyžadoval systém Kerberos 4.

Zavedení systému Kerberos 5 a rozšíření původní implementace systému heimdal umožnilo využití přenášení (forward) lístků při vzdáleném přihlašování. Programy telnet, rshssh (viz dále) automaticky přenášejí lístky na vzdálený stroj, na nějž se uživatel přihlašuje. Uživatel tak při přechodu mezi jednotlivými počítači MetaCentra s sebou přenáší i svou identitu v systému Kerbero 5 (a např. AFS), čímž je dosaženo jednoho se základních cílů projektu: po první autentizaci vůči MetaCentru již není nutno znovu zadávat heslo při přechodu na jiný počítač.

Zatímco systém Kerberos 5 je jediným interním autentizačním a autorizačním mechanismem MetaCentra, není jediným systémem podporovaného vzdáleného přístupu. V této roli je i nadále podporován systém Kerberos 4 a rovněž ssh (secure shell). Oba tyto systémy jsou však použity pouze pro primární autentizaci uživatele a vytvoření lístků systému Kerberos 5. Uživatelé tak mohou použít pro první přihlášení např. ssh, přechod na další počítače MetaCentra však již ssh nevyžaduje (byly automaticky vytvořeny příslušné lístky, které jsou dále automaticky přenášeny).

V průběhu roku jsme vypracovali první verzi dokumentu definujícího bezpečnostní politiku MetaCentra [Mat99]. V průběhu roku 2000 bude tento dokument aktualizován a vydán jako interní dokument projektu MetaCentrum (včetně zpřístupnění na Webu).

V roce 2000 plánujeme zrušení přístupu pomocí protokolů telnetrlogin, které přenáší uživatelské heslo v otevřené podobě. Tímto krokem by měla být uzavřena první etapa zajištění bezpečnosti přístupu k MetaCentru i využití jeho zdrojů.

Rozvoj distribuovaného prostředí

Stabilizace provozu na celorepublikové páteři TEN-155 CZ i dosažení jednotné instalace nástrojů distribuovaného prostředí na jednotlivých počítačích MetaCentra umožnilo realizovat celou řadu základních výkonnostních testů budovaného MetaPočítače.

V první řadě jsme se soustředili na zjištění reálných (tedy aplikacím dostupných) vlastností spojení mezi Plzní, Prahou a Brnem. Pro tento účel jsme použili jak jednotlivé výkonné počítače, tak i osobní počítače, které jsou na jednotlivých uzlech instalovány pro testování vlastností ATM sítě.

V první fázi jsme testovali dobu přenosu mezi jednotlivými uzly, neboť tento parametr je v případě paralelních výpočtů považován za jeden z nejdůležitějších (v případě zpráv s nulovou délkou v podstatě odpovídá komunikačnímu zpoždění, u delších zpráv je parametrem přenosové kapacity). Dosažením maximální propustnosti vyladěním odpovídajících parametrů přenosových protokolů (např. délka paketu, rychlost opakování apod.) se v rámci výzkumného záměru věnovala jiná skupina. Měřili jsme vždy dobu obrátky, tj. dobu, která je nezbytná pro přenos zprávy definované délky z jednoho procesu na druhý a zpět. Pro vlastní měření jsme použili následující systémy:

Pro testování jsme použili následující počítače:

Testy jsme prováděli od října do prosince. V této době bohužel nebylo k dispozici testovací PC v Plzni.

Jsou prezentovány vždy minimální přenosové doby z 50 opakovaných měření; použité počítače nebyly v průběhu testů zatěžovány jinými úlohami. Na počítači pasifae nelze měřit dostatečně krátké časové intervaly a problémy nastaly i při zpracování velmi dlouhých zpráv.

[graf] [graf]
Obrázek 7.1: Interní přenosové doby počítačů (komunikace mezi procesy)
[graf] [graf]
[graf] [graf]
[graf] [graf]
[graf] [graf]
Obrázek 7.2: Přenosové doby mezi počítači

V souladu s intuitivním očekáváním je nejkratší přenosová doba dosažitelná uvnitř paralelních počítačů. Lokální síťové propojení pak vykazuje zhruba o řád vyšší přenosové doby na úrovni desetin milisekund a vzdálené propojení přidává další řád na úroveň jednotek milisekund. Srovnání různých komunikačních metod v paralelních počítačích potvrzuje (viz obrázek 7.1), že komunikace pomocí soketů je zhruba o řád pomalejší než komunikace přes sdílenou paměť a režie této komunikace je prakticky plně odpovědná za pozorované zpoždění (latenci) v lokálních sítích (vlastní transport po síti již komunikaci dále nezpomaluje - viz první, třetí a čtvrtý graf). Z grafů je rovněž patrná vyšší režie ATM spojení (srovnej horní dvojici grafů na obrázku 7.2), která se projevuje zejména při přenosu velmi krátkých zpráv a s rostoucí délkou zpráv se stává nevýznamnou, protože se naopak lépe využije vyšší propustnost ATM spojení. Zpoždění při komunikaci vzdálených počítačů je řádově srovnatelné s dobou, kterou na projití této vzdálenosti potřebuje světlo, a nelze tedy očekávat výrazné zlepšení při zavedení novějších technologií.

Pro paralelní výpočty to znamená, že MetaPočítač má meziuzlové zpoždění zhruba o dva až dva a půl řádu vyšší než jsou latence při komunikaci mezi procesy paralelních počítačů. Každý paralelní program pro MetaPočítač musí s tímto zpožděním počítat. Při použití ATM sítí je pak patrná velmi vysoká režie ustavení vlastního spojení, která se projeví zejména při přenosu první zprávy po vypršení životnosti předchozího spojení (a tedy především při nepravidelném přenosu velmi krátkých zpráv).

[graf]
Obrázek 7.4: Propustnosti v rámci jednoho počítače a LAM

Grafy na obrázku 7.4obrázku 7.5 uvádí dosaženou propustnost jak v lokální síti, tak mezi jednotlivými uzly MetaPočítače.

Obrázek 7.4 znázorňuje propustnost paralelního počítače při použití sdílené paměti (SGI MPI), vnitřní komunikace založené na síťových protokolech (PVM) a komunikace přes fyzické síťové rozhraní. Je z něj patrné, že z praktického pohledu není rozdíl mezi ATM (zde CLIP) sítí a Fast Ethernetem, daleko výraznější roli hraje použitá implementace vyššího protokolu. V případě LAM má ATM síť vyšší propustnost než Fast Ethernet, zatímco v případě MPICH je to naopak.

[graf] [graf]
Obrázek 7.5: Dosažené propustnosti v rozlehlé síti

Z obrázku 7.5 vidíte, že při přenosu zpráv delších než cca 10 KB již dochází k saturaci přenosového kanálu a praktickému potlačení iniciační režie. Maximální naměřená propustnost mezi Prahou a Brnem je méně než 10 % teoretické propustnosti meziměststké linky a v absolutní hodnotě dosahuje výše srovnatelné s propustností linky Praha-Plzeň. Ta má ovšem pouze pětinovou kapacitu. Propustnost nezávisí ani na průchodu PASNETem (pražská metropolitní síť) a je pouze zlomkem propustnosti dosažitelné mezi osobními počítači v lokální síti (viz křivka "PC local", která odpovídá propustnosti dosažené mezi dvěma osobními počítači propojenými lokální Fast Ethernetovou sítí). Příčina extrémně nízké propustnosti linky Praha-Brno naměřené v těchto testech zatím není známa.

Zpoždění a propustnost jsou pouze základní charakteristiky přenosových tras MetaPočítače. Proto jsme realizovali další testy, jejichž cílem bylo posoudit dosažitelné paralelní zrychlení a zejména srovnat zrychlení dosažené na paralelním počítači se zrychlením dosažitelným na distribuovaném MetaPočítači. Pro tento účel jsme vybrali NAS Parallel Benchmarks, a to konkrétně LU faktorizace ve verzi pro malé problémy (která vykazuje vyšší citlivost na kvalitu paralelního počítače). Výsledky testů jsou shrnuty v grafech na obrázku 7.6.

[graf] [graf]
Obrázek 7.6: Výsledky NAS Parallel Benchmark (LU A)

Uvedené testy vyžadují homogenní výpočetní prostředí, nebylo tedy možno zahrnout i počítač pasifae.

Výsledky potvrzují předpoklad, který navodilo meření zpoždění a propustnosti: zatímco mezi paralelním počítačem a dvěma počítači propojenými rychlou lokální sítí není z pohledu dosažitelné výkonnosti výrazný rozdíl, je výkon distribuovaného počítače výrazně horší a efektivita při rostoucím počtu procesorů klesá rychleji. V roce 2000 plánujeme v těchto měřeních pokračovat a analyzovat, zda pokles pozorované efektivity je skutečně pouze důsledkem nižší dosažitelné propustnosti. Současně plánujeme ve spolupráci s dalšími skupinami výzkumného záměru nalézt a odstranit příčiny nevyhovujícího výkonu použitých systémů přenosu zpráv (zejména MPICH) nad spojením Praha-Brno.

Provozní zajištění

Vytvořené distribuované prostředí MetaCentra využívá distribuovaný systém souborů AFS pro transparentní sdílení souborů mezi jednotlivými uzly i mezi uzly a pracovními stanicemi koncových uživatelů. Obdobně jako v předchozích letech byl v prosinci zaplacen roční poplatek za údržbu tohoto software, což zahrnuje především přístup k opravám (patchům) a novým verzím tohoto software. Uzly MetaCentra byly v první polovině roku zapojeny do beta testovacího programu verze 3.5, jejíž významnou předností je zahrnutí Linuxu mezi podporované operační systémy, a to jak na straně klienta, tak zejména na straně AFS serverů. AFS se tak stává dostupné i pro Linuxové pracovní stanice a zejména clustery, které postupně vznikají na některých vysokých školách v ČR (např. UK nebo ZČU) a kde by AFS mohlo plnit úlohu společného (byť pomalejšího) distribuovaného systému souborů.

Firma Transarc byla v roce 1998 zakoupena firmou IBM, což s sebou již v roce 1998 přineslo velmi složité diskuse o zachování licenčních a zejména cenových podmínek instalovaných multilicencí. I v tomto roce došlo ze strany Transarcu několikrát ke zrušení přístupu k určitým souborům (např. zdrojovým textům ke zmíněným Linuxovým implementacím) a bylo třeba velmi přesně definovat závazky i práva obou stran. Na druhou stranu se však podařilo dosáhnout prakticky stejné výše udržovacího poplatku a lze předpokládat, že podobná výše zůstane zachována i v roce 2000.

Zpracování dávkových úloh řídí systém LSF. Na konci roku byla rovněž zaplacena údržba tohoto systému pro další rok. Přes nesporné pozitivní vlastnosti má systém LSF některá omezení a především jej není možno upravovat a rozšiřovat podle potřeby. Nezanedbatelná je i jeho cena a z ní odvozená cena roční údržby (20 % pořizovací ceny).

V roce 1999 jsme pracovali zejména na propojení LSF a NQE, pro rok 2000 plánujeme významnější využití LSF-WAN rozšíření pro přenos úloh mezi jednotlivými uzly. Instalace nových výpočetních kapacit a jejich převádění do rutinního provozu na MU i ZČU v roce 1999 v podstatě znemožnila práci na využití LSF-WAN. Administrátoři i uživatelé se teprve seznamovali s novými výpočetními prostředky a nebylo ještě vytvořeno dostatečně uniformní prostředí, které umožňuje skutečnou migraci úloh (tedy především záruka, že úlohy spuštěné na jiném uzlu poskytnou identické výsledky). Pro rok 2000 plánujeme udržení podpory pro stávající instalace LSF. Požadavky na následující roky budou usměrněny v závislosti na výsledcích vlastního výzkumu a vývoje v oblasti plánování zdrojů (viz dále).

Distribuované informační zdroje

Již v průběhu roku 1998 bylo zřejmé, že distribuovaná správa uživatelských účtů, které současně musí být centrálně synchronizovány, vyžaduje odpovídající technickou podporu. Byl proto navržen a v průběhu roku 1999 na MU vytvořen systém Perun, který slouží jako primární databáze všech informací o uživatelích a dalších zdrojích (např. AFS svazky, umístění aplikačního programového vybavení, atd.). Systém Perun využívá databáze Oracle a jeho podrobný popis je možno nalézt ve sborníku konference Rufis'99 [RK99] a rovněž ve Zpravodaji ÚVT [RKM99].

Hlavní pozornost v oblasti distribuovaných informačních zdrojů jsme však věnovali protokolu LDAP a možnostem jeho využití pro zpřístupnění rychle se měnících informací o uzlech a počítačové síti. V první polovině roku byla navržena první verze specifikace datového modelu pro uložení dat a v praktických podmínkách vyzkoušena použitelnost Netscape Directory Serveru jako základu implementace takovéto služby. Další vývoj v této oblasti probíhá v úzké součinnosti s ZČU v Plzni, kde plánují využití adresářových služeb pro management rozsáhlého distribuovaného prostředí vysoké školy.

Zkušenosti z experimentu provedeného v prvním pololetí nebyly jednoznačné a zejména změna licenční politiky firmy Netscape vedla k určitému poklesu zájmu o tuto oblast. Dílčí výsledky jsou prezentovány v práci [Sit00]. Pro rok 2000 plánujeme implementaci rozsáhlejších testů v návaznosti na dostupnost kvalitních adresářových serverů a v případě úspěchu zpřístupnění dat obsažených v systému Perun tímto způsobem a rovněž vytvoření "Zprávy o počasí" (Weather Service), tedy informační služby o aktuálním stavu jednotlivých uzlů MetaPočítače a propojovací počítačové sítě, analogické obdobné službě v systému Globus.

Plánování zdrojů

Převážná část roku byla věnována shromažďování a studiu příslušné literatury (především Miroslav Ruda). V závěru roku jsme získali licence na PBS (Portable Batch System)Maui scheduler (obé ve zdrojové formě) jako základ pro implementaci vlastních návrhů. S PBS se rovněž perspektivně uvažuje jako s možnou náhradou systému LSF. Výsledky v podobě zpráv, publikací a případných implementací jsou plánovány na rok 2000.

Zálohování

V průběhu roku 1999 jsme realizovali výběrové řízení na vysokoobjemové zálohovací řízení. V soutěži zvítězila ostravská firma COMA, zálohovací systémy s nabídkou magnetopáskové knihovny X200 s čtecími a zapisovacími mechanikami Mammoth II. Dodaná knihovna má celkem 6 mechanik a kapacitu 200 magnetických pásek, což představuje 12 TB on-line bez komprese. Současně byla dodána příslušná licence pro systém Networker a zakoupili jsme i celkem 50 klientských licencí.

Pásková knihovna je umístěna v brněnském uzlu a je připojena k počítači Sun E450 (ten byl z prostředků výzkumného záměru v roce 1999 rozšířen o další procesor, SCSI rozhraní a další ATM (OC-3c) rozhraní, z prostředků MU pak o dalších 512 MB paměti). Tento souborový a zálohovací server je v současné době připojen k počítačové síti dvěma ATM rozhraními (jedno je používáno lokálně pro zálohování kapacit brněnského uzlu, druhé je připojeno na páteřní síť a slouží pro zpřístupnění tohoto serveru ze vzdálených lokalit).

Skluz v instalaci o více než tři měsíce oproti původnímu plánu (způsobeno delším výběrovým řízením a též dodacími lhůtami tohoto špičkového zařízení) vedl k odložení plně rutinního využití až na začátek roku 2000. Provedené testy ukazují použitelnost páskového robota i pro vzdálené zálohování, vlastní zálohovací politika MetaCentra se však teprve formuluje a bude k dispozici v průběhu 1. čtvrtletí roku 2000.

Pro rok 2000 plánujeme nákup druhé páskové knihovny (kompatibilní s pořízenou knihovnou) a její umístění v plzeňském uzlu. Tím by měla být vytvořena zálohovací infrastruktura s dostatečnou kapacitou nejen pro MetaCentrum, ale i pro potřeby dalších zájemců z řad akademických uživatelů výpočetní techniky.

Mezinárodní kontakty

V březnu 1999 se J. Sitera a M. Chlumský zúčastnili konference Decorum'99 v New Orleans a absolvovali dále studijní pobyt na třech univerzitních pracovištích v USA, která se zabývají problematikou distribuovaných adresářových služeb:

V první polovině roku jsme navázali kontakty s Poznaňským superpočítačovým a síťovým centrem. Zdeněk Salvet a Luděk Matyska se zúčastnili konference POLMAN'99 v dubnu 1999 a Z. Salvet zde stručně informoval o MetaCentru a jeho aktivitách. V září 1999 se Z. Salvet zúčastnil v Poznani další schůzky, kde se jednalo o možnostech spolupráce mezi SRN (GMD), Polskem a ČR v oblasti využití metapočítačů pro řešení konkrétního projektu (modelování povodí řeky Odry).

V listopadu 1999 se L. Matyska a M. Ruda zúčastnili konference SC'99 a v jejím průběhu uspořádaného setkání účastníků z Evropy, kteří mají zájem založit eGRID, analogii amerického konsorcia v oblasti metapočítáni. Schůzka ukázala enormní zájem o spolupráci v rámci Evropy a vedla k návrhu uspořádat seminář potenciálních členů eGRIDu v dubnu v Polsku při příležitosti polské konference o sítích a superpočítačích. V současné době je naplánována na 14. ledna 2000 schůzka zástupců jednotlivých organizací (de facto "přípravný výbor") v Berlíně, které se za ČR pravděpodobně zúčastní L. Matyska.

Prezentace

Informace o MetaCentru byly prezentovány na seminářích CESNETu, pořádaných 2. března (L. Matyska: Užití služeb sítě TEN-155 CZ pro potřeby MetaCentra) a 7. dubna (L. Matyska: Přístup k superpočítačům prostřednictvím sítě TEN-155 CZ) v Praze.

Informace o aplikacích v rámci sítě TEN-155 CZ, především o videokonferencích a současném stavu MetaCentra a možnosti jeho využití, byla prezentována na semináři ředitelů výpočetních center vysokých škol a AV ČR v Olomouci 26. října (L. Matyska: Aplikace v TEN-155 CZ).

Nejdůležitějším výsledkem je vydání Ročenky MetaCentra, která na sto stranách shrnuje informace o MetaCentru a především příspěvky jeho jednotlivých uživatelů. V ročence jsou citovány nejvýznamnější publikace, jejichž výsledky byly dosaženy pomocí výpočetních prostředků MetaCentra a jeho jednotlivých uzlů. Ročenka je vydávána v nákladu 150 kusů v české i anglické verzi.

předchozí
obsah
následující
další weby:fond rozvojemetacentrumCzechLightpřenosyvideoservereduroameduID.cz