11   DataGrid

Od roku 2001 je součástí výzkumného záměru i řešení mezinárodního projektu DataGrid 5. rámcového programu EU. Cílem tohoto projektu, který řeší více jak 20 partnerů z většiny zemí Evropy pod vedením CERNu, je vytvoření rozsáhlé výpočetní a datové infrastruktury. Ta bude sloužit vědcům při vyhodnocování připravovaných experimentů na nových zařízeních v CERNu. Experimenty budou produkovat několik jednotek až desítek PB dat ročně, infrastruktura vytvářená v rámci projektu DataGrid musí poskytnout nástroje pro ukládání, zpřístupnění (včetně tvorby replik) a zpracování těchto dat, a to v distribuované formě.

CESNET je zapojen do řešení pracovní skupiny 1, která odpovídá za správu zdrojů (resource management). Kromě toho se CESNET spolupodílí na zajištění provozního testbedu (ve spolupráci s Fyzikálním ústavem AV ČR) a rovněž na některých aspektech síťové infrastruktury. V rámci pracovní skupiny 1 (což je aktivita přímo financovaná EU) pak CESNET odpovídá za logovací službu (logging and bookkeeping service) a za používané bezpečnostní mechanismy.

11.1   Logovací služba

Aktivity v roce 2002 je možno rozdělit do následujících tří oblastí:

11.1.1   Provozní verze 1.x

Původní plán projektu počítal s údržbou této verze pouze v první polovině roku a jejím postupných nahrazením připravovanou verzí 2.0. Koncem prvního pololetí však vedení projektu rozhodlo o pokračující údržbě této verze do druhého hodnocení projektu (únor 2003). Toto rozhodnutí na jedné straně umožnilo podstatně důkladnější otestování implementace, na druhé straně zkomplikovalo zavedení nových vlastností, požadovaných aplikacemi dle původního plánu rozvoje - většinu požadovaných rozšíření není možno do koncepčně zastaralé verze zanést.

11.1.2   Verze 2.0

Hlavní aktivitu jsme soustředili na komplexní přestavbu koncepce logovací služby a zavedení nových funkcí. Logovací služba vychází z modelu řízeného událostmi, kdy jednotlivé komponenty zasílají do vzdálené databáze informaci o konkrétních událostech a stav úlohy je na jejich základě (re)konstruován.

Základní logovací služba je asynchronní, tj. není garantováno včasné doručení událostí ani jejich pořadí. Tento přístup však přestává stačit tam, kde se logovací služba využívá interně v rámci systému správy zdrojů pro přenos informací, např. při obnovení stavu po zhroucení nějaké komponenty. Pro tento účel jsme model rozšířili o podporu prioritního a synchronního logování událostí, kdy volání logovací funkce je ukončeno až po potvrzeném přenosu události do (vzdálené) databáze.

Nejvýznamnější úpravou je rozšířená podpora typů logovaných událostí, která umožní logovat i tzv. uživatelské události, tedy události generované přímo uživatelem a/nebo vlastní aplikací. Tato podpora si vyžádala v podstatě kompletní přestavbu dosavadní implementace, která ve verzi 2.0 podporuje snadné zavádění nových typů událostí.

Pro verzi 2.0 jsme rovněž změnili koncepci zpracování událostí a realizaci tzv. stavového automatu. Ten ve verzi 2.0 již zpracovává všechny přicházející události a výsledný stav ukládá společně s časovou známkou do databáze. Rozšířili jsme pojem stavové cache, v níž jsou drženy stavy událostí, na které se uživatelé nejčastěji dotazují. Plná funkcionalita verze 2.0 (včetně C a C++ API) je popsána v příslušných dokumentech projektu DataGrid.

Kromě dalších aktivit jsme se rovněž začali zabývat otázkou permanentní logovací služby, která bude schopna ukládat informace o úlohách po velmi dlouhá časová období (roky). První verze příslušného dokumentu je v současnosti v interním recenzním řízení.

11.1.3   R-GMA a logovací služba

R-GMA, tedy relační gridová monitorovací architektura, představuje obecný koncept práce s monitorovací informací v projektu DataGrid. R-GMA má poskytnout infrastrukturu, jejímž prostřednictvím se sbírají a zpřístupňují monitorovací informace, mezi něž v principu patří i informace o stavu úloh.

V polovině roku jsme se proto sešli se zástupci pracovní skupiny 3, která odpovídá za monitorovací službu, a dohodli se na formě spolupráce. Infrastruktura R-GMA měla v tomto modelu zajistit zpřístupnění informací o stavu úloh, včetně zajištění tzv. notifikační služby, a tím výrazně odlehčit vlastní logovací databázi.

Bohužel pozdržení přechodu na verzi 2.0 se negativně promítlo i do implementace potřebných součástí R-GMA, které stále nejsou v plně funkční podobě. V současnosti máme proto k dispozici pouze generátor dat pro R-GMA a jsme schopni do této infrastruktury posílat informaci o stavu úloh. R-GMA infrastruktura však není doposud schopna tato data spolehlivě udržovat a zasílat uživatelům, kteří o ně projevili zájem - jedná se zatím stále o negarantovanou službu. Rovněž dosud není uspokojivě vyřešena otázka bezpečnosti dat v R-GMA infrastruktuře, komunikace zabezpečenými SSL kanály se příliš negativně projevuje na celkovém výkonu.

11.2   Bezpečnost

V první polovině roku 2002 jsme zprovoznili službu prodlužování certifikátů pomocí myProxy serveru. Provedené úpravy myProxy serveru jsou již začleněny do nové oficiální distribuce.

V rámci přípravy verze 2.0 jsme sjednotili v rámci WP1 používané přístupy k zajištění bezpečné komunikace mezi vzdálenými komponentami a vytvořili novou knihovnu, která zahrnuje i funkce pro práci s certifikáty.

11.3   Pokračování projektu

V roce 2002 byl vyhlášen 6. rámcový program EU. Společně s dalšími spoluřešiteli projektu DataGrid jsme podali tzv. Express of Interest na celoevropskou Gridovou infrastrukturu a od podzimu se intenzivně podílíme na přípravě konsorcia, které se chystá podat návrh projektu hned v prvním vyhlášení ze 17. prosince 2002.

Koncem roku se zástupci Polska, Slovenska, Maďarska, Rakouska a České republiky dohodli na vytvoření Středoevropského Gridového konsorcia, které bude mít první ustavující schůzku začátkem ledna 2003. Cílem vytvoření tohoto konsorcia je nejen získání silnější pozice v rámci celoevropského konsorcia, ale i identifikace a následné řešení společných problémů, často odlišných od těch, které řeší ustavující země EU. Jedná se zejména o intenzivní zájem o skutečně distribuovaná heterogenní prostředí (analogická prostředí, rozvíjenému v rámci projektu MetaCentrum), obavy z přílišné monopolizace systémem Globus a rovněž snahu využít výsledky vlastního výzkumu, často v Evropě doposud nepříliš známého.

předchozí
obsah
následující
další weby:fond rozvojemetacentrumCzechLightpřenosyvideoservereduroameduID.cz