Datová úložiště
Aktuálně budujeme hierarchické úložné systémy pro uchovávání enormních objemů dat (celkem 10 až 15 PB), a to postupně ve třech lokalitách (datacentrech) geograficky rovnoměrně distribuovaných v rámci ČR, která budou vzájemně propojena. Předpokládáme, že služby datových úložišť budou dostupné v pilotním režimu v první lokalitě od března 2012.
Data v úložišti budou až na výjimky spravována systémem HSM, který obsahuje vrstvu (tier) rychlých diskových polí a pomalejší páskovou knihovnu. Data jsou automaticky dle nastavených pravidel přesouvána mezi disky a páskami. Pro uživatele jsou přesuny dat transparentní, všechna data se jeví, jako by byla na discích. Pokud ale přistoupí k datům, která jsou odsunuta na pásky, jejich přesun zpět na disky nějakou dobu trvá. Důvody pro toto řešení jsou ekonomické, uchovávání dat na páskách je provozně výrazně levnější.
Připravované služby
Datová úložiště teprve vznikají. Následující výčet představuje množinu služeb, které momentálně připravujeme, jejich seznam se může rozšířit na základě odůvodněných požadavků potenciálních uživatelů.
Storage Element
Storage Element je datové úložiště používané v gridových systémech. Je orientováno především na kapacitu, propustnost a přenos velkých objemů dat. V našich podmínkách budeme provozovat službu dCache, která implementuje protokol SRM a pro přenos dat poskytne protokoly jako gridFTP a dcap
Služby souborového přístupu
Půjde o poskytnutí kapacit datového úložiště formou souborového systému. V této souvislosti předpokládáme nasazení především protokolů NFSv4 a SMB 2.0, které umožní připojit datové úložiště jako lokální svazek běžného počítače. Přístup protokolem SMB bude možné využít přes VPN (z toho důvodu, že protokol SMB je standardně v mnoha sítích filtrován). Z dalších souborových protokolů předpokládáme nasazení HTTP(S), SFTP, FTP(S), SCP (snadno použitelné i pro uživatele Windows) a dále protokolu rsync.
Služby blokového přístupu
Na blokové úrovni lze zpřístupnit základní diskovou kapacitu, bez možnosti implementovat další nadstavbové služby. Uživateli se vytvoří a zpřístupní LUN odpovídající velikosti. Veškeré další operace, jako je vytvoření souborového systému a následná údržba dat, jsou již plně v kompetenci uživatele. Výjimkou bude v budoucnu pouze možnost blokové replikace diskové kapacity, a to na lokální nebo vzdálené úložiště. Blokový přístup k úložné kapacitě budeme poskytovat pouze individuálním uživatelům, a to na základě konkrétních potřeb.
Nadstavbové služby
Nad základním úložným systémem plánujeme zprovoznit alespoň některé služby typu FileSender, WebDAV (případně Cloud Storage) atd., které jej zpřístupní širokým masám uživatelů z akademické komunity. Pro autentizované uživatele budou přitom kvóty nastaveny tak, aby byl systém konkurenceschopný v porovnání s komerčními (zejména free) službami.
Možné způsoby využití služeb datových úložišť
Zálohování uživatelských dat
U zálohování budeme zpočátku poskytovat pouze tzv. „syrovou“ kapacitu souborového sytému a počítáme přitom s využitím standardních nástrojů pro synchronizaci dat (mezi kopií dat u uživatele a kopií v našem úložišti) typu rsync apod., která bude plně v režii uživatelů. Pro zálohovací systémy pod správou uživatelů nabídneme část kapacity jako další Tier, který tyto systémy dokážou využít.
Integrace existujících úložišť
Uživatel může HSM úložiště využít jednak jako zálohu vlastních dat (popsáno výše), nebo může je využít formou archívu vlastních dat, na která už na lokálním úložišti nemá dostatek kapacity, anebo může své vlastní úložiště využít jako další Tier (přesouvání dat mezi lokálním úložištěm uživatele a našim bude opět plně v jeho režii). Tier bude přístupný jako souborový systém, jak bylo popsáno výše.
Podpora spolupráce uživatelů a pracovišť
Přístup do úložišť sdružení CESNET bude navázán na autentizační systémy používané v prostředí sítě národního výzkumu, a to zejména na federaci eduID.cz, rozšířenou v rámci akademické obce ČR. Z tohoto hlediska využívání služeb úložišť usnadní sdílení a výměnu dat mezi distribuovanými týmy spolupracujícími na společných úkolech či výzkumných projektech. Tuto spolupráci bude posilovat rovněž výše zmíněná integrace vlastních úložných kapacit do společného úložného gridu, která bude založena na vzájemně výhodné výměně datových (úložných i jiných) zdrojů a prostředků. CESNET bude v této souvislosti zároveň plnit roli koordinátora a zprostředkovatele efektivnějšího využití úložných a dalších datových zdrojů v rámci VaV komunity ČR.
Kontakt
Mgr. Peter Verčimák, Ph.D.