Výzkumníci z CESNETu a FIT ČVUT zveřejnili dosud největší datovou sadu určenou pro detekci hrozeb a predikci síťového provozu
Nový dataset z reálného akademického prostředí obsahuje více než 800 000 časových řad. Umožní pokročilý výzkum kybernetické bezpečnosti a testování modelů umělé inteligence
Praha 31. července 2025 – Výzkumný tým z Oddělení nástrojů pro administraci a bezpečnost sdružení CESNET a Fakulty informačních technologií ČVUT v Praze zveřejnil dosud nejrozsáhlejší dataset svého druhu. Nová datová sada obsahuje přes 800 tisíc časových řad zachycujících anonymizovaný síťový provoz z reálné akademické sítě – od osobních počítačů, serverů a routerů až po síťovou aktivitu celých institucí. Díky tomu je nejrealističtější a nejkomplexnější veřejně dostupnou datovou sadou, která slouží pro výzkum v oblasti predikce síťového provozu, detekce anomálií a správy počítačových sítí pomocí umělé inteligence.
Detekce anomálií v běžném životě i v síťovém provozu a jejich význam
S detekcí anomálií se setkáváme v každodenním životě často a aniž bychom o tom věděli – ať už jde o podezřelou platbu z jiné země nebo neobvyklou částku zaznamenanou bankovním systémem, odchylky ve zdravotních údajích zachycené chytrými hodinkami nebo náhlou změnu chování při online nákupech, která může indikovat zneužití účtu. Ve všech těchto případech se jedná o detekci anomálií. Tedy situací, které se odchylují od běžného chování a mohou být indikátorem rizika. Podobné principy se uplatňují i v oblasti kybernetické bezpečnosti, kde anomálie v síťovém provozu často signalizují hrozby, chyby nebo kritické změny v chování zařízení.
V oblasti správy a zabezpečení sítí hraje detekce anomálií klíčovou roli. Moderní útoky na infrastrukturu, jako jsou distribuované útoky na dostupnost služeb (DDoS), šíření malwaru nebo zneužití kompromitovaných zařízení, se často skrývají v běžném provozu a unikají tradičním pravidlům detekce. „Právě díky rozpoznání anomálií je možné odhalit i dosud neznámé hrozby, které se projevují změnou v chování síťové komunikace zařízení,” vysvětluje přínosy Josef Koumar, hlavní autor datové sady. „Anomálie mohou také ukazovat na chyby v konfiguraci sítě, přetížení zařízení nebo jiné provozní problémy,” dodává Koumar. Včasná a přesná detekce odchylek proto zásadně přispívá k odolnosti a spolehlivosti digitální infrastruktury.
Největší reálná datová sada svého druhu otevírá cestu k pokročilejší detekci hrozeb pomocí umělé inteligence
Tým výzkumníků ze sdružení CESNET a Fakulty informačních technologií Českého vysokého učení technického v Praze (FIT ČVUT) – Josef Koumar, Karel Hynek, Tomáš Čejka a Pavel Šiška – publikoval v prestižním časopise Nature Scientific Data dosud nejrozsáhlejší veřejně dostupnou datovou sadu svého druhu. Obsahuje více než 800 tisíc časových řad vytvořených agregací reálného, anonymizovaného síťového provozu ze zařízení, sítí a institucí z páteřních linek národní akademické sítě CESNET.
Na rozdíl od běžně používaných uměle vytvořených laboratorních datových sad, které měla vědecká komunita dosud k dispozici, zachycuje tento dataset rozsáhlý a různorodý provoz reálných počítačových sítí. Jde o bezprecedentní počin, který výrazně posouvá možnosti výzkumu v oblasti kybernetické bezpečnosti a správy sítí. Umožňuje vývoj vysoce přesné umělé inteligence pro detekci anomálií a hlavně její komplexní a robustní testování v reálných podmínkách s různorodým provozem. Výrazně tak zvyšuje věrohodnost výsledků detekce, například útoků typu DDoS nebo podezřelého chování infikovaných zařízení.
Význam přínosu posiluje také publikování open-source knihovny CESNET TS-Zoo, která usnadňuje práci s datovou sadou a zároveň umožňuje snadné sdílení metodologie prostřednictvím benchmarků. Kombinace realistického datasetu a open-source nástroje přispívá k vyšší transparentnosti metod a reprodukovatelnosti experimentů – tedy ke kvalitnějším a ověřitelným výsledkům v celém výzkumném ekosystému.
„Naším cílem bylo poskytnout komunitě realistickou datovou sadu pro vývoj a testování algoritmů, které mohou chránit sítě i v době, kdy je většina provozu šifrována. Dataset otevírá cestu k lepší detekci neznámých hrozeb, protože vychází z reálného a komplexního prostředí. Díky tomu jsou výsledky z této datové sady věrohodnější než na existujících datových sadách. Věříme, že přispěje k vývoji bezpečnější a inteligentnější infrastruktury nejen v akademické sféře,“ komentuje hlavní autor datové sady Josef Koumar.
Podrobnosti o datové sadě jsou k dispozici v anglickém jazyce: https://www.nature.com/articles/s41597-025-04603-x
Open-source knihovna pro práci s datovou sadou: https://github.com/CESNET/cesnet-tszoo/tree/main
https://cesnet.github.io/cesnet-tszoo/
Sdružení CESNET, založené v roce 1996 vysokými školami a Akademií věd ČR, poskytuje moderní IT služby pro vědu, výzkum, inovace a vzdělávání. Spravuje a rozvíjí akademickou počítačovou síť, zajišťuje bezpečné přihlašování k portfoliu služeb a nabízí prostředí pro náročné výpočty, datová úložiště a komunikační nástroje pro jednotlivce i týmy.
Služby CESNETu využívají kromě vysokých škol i studenti, akademičtí pracovníci, vědecko-výzkumné organizace, výzkumníci, instituce veřejné správy a neziskové organizace.
Výzkum a vývoj v oblasti informačních a komunikačních technologií jsou nedílnou součástí aktivit CESNETu. Sdružení je také aktivním partnerem mezinárodních výzkumných infrastruktur, jako je panevropská síť GÉANT, evropská gridová infrastruktura EGI.eu a evropská infrastruktura pro otevřenou vědu EOSC.