Bez spolehlivého úložiště je investice do AI k ničemu

Sdílet
GPU stojí miliony, ale co když většinu času jenom čekají? Problém není v samotné umělé inteligenci, ale v něčem mnohem prozaičtějším – v úložišti dat. Systémy, které fungují jen 60% času kvůli výpadkům a údržbě, dokážou vaši investici do AI proměnit v nákladnou frustraci. Přitom řešení existuje a není ani tak složité, jak by se mohlo zdát.
Bez spolehlivého úložiště je investice do AI k ničemu

Výpadky stojí víc než si myslíte

AI projekty potřebují obrovské množství dat a ty potřebují být rychle a neustále dostupné. Problém je, že mnoho systémů běžících na výkonných počítačích (HPC) dosahuje pouze 60% dostupnosti. Zbytek času stojí kvůli plánované údržbě nebo neplánovaným výpadkům, kdy se vyměňují komponenty, aktualizuje software nebo napravují chyby.

Takové prostoje nejsou jen nepříjemné – jsou přímo drahé. Podle průzkumu z roku 2024 stojí výpadek 90% organizací minimálně 300 000 dolarů za hodinu. U 41% firem se náklady pohybují mezi 1 až 5 miliony dolarů za hodinu. Čím více máte hardwaru, tím více se pokazí. A čím větší tým máte, tím více se stane lidských chyb (vytáhne se omylem špatný server, kabel nebo disk).

Představte si všechny ty nečinné zdroje: servery, úložiště, síť, zaměstnance, spotřebovanou elektřinu, GPU jednotky, nespokojené datové vědce. To všechno čeká a nejede, zatímco vy platíte.

Jak by úložiště pro AI mělo vypadat

Systém pro náročné AI aplikace musí začínat s paralelním souborovým systémem postaveným podle principů, které používají technologičtí giganti. Když uvážíme obrovské datové sady, se kterými AI výzkum a vývoj pracuje, musí být systém navržen tak, aby zvládl škálovat na tisíce individuálních uzlů s exabajty kapacity.

Takhle pojatá infrastruktura umožňuje lineární škálovatelnost a maximální propustnost pro novou generaci datových úložišť. Bez rychlých sítí a paralelních systémů to prostě nejde. Ale co se často přehlíží, je právě dostupnost celého systému.

Úspěch v implementaci AI projektů závisí na tom, zda má celé datové centrum dostatečný výkon, škálovatelnost a dostupnost pro to, aby GPU jednotky běžely na maximum. Vzhledem k tomu, kolik dnes GPU stojí, je maximalizace návratnosti této investice prostě nutnost.

Žádné selhání

Datové centrum je bojištěm moderního distribuovaného počítání. Selhání systémů jsou běžná a problémy nejsou otázkou “jestli”, ale “kdy”. Proto je potřeba navrhovat systémy se 100% dostupností. To znamená, že redundance musí být zabudovaná přímo do architektury.

Je to logické. Pokročilé technologie se neposunou kupředu se systémy, které zažívají výpadky. IT průmysl dlouho akceptoval, že prostoje jsou nutné zlo potřebné pro aktualizace a údržbu. Moderní pohled je ale jiný – očekáváme nový standard toho, co je možné.

Proto je třeba stavět úložiště od základu tak, aby bylo odolné vůči selhání platformy. Velcí poskytovatelé cloudových služeb už normalizovali očekávání, že systémy jsou dostupné 24/7 s plným výkonem. Odolnost vůči chybám vyžaduje software, který “nevěří” hardwaru pod sebou. Základní jednotkou je cluster, který by měl mít minimálně čtyři uzly.

Údržbová okna jsou minulostí

Klíčovou vlastností systémů přizpůsobených pro práci s AI je absence údržbového okna. Použití modulární a heterogenní architektury znamená, že nejsou potřeba plánované prostoje pro upgrady a aktualizace.

To pokrývá všechno, co administrátoři úložiště a operátoři hardwaru běžně potřebují dělat: aktualizace, opravy hardwaru, výměny komponent, rekonfigurace, aktualizace jádra a bezpečnostní záplaty. Starší systémy úložiště spoléhající na duální kontroléry mají více bodů selhání a jejich údržbová okna narušují provoz, což znemožňuje kontinuální operace.

Cluster je mnohem lepší řešení. Modularita tohoto přístupu poskytuje o řád lepší úroveň redundance. Uzly mohou být vyřazeny z provozu, jejich komponenty vyměněny nebo software aktualizován, a pak se jednoduše znovu připojí ke clusteru. To umožňuje skutečnou odolnost vůči chybám a nepřerušovaný provoz.

Flexibilita a kompatibilita

Potřeby současných i budoucích AI úloh budou vyžadovat úložiště, které zvládne hybridní architektury. Schopnost kombinovat a integrovat novější systémy s předchozími investicemi nelze přehlížet. Kompatibilita je v tomto smyslu rozpočtovou otázkou.

Ideální systém úložiště má uživatelský prostor bez vlastních modulů jádra nebo ovladačů. Důsledkem je, že systém může spravovat personál se základními znalostmi operačního systému Linux. Pokud nastane problém, nemusíte čekat na jediného experta, který dorazí do datového centra.

Clustery by měly být postaveny minimálně na čtyřech uzlech, ale také musí být schopny škálovat až na tisíce uzlů, pokud je to nutné. Každý cluster by měl být schopen řešit selhání bez prostojů a běžnou údržbu provádět bez výpadků. Pokročilé projekty jako umělá inteligence potřebují kontinuální provoz.

Co přinese budoucnost

Kapacita dat a spotřeba energie umělé inteligence poroste. Už teď se odhaduje, že AI zabírá asi 20% globální spotřeby energie datových center a do konce roku se toto číslo má zdvojnásobit. Chytřejší AI prostě budou potřebovat ještě více úložného prostoru.

Samotný výkon vás nikam nedostane, jakmile začnete s produkcí projektů o petabajtech složitosti. Výkon vypadá skvěle na papíře, ale realita je jiná. Je to jako s závodním autem – jakmile vyjede na trať, údržba se stane problémem.

Spolehlivost a výkon zabrání tomu, aby auto většinu času stálo v garáži na opravách. Proto konstrukce systémů úložiště vyžaduje efektivní, flexibilní a hardware-agnostické systémy, které budou sloužit pro budoucnost, jež se buduje dnes. Systémy musí být schopné provádět kontroly všeho od začátku do konce, včetně síťových připojení a disků.

Zdroje: TechRadar

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

Propast mezi firmami v AI roste a devadesát procent úspěchu je mindset

České firmy se v umělé inteligenci dramaticky rozdělily na dva tábory. Zatímco lídři dosahují průlomových výsledků a tvoří prototypy za dva dny místo osmi týdnů, většina podniků stále nemá žádnou strategii. Propast se zvětšuje každým...

Novinky ve Firefly: Reálnější AI videa i zvuky na pár kliknutí

Adobe Firefly představuje zásadní rozšíření svých AI video schopností – přináší realističtější generování videí, integruje pokročilé modely jako Veo 3 a nově zvládá tvorbu zvukových efektů přímo z hlasu. Co všechno novinka nabízí a co...

Klíčem k efektivitě podnikání budou specializovaní AI agenti

Umělá inteligence už není jen o chytřejších modelech. Přichází éra AI agentů – samostatných digitálních kolegů, kteří autonomně zvládnou komplexní úkoly a mohou zásadně proměnit efektivitu firem a podobu práce. Jak budou AI agenti formovat...