Bez spolehlivého úložiště je investice do AI k ničemu

Sdílet
GPU stojí miliony, ale co když většinu času jenom čekají? Problém není v samotné umělé inteligenci, ale v něčem mnohem prozaičtějším – v úložišti dat. Systémy, které fungují jen 60% času kvůli výpadkům a údržbě, dokážou vaši investici do AI proměnit v nákladnou frustraci. Přitom řešení existuje a není ani tak složité, jak by se mohlo zdát.
Bez spolehlivého úložiště je investice do AI k ničemu

Výpadky stojí víc než si myslíte

AI projekty potřebují obrovské množství dat a ty potřebují být rychle a neustále dostupné. Problém je, že mnoho systémů běžících na výkonných počítačích (HPC) dosahuje pouze 60% dostupnosti. Zbytek času stojí kvůli plánované údržbě nebo neplánovaným výpadkům, kdy se vyměňují komponenty, aktualizuje software nebo napravují chyby.

Takové prostoje nejsou jen nepříjemné – jsou přímo drahé. Podle průzkumu z roku 2024 stojí výpadek 90% organizací minimálně 300 000 dolarů za hodinu. U 41% firem se náklady pohybují mezi 1 až 5 miliony dolarů za hodinu. Čím více máte hardwaru, tím více se pokazí. A čím větší tým máte, tím více se stane lidských chyb (vytáhne se omylem špatný server, kabel nebo disk).

Představte si všechny ty nečinné zdroje: servery, úložiště, síť, zaměstnance, spotřebovanou elektřinu, GPU jednotky, nespokojené datové vědce. To všechno čeká a nejede, zatímco vy platíte.

Jak by úložiště pro AI mělo vypadat

Systém pro náročné AI aplikace musí začínat s paralelním souborovým systémem postaveným podle principů, které používají technologičtí giganti. Když uvážíme obrovské datové sady, se kterými AI výzkum a vývoj pracuje, musí být systém navržen tak, aby zvládl škálovat na tisíce individuálních uzlů s exabajty kapacity.

Takhle pojatá infrastruktura umožňuje lineární škálovatelnost a maximální propustnost pro novou generaci datových úložišť. Bez rychlých sítí a paralelních systémů to prostě nejde. Ale co se často přehlíží, je právě dostupnost celého systému.

Úspěch v implementaci AI projektů závisí na tom, zda má celé datové centrum dostatečný výkon, škálovatelnost a dostupnost pro to, aby GPU jednotky běžely na maximum. Vzhledem k tomu, kolik dnes GPU stojí, je maximalizace návratnosti této investice prostě nutnost.

Žádné selhání

Datové centrum je bojištěm moderního distribuovaného počítání. Selhání systémů jsou běžná a problémy nejsou otázkou “jestli”, ale “kdy”. Proto je potřeba navrhovat systémy se 100% dostupností. To znamená, že redundance musí být zabudovaná přímo do architektury.

Je to logické. Pokročilé technologie se neposunou kupředu se systémy, které zažívají výpadky. IT průmysl dlouho akceptoval, že prostoje jsou nutné zlo potřebné pro aktualizace a údržbu. Moderní pohled je ale jiný – očekáváme nový standard toho, co je možné.

Proto je třeba stavět úložiště od základu tak, aby bylo odolné vůči selhání platformy. Velcí poskytovatelé cloudových služeb už normalizovali očekávání, že systémy jsou dostupné 24/7 s plným výkonem. Odolnost vůči chybám vyžaduje software, který “nevěří” hardwaru pod sebou. Základní jednotkou je cluster, který by měl mít minimálně čtyři uzly.

Údržbová okna jsou minulostí

Klíčovou vlastností systémů přizpůsobených pro práci s AI je absence údržbového okna. Použití modulární a heterogenní architektury znamená, že nejsou potřeba plánované prostoje pro upgrady a aktualizace.

To pokrývá všechno, co administrátoři úložiště a operátoři hardwaru běžně potřebují dělat: aktualizace, opravy hardwaru, výměny komponent, rekonfigurace, aktualizace jádra a bezpečnostní záplaty. Starší systémy úložiště spoléhající na duální kontroléry mají více bodů selhání a jejich údržbová okna narušují provoz, což znemožňuje kontinuální operace.

Cluster je mnohem lepší řešení. Modularita tohoto přístupu poskytuje o řád lepší úroveň redundance. Uzly mohou být vyřazeny z provozu, jejich komponenty vyměněny nebo software aktualizován, a pak se jednoduše znovu připojí ke clusteru. To umožňuje skutečnou odolnost vůči chybám a nepřerušovaný provoz.

Flexibilita a kompatibilita

Potřeby současných i budoucích AI úloh budou vyžadovat úložiště, které zvládne hybridní architektury. Schopnost kombinovat a integrovat novější systémy s předchozími investicemi nelze přehlížet. Kompatibilita je v tomto smyslu rozpočtovou otázkou.

Ideální systém úložiště má uživatelský prostor bez vlastních modulů jádra nebo ovladačů. Důsledkem je, že systém může spravovat personál se základními znalostmi operačního systému Linux. Pokud nastane problém, nemusíte čekat na jediného experta, který dorazí do datového centra.

Clustery by měly být postaveny minimálně na čtyřech uzlech, ale také musí být schopny škálovat až na tisíce uzlů, pokud je to nutné. Každý cluster by měl být schopen řešit selhání bez prostojů a běžnou údržbu provádět bez výpadků. Pokročilé projekty jako umělá inteligence potřebují kontinuální provoz.

Co přinese budoucnost

Kapacita dat a spotřeba energie umělé inteligence poroste. Už teď se odhaduje, že AI zabírá asi 20% globální spotřeby energie datových center a do konce roku se toto číslo má zdvojnásobit. Chytřejší AI prostě budou potřebovat ještě více úložného prostoru.

Samotný výkon vás nikam nedostane, jakmile začnete s produkcí projektů o petabajtech složitosti. Výkon vypadá skvěle na papíře, ale realita je jiná. Je to jako s závodním autem – jakmile vyjede na trať, údržba se stane problémem.

Spolehlivost a výkon zabrání tomu, aby auto většinu času stálo v garáži na opravách. Proto konstrukce systémů úložiště vyžaduje efektivní, flexibilní a hardware-agnostické systémy, které budou sloužit pro budoucnost, jež se buduje dnes. Systémy musí být schopné provádět kontroly všeho od začátku do konce, včetně síťových připojení a disků.

Zdroje: TechRadar

Zůstaňte v obraze s AI novinkami

Přihlaste se k odběru mého newsletteru a získejte nejnovější tipy, triky a novinky ze světa umělé inteligence přímo do vaší schránky. Žádný spam, pouze hodnotný obsah.

Týdenní přehled novinek

Exkluzivní návody

Slevy na workshopy

Name(Required)
Privacy(Required)

Odesláním souhlasíte se zpracováním osobních údajů. Odhlásit se můžete kdykoliv.

Další články

Další zajímavé články, které by vás mohly zajímat

Detailní pohled na statistiky OpenAI ukazuje, že malé firmy zavádějí umělou inteligenci rychleji než korporáty.

Často se bavíme o pocitech a dojmech z umělé inteligence, ale co říkají tvrdá data? Podíval jsem se pod pokličku nejnovějších statistik společnosti OpenAI, které mapují vývoj až do začátku roku 2026. Čísla nám odhalují...

Chrome s AI vs. Comet: Jaké jsou rozdíly v agentických schopnostech?

Umělá inteligence už není jen ve vyhledávání – přichází přímo do prohlížečů. Chrome i Comet přinášejí inovativní AI funkce, které mohou změnit přístup k práci i produktivitě. Který z těchto nástrojů posune vaši digitální každodennost...

Jak zvládnout umělou inteligenci pro zajištění kariéry v pojišťovnictví

Rychlý nástup generativní umělé inteligence přináší nejen obavy z nahrazení pracovních míst, ale také nové příležitosti pro rozvoj kariéry v pojišťovnictví. Jak zvládnout AI tak, aby naopak pomohla posílit pracovní produktivitu, bezpečnost zaměstnání a otevřela...