Bez spolehlivého úložiště je investice do AI k ničemu

GPU stojí miliony, ale co když většinu času jenom čekají? Problém není v samotné umělé inteligenci, ale v něčem mnohem prozaičtějším – v úložišti dat. Systémy, které fungují jen 60% času kvůli výpadkům a údržbě, dokážou vaši investici do AI proměnit v nákladnou frustraci. Přitom řešení existuje a není ani tak složité, jak by se mohlo zdát.
Bez spolehlivého úložiště je investice do AI k ničemu

Výpadky stojí víc než si myslíte

AI projekty potřebují obrovské množství dat a ty potřebují být rychle a neustále dostupné. Problém je, že mnoho systémů běžících na výkonných počítačích (HPC) dosahuje pouze 60% dostupnosti. Zbytek času stojí kvůli plánované údržbě nebo neplánovaným výpadkům, kdy se vyměňují komponenty, aktualizuje software nebo napravují chyby.

Takové prostoje nejsou jen nepříjemné – jsou přímo drahé. Podle průzkumu z roku 2024 stojí výpadek 90% organizací minimálně 300 000 dolarů za hodinu. U 41% firem se náklady pohybují mezi 1 až 5 miliony dolarů za hodinu. Čím více máte hardwaru, tím více se pokazí. A čím větší tým máte, tím více se stane lidských chyb (vytáhne se omylem špatný server, kabel nebo disk).

Představte si všechny ty nečinné zdroje: servery, úložiště, síť, zaměstnance, spotřebovanou elektřinu, GPU jednotky, nespokojené datové vědce. To všechno čeká a nejede, zatímco vy platíte.

Jak by úložiště pro AI mělo vypadat

Systém pro náročné AI aplikace musí začínat s paralelním souborovým systémem postaveným podle principů, které používají technologičtí giganti. Když uvážíme obrovské datové sady, se kterými AI výzkum a vývoj pracuje, musí být systém navržen tak, aby zvládl škálovat na tisíce individuálních uzlů s exabajty kapacity.

Takhle pojatá infrastruktura umožňuje lineární škálovatelnost a maximální propustnost pro novou generaci datových úložišť. Bez rychlých sítí a paralelních systémů to prostě nejde. Ale co se často přehlíží, je právě dostupnost celého systému.

Úspěch v implementaci AI projektů závisí na tom, zda má celé datové centrum dostatečný výkon, škálovatelnost a dostupnost pro to, aby GPU jednotky běžely na maximum. Vzhledem k tomu, kolik dnes GPU stojí, je maximalizace návratnosti této investice prostě nutnost.

Žádné selhání

Datové centrum je bojištěm moderního distribuovaného počítání. Selhání systémů jsou běžná a problémy nejsou otázkou “jestli”, ale “kdy”. Proto je potřeba navrhovat systémy se 100% dostupností. To znamená, že redundance musí být zabudovaná přímo do architektury.

Je to logické. Pokročilé technologie se neposunou kupředu se systémy, které zažívají výpadky. IT průmysl dlouho akceptoval, že prostoje jsou nutné zlo potřebné pro aktualizace a údržbu. Moderní pohled je ale jiný – očekáváme nový standard toho, co je možné.

Proto je třeba stavět úložiště od základu tak, aby bylo odolné vůči selhání platformy. Velcí poskytovatelé cloudových služeb už normalizovali očekávání, že systémy jsou dostupné 24/7 s plným výkonem. Odolnost vůči chybám vyžaduje software, který “nevěří” hardwaru pod sebou. Základní jednotkou je cluster, který by měl mít minimálně čtyři uzly.

Údržbová okna jsou minulostí

Klíčovou vlastností systémů přizpůsobených pro práci s AI je absence údržbového okna. Použití modulární a heterogenní architektury znamená, že nejsou potřeba plánované prostoje pro upgrady a aktualizace.

To pokrývá všechno, co administrátoři úložiště a operátoři hardwaru běžně potřebují dělat: aktualizace, opravy hardwaru, výměny komponent, rekonfigurace, aktualizace jádra a bezpečnostní záplaty. Starší systémy úložiště spoléhající na duální kontroléry mají více bodů selhání a jejich údržbová okna narušují provoz, což znemožňuje kontinuální operace.

Cluster je mnohem lepší řešení. Modularita tohoto přístupu poskytuje o řád lepší úroveň redundance. Uzly mohou být vyřazeny z provozu, jejich komponenty vyměněny nebo software aktualizován, a pak se jednoduše znovu připojí ke clusteru. To umožňuje skutečnou odolnost vůči chybám a nepřerušovaný provoz.

Flexibilita a kompatibilita

Potřeby současných i budoucích AI úloh budou vyžadovat úložiště, které zvládne hybridní architektury. Schopnost kombinovat a integrovat novější systémy s předchozími investicemi nelze přehlížet. Kompatibilita je v tomto smyslu rozpočtovou otázkou.

Ideální systém úložiště má uživatelský prostor bez vlastních modulů jádra nebo ovladačů. Důsledkem je, že systém může spravovat personál se základními znalostmi operačního systému Linux. Pokud nastane problém, nemusíte čekat na jediného experta, který dorazí do datového centra.

Clustery by měly být postaveny minimálně na čtyřech uzlech, ale také musí být schopny škálovat až na tisíce uzlů, pokud je to nutné. Každý cluster by měl být schopen řešit selhání bez prostojů a běžnou údržbu provádět bez výpadků. Pokročilé projekty jako umělá inteligence potřebují kontinuální provoz.

Co přinese budoucnost

Kapacita dat a spotřeba energie umělé inteligence poroste. Už teď se odhaduje, že AI zabírá asi 20% globální spotřeby energie datových center a do konce roku se toto číslo má zdvojnásobit. Chytřejší AI prostě budou potřebovat ještě více úložného prostoru.

Samotný výkon vás nikam nedostane, jakmile začnete s produkcí projektů o petabajtech složitosti. Výkon vypadá skvěle na papíře, ale realita je jiná. Je to jako s závodním autem – jakmile vyjede na trať, údržba se stane problémem.

Spolehlivost a výkon zabrání tomu, aby auto většinu času stálo v garáži na opravách. Proto konstrukce systémů úložiště vyžaduje efektivní, flexibilní a hardware-agnostické systémy, které budou sloužit pro budoucnost, jež se buduje dnes. Systémy musí být schopné provádět kontroly všeho od začátku do konce, včetně síťových připojení a disků.

Zdroje: TechRadar

Chceš dostávat další tipy o AI?

Přihlas se k odběru a zhruba 2x měsíčně ti pošlu to nejlepší ze světa AI.

Name(Required)
Privacy(Required)

Další články

Nový Slackbot umí vytvářet plány, připravovat vás na schůzky a hlídat priority

Slack představil na konferenci Dreamforce 2025 kompletně přestavěného Slackbota. Není to jen kosmetická úprava, ale opravdová proměna v personalizovaného AI asistenta, který rozumí kontextu vaší práce. Nový Slackbot dokáže připravit projektový plán z poznámek, najít informace i když si pamatujete jen pár detailů, nebo vám ráno připravit seznam priorit. A to není science fiction, ale realita dostupná už teď.

Celý článek >

Zjistili jsme proč si AI vymýšlí a jak se tomu naučit předcházet

Každých pár týdnů se objeví titulky o tom, jak AI lže, konspiruje nebo dokonce svádí uživatele. Zní to děsivě, ale realita je mnohem prozaičtější. Nejrozsáhlejší studie svého druhu přitom ukázala, že AI asistenti chybují téměř v polovině případů. ChatGPT není žádný padouch z Bondovky. Je to statistický nástroj s konstrukčními chybami, které mohly být předejity. A co víc – část problému jsou samotní uživatelé, kteří nerozumí, jak s nástroji správně pracovat.

Celý článek >