Experiment v suterénu a tisíce hodin dat
V nenápadném suterénním studiu v San Franciscu se odehrává jeden z nejzajímavějších experimentů současnosti. Startup jménem Conduit se rozhodl vytvořit dosud největší databázi neurálních dat pro trénování umělé inteligence. Cíl je jasný a ambiciózní: vyvinout technologii “thought-to-text”, tedy systém, který dokáže dekódovat sémantický obsah (význam) z mozkové aktivity těsně předtím, než člověk promluví nebo začne psát.
Za posledních šest měsíců se jim podařilo nasbírat neuvěřitelných 10 000 hodin záznamů od tisíců unikátních jednotlivců. To je obrovské číslo, které v oblasti neurotechnologií nemá obdoby. Účastníci sedí ve dvouhodinových blocích v malých budkách a konverzují. Nejedná se ale o pasivní měření – klíčem je aktivní zapojení mozku při komunikaci, což poskytuje nejkvalitnější data pro učení modelů.
Povídání s chatbotem jako cesta k čtení myšlenek
Aby vývojáři získali co nejpřirozenější data, posadili účastníky před velké jazykové modely (LLM). Úkolem lidí bylo svobodně konverzovat s AI, ať už hlasem, nebo psaním na zjednodušené klávesnici. Zpočátku zkoušeli pevně dané úkoly, ale brzy zjistili, že když člověka konverzace baví a je do ní vtažen, kvalita signálů z mozku se výrazně zvyšuje.
Cílem je zachytit ten moment, kdy v hlavě zformulujete myšlenku, ale ještě jste ji nevyslovili. Tým se snaží o precizní časové sladění mezi tím, co člověk říká (audio), co píše (text), a tím, co se v tu chvíli děje v jeho neurální síti. Je to vlastně takový překladač, kde na jedné straně je elektrická aktivita mozku a na druhé srozumitelný text.
Když objem dat porazí technický šum
Technická stránka věci byla pro tým obrovskou výzvou. Protože na trhu neexistoval hardware, který by splňoval jejich požadavky, museli si “sluchátka” vyrobit sami pomocí 3D tisku. Vznikly tak masivní, téměř dvoukilové helmy osazené špičkovými senzory EEG (měří elektrickou aktivitu) a fNIRS (měří okysličení krve v mozku). Vypadají sice neohrabaně, ale pro trénink modelu je nutné pokrýt co největší plochu hlavy.

Zajímavým zjištěním bylo, jak se vypořádali s rušením. Elektrická síť v budově vytvářela v datech šum (typických 60 Hz). Zkoušeli všechno možné – od gumového obložení až po napájení celého studia jen z baterií, což bylo logistické peklo. Nakonec ale zjistili fascinující věc typickou pro moderní AI: jakmile měli dostatek dat (kolem 4 000 až 5 000 hodin), model se naučil tento šum ignorovat. Kvantita dat v tomto případě zvítězila nad sterilní čistotou laboratorního prostředí.
Vlastní hardware a efektivní sběr dat
Celý projekt je také ukázkou toho, jak efektivně řídit náklady při vývoji AI. Conduit dokázal mezi květnem a říjnem snížit náklady na jednu hodinu použitelných dat o 40%. Dokázali to díky chytrému systému, který v reálném čase odhaluje zkažené nahrávky, a dynamickému systému rezervací, který zajišťuje, že jejich drahé helmy nezahálejí a jsou využívány 20 hodin denně.
Nyní, když mají data nasbíraná, se pozornost přesouvá čistě na trénování modelů. Finální produkt pro koncové uživatele nebude ta obří helma, kterou používali při sběru dat. Díky takzvaným ablačním studiím (metoda pokus-omyl, kdy se zjišťuje, které senzory jsou zbytečné) plánují vytvořit mnohem lehčí a elegantnější zařízení pro běžné nošení.
Zdroje: Tom’s Hardware