Rozšířená realita? Nový AI model Mety dokáže „rozštěkat“ fotku psa a chce přenášet i pachy

12. květen 2023

Společnost Meta, která provozuje Facebook, Instagram či WhatsApp, oznámila vytvoření nového AI modelu, který dokáže kombinovat data z více rozdílných vstupů – text, zvuk, obraz a data například ze senzorů měřících teplotu, hloubku prostoru nebo pohyb. Zatímco současné nejznámější modely obvykle propojují dva druhy dat, kdy na základě textů dokážou vytvořit například obrázek, model ImageBind se učí propojovat až šest dimenzí.

Čtěte také

Nejnovější model v jednoduché ukázce na webu umí například na základě fotky psa přehrát zvuk štěkání nebo naopak po přehrání zvuků jedoucího vlaku ukáže fotku lokomotivy. Projekt zatím nemá žádné praktické využití a slouží jako základ k určitým pokusům, co by budoucí AI systémy mohly umět.

Petr Koubský, redaktor Deníku N, přichází s domněnkou, proč s něčím takovým přichází právě společnost Meta. Podle něj je hlavním důvodem její zaměření na virtuální realitu.

„Toto je přesně věc, která by se ve virtuální realitě, pokud má fungovat dobře a přesvědčivě, velice hodila. Já soudím, že toto dělají proto, aby to jejich budoucí virtuální prostředí, ve kterém se budou uživatelé pohybovat, bylo co nejvíce podobné reálnému světu, aby dokázal reagovat tak, jako reaguje ‚reálný svět‘,“ říká Koubský.

Ponoření se do umělého světa

Podobné pokusy, jako je kombinace obrázků, textů, zvuků či videa, zkouší i další vývojáři velkých jazykových modelů. U ImageBind jsou ale zajímavá senzorická data či například data z různých měřáků teploty apod.

„Toto by mohlo být velmi zajímavé. Ono se to týká nejenom virtuální reality, ale i toho, čemu se říká rozšířená realita čili prolínání skutečného a virtuálního světa, protože možností, odkud snímat data, je velice mnoho. Nedávno měl značnou publicitu experiment se snímáním elektroencefalogramu a MRI dat z mozku živé osoby, které do určité míry mohly sloužit ke čtení myšlenek, jež potom převáděl do srozumitelné podoby právě velký jazykový model,“ uvádí.

Čtěte také

Podle Koubského je ale důležité o tzv. čtení myšlenek mluvit velmi opatrně, jelikož je na samém počátku a je výsledkem jednoho rozsáhlejšího pokusu, který byl proveden na univerzitě v Texasu. Je ale nutné, aby se takovýto výzkum potvrdil ještě na jiných pracovištích a převedl se do jakési použitelnější formy.

„Pokus se prováděl za pomoci funkční magnetické rezonance a pokusným osobám napřed dlouhé hodiny předčítali texty z podcastů a sledovali změny v mozku. Jazykový model poslouchal souběžně s člověkem daný text a zároveň sledoval ty změny. Když mu potom vypnuli text, tak protože těch změn viděl hodně a protože se zřejmě opakují, když dojde řeč na některé konkrétní pojmy, tak byl schopen s docela slušnou přesností odhadnout, co je právě v předčítaném textu, i když už ho neviděl,“ vysvětluje.

Sci-fi v realitě?

Jde tedy nejen o proces, který je v úplném počátku, ale o nový model, který je velmi složitý a prozatím, jak uvádí Koubský, individuálně vytrénovaný. Není tedy možné přenést učení z jednoho člověka na druhého a je k tomu potřeba mnoho hodin tréninku. „Není to tak, že by někdo někomu přiložil k hlavě přístroj a mohl si na obrazovce přečíst, na co daný člověk myslí. Napřed je potřeba ho desítky hodin na tento pokus chystat,“ říká.

Čtěte také

V blogovém příspěvku k ImageBind se debatuje právě o tom, že chce do budoucna napojit další data jako dotyková čidla, řeč, čidla pachů anebo právě výstup z funkční magnetické rezonance. „Tato cesta výzkumů je velice zajímavá na rozdíl od klasického využití jazykových modelů, které opravdu pracují hlavně s textem a jsou tudíž určeny pro uživatele, kteří sedí u počítače, koukají na obrazovku a ťukají do klávesnice. Toto je ale ponoření do umělého světa,“ dodává.

Poslechněte si celý pořad Online Plus Davida Slížka v audiozáznamu. Dále se dozvíte o konci anonymity na sociálních sítích, o doporučeních, jak by děti měly používat sítě, a o odpadních webech generovaných umělou inteligencí.

autoři: David Slížek , vkry
Spustit audio

Související