Firma Google vyvíjí neuronovou síť pro obrazovou identifikaci míst na světě

Fotoaparát
Fotoaparát
Tato softwarová platforma se jmenuje PlaNet a přestože zatím není v identifikaci geografických míst příliš absolutně úspěšná, je při plnění “geolokačních” úkolů lepší než většina lidských cestovatelů.

Tým, vyvíjející neuronovou síť PlaNet, je veden odborníkem na počítačové vidění Tobiasem Weyandem. Většina lidí je schopna z fotky určit k ní příslušné zeměpisné místo poměrně snadno tehdy, když fotka obsahuje známé poznávací znaky, tj. nějaký významný motiv, známou stavbu apod. Poznávacími znaky tohoto typu může být např. Velká čínská zeď, Eiffelova věž nebo londýnský Tower.

Pokud však jde o fotky bez známých motivů, např. o různé detailní záběry nebo o fotky pořízené v interiérech, zde úspěšnost lidmi prováděné identifikace klesá. Přesto je možno v řadě případů zaznamenat úspěch, pokud člověk zapojí do procesu své místopisné, přírodovědné a kulturní vědomosti z různých oblastí (tzv. metadata).

Specializovaný tým firmy Google se nedávno rozhodl i na tuto oblast aplikovat metodu tzv. hlubinného učení neuronových sítí, která patří do oblasti umělé inteligence. Příslušný software by se přitom měl zatím obejít bez doplňkových metadat k obrázkům a vystačit si s čístou analýzou obrazových informací, tedy pixelů.

Pro začátek výzkumný tým rozdělil povrch světové souše na asi 26 tisíc segmentů rozdílné velikosti. Velikost jednotlivých segmentů byla přizpůsobena počtu fotografií, které byly v jeho rámci k dispozici. Často fotografované oblasti (jako např. zalidněná města) byly rozděleny na menší segmenty, málo navštěvovaným pustinám byly přiřazeny segmenty větší.

Čtěte také

Tým pak vytvořil obrovskou databázi, sestávající z více než 125 milionů obrázků, jejichž zeměpisná lokalizace byla známa a byla obsažena přímo v jejich Exif datech. 91 milionů z nich bylo použito k vytrénování neuronové sítě PlaNet. Pomocí zbývajících 34 milionů pak došlo k otestování kvality rozpoznávacího algoritmu. Nakonec tvůrci otestovali PlaNet na 2.3 milionu dalších obrázků ze serveru Flickr. Na úrovni přesnosti dané ulice byl PlaNet úspěšný v 3.6 % případů. V 10.1 % Planet určil správně město, zemi původu v 28.4 % a určení světadílu bylo správné v 48 % případů.

Výsledky tedy sice zatím nejsou ohromující, avšak přesto PlaNet v rámci komparativní soutěže v úspěšnosti předčil 10 speciálně vybraných a zkušených lidských cestovatelů. Šlo zde o identifikaci příslušného zeměpisného místa fotek, vybraných ze systému Google Street View, v rámci online kvízové hry GeoGuessr. PlaNet proti lidským protihráčům v této hře vyhrál 28 z 50 kol.

Medián jeho lokalizační chyby byl zhruba dvakrát menší než v případě lidských soutěžících (1131.7 km oproti 2320.75 km). PlaNet přitom zatím nemá žádné vědomosti např. o vegetaci nebo architektuře, vztahující se k jakémukoliv místu na světě. A při svém běhu měl zatím k dispozici pouze 377 MB operační paměti.

Zdroje: MIT Technology Review, Inverse, Gizmodo, Futurism, arXiv.org