Biologisch geïnspireerde zichtsystemen

Neurowetenschappers van MIT hebben een computermodel ontwikkeld dat het menselijke zichtsysteem nabootst om objecten in een druk straatbeeld, zoals auto's en motorfietsen, nauwkeurig te detecteren en te herkennen.





Het herkennen van objecten in een scène, zoals de auto in de hier getoonde straatscène, kan een uitdaging zijn voor computers. Een model van hoe de hersenen visuele informatie verwerken, biedt een succesvolle aanpak.

Dergelijke biologisch geïnspireerde zichtsystemen kunnen binnenkort worden gebruikt in bewakingssystemen of in slimme sensoren die bestuurders kunnen waarschuwen voor voetgangers en andere obstakels. Het kan ook helpen bij de ontwikkeling van zogenaamde visuele zoekmachines, zegt Thomas Serre , een neurowetenschapper aan de Centrum voor Biologisch en Computationeel Leren bij MIT's McGovern Institute for Brain Research, die bij het project betrokken was.

Onderzoekers zijn al jaren geïnteresseerd in het kopiëren van biologische zichtsystemen, simpelweg omdat ze zo goed zijn, zegt David Hogg, een computervisie-expert aan de Leeds University in het VK. Dit is een zeer succesvol voorbeeld van [het nabootsen van biologische visie], zegt hij.



Een computer leren om objecten te classificeren is veel moeilijker gebleken dan aanvankelijk werd verwacht, zegt Serre, die het werk uitvoerde met Tomaso Poggio , mededirecteur van het centrum. Enerzijds heeft een computer, om een ​​bepaald type object, zoals een auto, te herkennen een sjabloon of computationele representatie nodig die specifiek is voor dat specifieke object. Met zo'n sjabloon kan de computer een auto onderscheiden van objecten in andere klassen - niet-auto's. Toch moet deze representatie voldoende flexibel zijn om alle soorten auto's te kunnen bevatten, hoe verschillend ook in uiterlijk, onder verschillende hoeken, posities en poses, en onder verschillende lichtomstandigheden.

Je wilt een object overal in het gezichtsveld kunnen herkennen, waar het zich ook bevindt en ongeacht de grootte, zegt Serre. Maar als je afbeeldingen alleen analyseert op basis van hun patronen van lichte en donkere pixels, dan kunnen twee portretafbeeldingen van verschillende mensen er uiteindelijk meer op lijken dan twee afbeeldingen van dezelfde persoon die vanuit verschillende hoeken zijn genomen.

De meest effectieve methode om dergelijke problemen te omzeilen, is door een leeralgoritme op een reeks afbeeldingen te trainen en het de kenmerken te laten extraheren die ze gemeen hebben; twee wielen in lijn met de weg kunnen bijvoorbeeld een auto signaleren. Serre en Poggio geloven dat het menselijke zichtsysteem een ​​vergelijkbare benadering gebruikt, maar een die afhangt van een hiërarchie van opeenvolgende lagen in de visuele cortex. De eerste lagen van de cortex detecteren de eenvoudigere kenmerken van een object, zoals randen, en hogere lagen integreren die informatie om onze perceptie van het object als geheel te vormen.



Om hun theorie te testen, werkten Serre en Poggio samen met Stanley Bileschi, ook aan het MIT, en Lior Wolf, een lid van de computerwetenschapsafdeling van de Universiteit van Tel Aviv in Israël, om een ​​computermodel te creëren met 10 miljoen rekeneenheden, elk ontworpen om zich te gedragen. zoals clusters van neuronen in de visuele cortex. Net als in de cortex zijn de clusters georganiseerd in lagen.

Wanneer het model voor het eerst leert zien, extraheren sommige celachtige eenheden rudimentaire kenmerken uit de scène, zoals georiënteerde randen, door zeer kleine groepen pixels te analyseren. Deze neuronen zijn typisch als gaatjes die naar een klein deel van het gezichtsveld kijken, zegt Serre. Complexere eenheden kunnen een groter deel van het beeld opnemen en kenmerken herkennen, ongeacht hun grootte of positie. Als de eenvoudige eenheden bijvoorbeeld verticale en horizontale randen detecteren, zou een meer complexe eenheid die informatie kunnen gebruiken om een ​​hoek te detecteren.

Met elke volgende laag worden steeds complexere kenmerken uit het beeld gehaald. Dat geldt ook voor relaties tussen kenmerken, zoals de afstand tussen twee delen van een object of de verschillende hoeken waaronder de twee delen zijn georiënteerd. Met deze informatie kan het systeem hetzelfde object vanuit verschillende hoeken herkennen.



Het was een verrassing voor ons toen we dit model toepasten op visuele taken in de echte wereld en het concurreerde goed met de beste systemen, zegt Serre. In sommige tests herkende hun model zelfs gemiddeld meer dan 95 procent van de tijd met succes objecten. Hoe meer afbeeldingen het systeem is getraind, hoe nauwkeuriger het presteert.

Misschien moeten we niet verbaasd zijn, zegt David Lowe , een expert op het gebied van computervisie en objectherkenning aan de University of British Colombia in Vancouver. Het menselijk gezichtsvermogen is veel beter in herkenning dan al onze huidige computersystemen, dus alle hints over hoe verder te gaan vanuit de biologie zullen waarschijnlijk erg nuttig zijn.

Op dit moment is het systeem ontworpen om alleen stilstaande beelden te analyseren. Maar dit sluit heel goed aan bij de manier waarop het menselijke zichtsysteem werkt, zegt Serre. De input naar de visuele cortex wordt gedeeld door een systeem dat zich bezighoudt met vormen en texturen, terwijl een apart systeem zich bezighoudt met beweging, zegt hij. Het team werkt nu aan het integreren van een parallel systeem om video te verwerken.



zich verstoppen