Beter en nauwkeuriger zoeken naar afbeeldingen

Onderzoekers van de Universiteit van Californië, San Diego (UCSD), hebben een nieuwe methode voor het zoeken naar afbeeldingen ontwikkeld waarvan ze beweren dat deze de bestaande benaderingen met een aanzienlijke marge overtreft in termen van nauwkeurigheid en efficiëntie. De aanpak van de onderzoekers wijzigt een typische machinale leermethode die wordt gebruikt om computers te trainen om afbeeldingen te herkennen, zegt Nuno Vasconcelos, hoogleraar elektrische en computertechniek aan UCSD. Het resultaat is een zoekmachine die afbeeldingen automatisch labelt met de namen van de objecten erin, zoals radijs, paraplu of zwemmer. En omdat de aanpak gebruik maakt van woorden om delen van afbeeldingen te labelen en te classificeren, leent het zich uitstekend voor de typische zoekopdrachten op trefwoorden die mensen op het web uitvoeren, zegt Vasconcelos.





Foto's zoeken : Een nieuw algoritme ontwikkeld bij UCSD dat woordtags aan afbeeldingen toevoegt, kan de nauwkeurigheid en efficiëntie van het zoeken naar afbeeldingen vergroten. Hierboven wordt aan kenmerken van een afbeelding de kans toegekend dat ze in bepaalde categorieën thuishoren, zoals water of persoon.

Momenteel kan het zoeken naar afbeeldingen op internet met trefwoorden een schot in de roos zijn. Dit komt omdat de meeste op afbeeldingen gebaseerde zoekopdrachten metadata gebruiken - tekst, zoals een bestandsnaam, datum of andere basisinformatie die aan een afbeelding is gekoppeld - die onvolledig, nutteloos voor zoekopdrachten op trefwoorden of helemaal niet kan zijn. Computerwetenschappers werken al meer dan tien jaar aan betere manieren om afbeeldingen te identificeren en ze doorzoekbaar te maken, maar machines zover krijgen dat ze verder gaan dan metadata en bepalen welke objecten op een afbeelding staan, is een moeilijk op te lossen probleem, en de meeste inspanningen tot nu toe hebben slechts matig succesvol geweest.

Hoewel het UCSD-onderzoek het probleem niet volledig oplost, verbetert het de prestaties en efficiëntie voor een bepaalde aanpak, zegt Vasconcelos, en het identificeert enkele beperkingen in de manier waarop mensen het probleem aanpakten.



De aanpak die de onderzoekers hebben aangepakt, wordt content-based genoemd en omvat het beschrijven van objecten in een afbeelding door functies zoals kleur, textuur en lijnen te analyseren. Deze objecten kunnen worden weergegeven door sets van kenmerken en vervolgens worden vergeleken met de sets die uit andere afbeeldingen zijn gehaald. Functies worden beschreven aan de hand van hun statistieken en de computer zoekt naar statistisch waarschijnlijke overeenkomsten.

Multimedia

  • Afbeeldingen zoeken

Het nieuwe onderzoek is gebaseerd op deze aanpak, maar voegt een tussenstap toe, zegt Pedro Moreno, een Google-onderzoeksingenieur die aan het project heeft gewerkt. Moreno legt uit dat deze nieuwe stap een semantisch label biedt, of een woordtag die objecten in afbeeldingen beschrijft in plaats van alleen te vertrouwen op reeksen getallen.

Overweeg bijvoorbeeld om een ​​afbeelding van een hond op een grasveld in te sturen. De objecten op de afbeeldingen worden geanalyseerd en vergeleken met resultaten voor bekende categorieën objecten, zoals honden, katten of vissen. Vervolgens geeft de computer een statistische analyse die de kans geeft dat een plaatje bij die categorieën past. Het systeem kan de foto scoren met een kans van 60 procent dat het hoofdobject een hond is en een kans van 20 procent dat het een kat of een vis is. De computer is dus van mening dat de afbeelding naar alle waarschijnlijkheid een afbeelding van een hond bevat. Het belangrijkste idee is om afbeeldingen in deze semantische ruimte weer te geven, zegt Moreno. Dit lijkt de prestaties aanzienlijk te verbeteren.



Het systeem van de onderzoekers verwierf zijn expertise door te worden blootgesteld aan duizenden foto's met objecten zoals bergen, bloemen, mensen, water en tijgers, evenals de semantische tags die overeenkwamen met de objecten. Vervolgens testten de onderzoekers hoe goed het systeem presteerde door het bloot te stellen aan nieuwe afbeeldingen met objecten die nog niet waren gelabeld. In vergelijking met de beschrijving van een scène door een mens, deed het systeem het goed: een foto van een tijger in hoog gras zette het systeem ertoe aan kat, tijger, planten, blad en gras te vinden. Een door mensen gemaakt bijschrift omvatte kat, tijger, bos en gras. En toen de onderzoekers de tags van hun systeem vergeleken met meer typische op inhoud gebaseerde benaderingen, ontdekten ze dat het ongeveer 40 procent beter deed. Met andere woorden, het leverde minder woorden op die niet van toepassing waren op het beeld.

Larry Zitnick, een onderzoeker op het gebied van afbeeldingen zoeken bij Microsoft, zegt dat het onderzoek de grenzen verlegt van op inhoud gebaseerd zoeken om te zien hoe goed het kan werken. Wat ze doen, is analyseren hoe ver we kunnen gaan op basis van [een afbeelding zoeken naar objecten], en dat is echt goed wat betreft het verleggen van de grenzen. Hij vermoedt ook dat de aanpak goed zou kunnen werken voor grote sets afbeeldingen, zoals die op internet.

Zitnick voegt eraan toe dat de UCSD-resultaten geweldig kunnen zijn voor bepaalde soorten eenvoudige zoekopdrachten naar objecten in afbeeldingen. Het zou echter niet werken voor andere zoekopdrachten, zoals het onderscheiden van het Amerikaanse Capitool van het State Capitol-gebouw in Lincoln, NE. Visuele problemen zijn erg moeilijk en ik denk niet dat één oplossing alles zal oplossen, zegt Zitnick.



De aanpak van de onderzoekers kan echter nuttig zijn als ze worden geïntegreerd in bestaande zoeksoftware, zegt Chuck Rosenberg, een Google-software-engineer die werkt aan het zoeken naar afbeeldingen. Indien opgenomen in desktop-zoekopdrachten, zou de aanpak mensen in staat kunnen stellen om naar afbeeldingen te zoeken op basis van de gelijkenis van uiterlijk. Maar het zou mensen niet per se helpen om foto's te vinden die gebaseerd zijn op meer obscure concepten zoals geluk. Rosenberg zegt bijvoorbeeld dat ik misschien een foto wil van een gelukkig gezin dat een avondwandeling maakt om op een kaart te zetten die ik aan het maken ben. Voor een computer om die foto echt te vinden op basis van de inhoud van de afbeelding alleen … gaat de huidige technologie te boven.

Vasconcelos van UCSD vermoedt dat het meer dan vijf jaar zal duren voordat computers in staat zijn om moeilijkere concepten, zoals geluk, in foto's te identificeren. Maar dat betekent niet dat huidig ​​onderzoek voor die tijd niet nuttig zal zijn, zegt hij. De verwachting moet zijn dat [de technologie] meer als een hulpmiddel is, niet als een antwoord.

zich verstoppen