Wanneer AI het geluid in videoclips levert, kunnen mensen het verschil niet zien

Machine learning verandert de manier waarop we over afbeeldingen denken en hoe ze worden gemaakt. Onderzoekers hebben machines getraind om gezichten te genereren, tekenfilms te tekenen en zelfs de stijl van schilderijen over te brengen op afbeeldingen. Het is maar een kleine stap van deze technieken naar het maken van video's op deze manier, en dat wordt inderdaad al gedaan.





Dat alles wijst op een manier om virtuele omgevingen volledig machinaal te creëren. Dat opent allerlei mogelijkheden voor de toekomst van de menselijke ervaring.

Maar er is een probleem. Video is niet alleen een visuele ervaring; het genereren van realistisch geluid is net zo belangrijk. Een interessante vraag is dus of machines de audiocomponent van een video overtuigend kunnen genereren.

Vandaag krijgen we een antwoord dankzij het werk van Yipin Zhou en vrienden van de University of North Carolina in Chapel Hill en een paar maatjes van Adobe Research. Deze jongens hebben een machine learning-algoritme getraind om realistische soundtracks te genereren voor korte videoclips.



De geluiden zijn inderdaad zo realistisch dat ze de meeste mensen voor de gek houden door te denken dat ze echt zijn. Jij kan doe hier zelf een test om te zien of je het verschil kunt zien.

Het team hanteert de standaardbenadering van machine learning. Algoritmen zijn altijd maar zo goed als de gegevens die worden gebruikt om ze te trainen, dus de eerste stap is het maken van een grote, hoogwaardige geannoteerde dataset met videovoorbeelden.

Het team maakt deze dataset door een subset van clips te selecteren uit een Google-verzameling genaamd Audioset, die bestaat uit meer dan twee miljoen clips van 10 seconden van YouTube die allemaal audio-evenementen bevatten. Deze video's zijn onderverdeeld in door mensen gelabelde categorieën die zich richten op zaken als honden, kettingzagen, helikopters, enzovoort



Om een ​​machine te trainen moet het team clips hebben waarin de geluidsbron duidelijk zichtbaar is. Dus elke video die audio bevat van gebeurtenissen buiten het scherm is ongeschikt. Het team filtert deze eruit met behulp van crowdsourced-medewerkers van Amazon's Mechanical Turk-service om clips te vinden waarin de audiobron duidelijk zichtbaar is en de soundtrack domineert.

Dat leverde een nieuwe dataset op met meer dan 28.000 video's, elk ongeveer zeven seconden lang, in 10 verschillende categorieën.

Vervolgens gebruikte het team deze video's om een ​​machine te trainen om de golfvormen die bij elke categorie horen te herkennen en deze vanaf het begin te reproduceren met behulp van een neuraal netwerk genaamd SampleRNN.



Ten slotte testten ze de resultaten door menselijke beoordelaars te vragen de kwaliteit van het geluid bij een video te beoordelen en te bepalen of het echt of kunstmatig is gegenereerd.

De resultaten suggereren dat machines behoorlijk goed kunnen worden in deze taak. Onze experimenten laten zien dat de gegenereerde geluiden redelijk realistisch zijn en een goede temporele synchronisatie hebben met de visuele input, zeggen Zhou en co.

En menselijke evaluatoren lijken het daarmee eens te zijn. Evaluaties tonen aan dat meer dan 70% van het gegenereerde geluid van onze modellen mensen voor de gek kan houden door te denken dat ze echt zijn, zeggen Zhou en co.



Dat is interessant werk dat de weg vrijmaakt voor geautomatiseerde geluidsbewerking. Een veelvoorkomend probleem bij video's is dat externe ruis van een bron buiten het scherm een ​​clip kan verpesten. Dus het is handig om een ​​manier te hebben om het geluid automatisch te vervangen door een realistisch, door een machine gegenereerd alternatief.

En met Adobe's betrokkenheid bij dit onderzoek, zal het niet lang duren voordat we dit soort mogelijkheden in commerciële videobewerkingssoftware zien.

Referentie: arxiv.org/abs/1712.01393 : Visueel naar geluid: natuurlijk geluid genereren voor video's in het wild

zich verstoppen