211service.com
Machine learning verbetert de transcriptiemogelijkheden van Arabische spraak
Geleverd door Qatar Stichting
Dankzij de vooruitgang in spraak- en natuurlijke taalverwerking, is er hoop dat u op een dag uw virtuele assistent kunt vragen wat de beste salade-ingrediënten zijn. Momenteel is het mogelijk om je thuisgadget te vragen muziek af te spelen of te openen via spraakopdracht, een functie die al op veel apparaten wordt aangetroffen.
Als je Marokkaans, Algerijns, Egyptisch, Soedanees of een van de andere dialecten van de Arabische taal spreekt, die enorm verschillen van regio tot regio, waarvan sommige onderling onverstaanbaar zijn, is het een ander verhaal. Als uw moedertaal Arabisch, Fins, Mongools, Navajo of een andere taal met een hoge morfologische complexiteit is, voelt u zich misschien buitengesloten.
Deze complexe constructies intrigeerden Ahmed Ali om een oplossing te vinden. Hij is hoofdingenieur bij de groep Arabic Language Technologies van het Qatar Computing Research Institute (QCRI) - een onderdeel van de Hamad Bin Khalifa University van Qatar Foundation en oprichter van ArabicSpeech, een gemeenschap die bestaat ten behoeve van Arabische spraakwetenschap en spraaktechnologieën.

Hoofdkantoor van Qatar Foundation
Ali raakte gefascineerd door het idee om met auto's, apparaten en gadgets te praten, vele jaren geleden toen hij bij IBM was. Kunnen we een machine bouwen die verschillende dialecten kan begrijpen: een Egyptische kinderarts om een recept te automatiseren, een Syrische leraar om kinderen te helpen de kern van hun les te krijgen, of een Marokkaanse chef-kok die het beste couscousrecept beschrijft? stelt hij. De algoritmen die deze machines aandrijven, kunnen de ongeveer 30 varianten van het Arabisch echter niet doorgronden, laat staan ze begrijpen. Tegenwoordig werken de meeste spraakherkenningstools alleen in het Engels en een handvol andere talen.
De pandemie van het coronavirus heeft de al toenemende afhankelijkheid van spraaktechnologieën verder aangewakkerd, waarbij de manier waarop natuurlijke taalverwerkingstechnologieën mensen hebben geholpen om te voldoen aan de richtlijnen voor thuisblijven en fysieke afstandsmaatregelen. Hoewel we spraakopdrachten hebben gebruikt om te helpen bij e-commerce-aankopen en om onze huishoudens te beheren, biedt de toekomst nog meer toepassingen.
Miljoenen mensen over de hele wereld gebruiken massale open online cursussen (MOOC) vanwege de open toegang en onbeperkte deelname. Spraakherkenning is een van de belangrijkste functies in MOOC, waar studenten binnen specifieke gebieden in de gesproken inhoud van de cursussen kunnen zoeken en vertalingen via ondertiteling mogelijk maken. Spraaktechnologie maakt het digitaliseren van colleges mogelijk om gesproken woorden als tekst weer te geven in universitaire klaslokalen.

Ahmed Ali, Hamad Bin Kahlifa Universiteit
Volgens een recent artikel in het tijdschrift Speech Technology zal de markt voor spraak- en spraakherkenning tegen 2025 naar verwachting 26,8 miljard dollar bereiken, aangezien miljoenen consumenten en bedrijven over de hele wereld op spraakbots gaan vertrouwen, niet alleen voor interactie met hun apparaten of auto's, maar ook om de klantenservice te verbeteren, innovaties in de gezondheidszorg te stimuleren en de toegankelijkheid en inclusiviteit te verbeteren voor mensen met gehoor-, spraak- of motorische beperkingen.
In een onderzoek uit 2019 voorspelde Capgemini dat in 2022 meer dan twee op de drie consumenten zouden kiezen voor spraakassistenten in plaats van bezoeken aan winkels of bankfilialen; een aandeel dat terecht zou kunnen stijgen, gezien het thuisgebaseerde, fysiek afstandelijke leven en de handel die de epidemie de wereld gedurende meer dan anderhalf jaar heeft opgedrongen.
Desalniettemin slagen deze apparaten er niet in om grote delen van de wereld te bereiken. Voor die 30 soorten Arabisch en miljoenen mensen is dat een flink gemiste kans.
Arabisch voor machines
Engels- of Franstalige stemrobots zijn verre van perfect. Toch is het om verschillende redenen bijzonder lastig om machines Arabisch te leren begrijpen. Dit zijn drie algemeen erkende uitdagingen:
- Gebrek aan diakritische tekens. Arabische dialecten zijn volkstaal, zoals in de eerste plaats gesproken. De meeste beschikbare tekst is niet-diakritisch, wat betekent dat er accenten ontbreken, zoals de acute (´) of ernstige (`) die de klankwaarden van letters aangeven. Daarom is het moeilijk om te bepalen waar de klinkers heen gaan.
- Gebrek aan middelen. Er is een gebrek aan gelabelde gegevens voor de verschillende Arabische dialecten. Gezamenlijk missen ze gestandaardiseerde orthografische regels die dicteren hoe een taal moet worden geschreven, inclusief normen of spelling, woordafbreking, woordafbrekingen en nadruk. Deze middelen zijn cruciaal voor het trainen van computermodellen, en het feit dat er te weinig van zijn, heeft de ontwikkeling van Arabische spraakherkenning belemmerd.
- Morfologische complexiteit. Arabisch sprekenden houden zich bezig met veel codewisselingen. In de door de Fransen gekoloniseerde gebieden - Noord-Afrika, Marokko, Algerije en Tunesië - bevatten de dialecten bijvoorbeeld veel geleende Franse woorden. Dientengevolge is er een groot aantal zogenaamde niet-vocabulaire woorden, die spraakherkenningstechnologieën niet kunnen doorgronden omdat deze woorden niet Arabisch zijn.
Maar het veld beweegt razendsnel, zegt Ali. Het is een gezamenlijke inspanning van veel onderzoekers om het nog sneller te laten gaan. Ali's Arabic Language Technology-lab leidt het ArabicSpeech-project om Arabische vertalingen samen te brengen met de dialecten die in elke regio inheems zijn. Arabische dialecten kunnen bijvoorbeeld worden onderverdeeld in vier regionale dialecten: Noord-Afrikaans, Egyptisch, Golf en Levantijns. Aangezien dialecten zich echter niet aan grenzen houden, kan dit zo fijnmazig gaan als één dialect per stad; een Egyptische moedertaalspreker kan bijvoorbeeld het Alexandrijnse dialect onderscheiden van zijn medeburger uit Aswan (een afstand van 1000 kilometer op de kaart).
Bouwen aan een technisch onderlegde toekomst voor iedereen
Op dit moment zijn machines ongeveer net zo nauwkeurig als menselijke transcribenten, grotendeels dankzij de vooruitgang in diepe neurale netwerken, een deelgebied van machine learning in kunstmatige intelligentie dat vertrouwt op algoritmen die zijn geïnspireerd op hoe het menselijk brein werkt, biologisch en functioneel. Tot voor kort werd spraakherkenning echter een beetje gehackt. De technologie vertrouwt van oudsher op verschillende modules voor akoestische modellering, het bouwen van uitspraaklexicons en taalmodellering; alle modules die apart moeten worden getraind. Meer recent hebben onderzoekers modellen getraind die akoestische kenmerken rechtstreeks omzetten in teksttranscripties, waardoor mogelijk alle onderdelen voor de eindtaak worden geoptimaliseerd.
Zelfs met deze vooruitgang kan Ali nog steeds geen spraakopdracht geven aan de meeste apparaten in zijn moedertaal Arabisch. Het is 2021 en ik kan nog steeds niet met veel machines in mijn dialect praten, merkt hij op. Ik bedoel, nu heb ik een apparaat dat mijn Engels kan verstaan, maar machinale herkenning van multi-dialectische Arabische spraak is nog niet gebeurd.
Dit mogelijk maken is de focus van Ali's werk, dat heeft geleid tot de eerste transformator voor Arabische spraakherkenning en zijn dialecten; een die tot nu toe ongeëvenaarde prestaties heeft geleverd. Nagesynchroniseerd QCRI Advanced Transcription System, de technologie wordt momenteel gebruikt door de omroepen Al-Jazeera, DW en BBC om online inhoud te transcriberen.
Er zijn een paar redenen waarom Ali en zijn team er nu in zijn geslaagd deze spraakengines te bouwen. In de eerste plaats, zegt hij, is er behoefte aan middelen voor alle dialecten. We moeten de middelen opbouwen om het model vervolgens te kunnen trainen. Vooruitgang in computerverwerking betekent dat rekenintensief machine learning nu plaatsvindt op een grafische verwerkingseenheid, die snel complexe grafische afbeeldingen kan verwerken en weergeven. Zoals Ali zegt: we hebben een geweldige architectuur, goede modules en we hebben gegevens die de werkelijkheid vertegenwoordigen.
Onderzoekers van QCRI en Kanari AI hebben onlangs modellen gebouwd die menselijke pariteit kunnen bereiken in Arabisch uitgezonden nieuws. Het systeem laat de impact zien van de ondertiteling van de dagelijkse berichten van Aljazeera. Hoewel het Engelse menselijke foutenpercentage (HER) ongeveer 5,6% is, onthulde het onderzoek dat de HER in het Arabisch aanzienlijk hoger is en 10% kan bereiken vanwege de morfologische complexiteit in de taal en het ontbreken van standaard orthografische regels in dialectisch Arabisch. Dankzij de recente vooruitgang in deep learning en end-to-end-architectuur, slaagt de Arabische spraakherkenningsengine erin om beter te presteren dan moedertaalsprekers in uitgezonden nieuws.
Hoewel Modern Standaard Arabisch spraakherkenning goed lijkt te werken, zijn onderzoekers van QCRI en Kanari AI bezig met het testen van de grenzen van dialectische verwerking en het behalen van geweldige resultaten. Aangezien niemand thuis Modern Standaard Arabisch spreekt, is aandacht voor dialect wat we nodig hebben om onze stemassistenten in staat te stellen ons te begrijpen.
Deze inhoud is geschreven door Qatar Computing Research Institute , Hamad Bin Khalifa University, een lid van de Qatar Foundation. Het is niet geschreven door de redactie van MIT Technology Review.
