Computers die uw taal spreken

Iwanttoflyfrom BostontoMilwaukeenext
zaterdagformyisters
verjaardag en ik wil niet stoppen
Chicago en ik wil niet
betaal meer dan vierhonderd dollar
en het feest begint om drie uur dus ik
moet er voor die tijd zijn.





Zeg dat vriendelijk tegen een menselijke luchtvaartagent, en hij of zij zal uw woorden snel ontwarren en vluchten vinden die aan uw criteria voldoen. Zeg het echter tegen de geautomatiseerde reserveringslijn van de luchtvaartmaatschappij, en het enige dat u waarschijnlijk zult krijgen, is een vrolijke digitale stemintoning. Sorry, dat heb ik niet verstaan.

Geef de stem niet de schuld. Zelfs als we aannemen dat de computers van de luchtvaartmaatschappij de onleesbare woorden, het achtergrondgeluid en het Boston-accent hebben overwonnen om het verzoek in nauwkeurige tekst om te zetten, heeft geen enkel taalverwerkingssysteem de rekenkracht om uw prijs- en routeringsbeperkingen te begrijpen, irrelevante zaken te negeren, zoals het feit dat zaterdag is de verjaardag van je zus, en begrijp dat als het feest om 15.00 uur begint, je niet geïnteresseerd bent in vluchten die om 16.00 uur in Milwaukee aankomen.

Als computers zou kunnen dergelijke routinematige verzoeken in natuurlijke taal te begrijpen en erop te reageren, zouden de resultaten win-win zijn: luchtvaartmaatschappijen zouden niet zoveel agenten hoeven in te huren en consumenten zouden niet hoeven te worstelen met de verwarring van touch-tone-interfaces die hen woedend achterlaten op de 0-knop tikken, tevergeefs proberen een live-operator te bereiken.



Futuristen stellen zich zo'n wereld voor sinds minstens 1968, toen 2001: A Space Odyssey's HAL 9000 werd de archetypische spraak-interactieve computer. Academische en bedrijfsonderzoekers die geïntrigeerd waren door de pure koelte van het idee, sleutelen al even lang aan systemen voor het herkennen van en reageren op menselijke spraak. Maar technologieën houden geen stand omdat ze cool zijn: ze hebben een zakelijke noodzaak nodig. Voor taalverwerking zijn het de enorme kosten van live klantenservice die de technologieën eindelijk uit het laboratorium verdrijven. Simpele druk op of zeg een 'telefoonboompjes' gaan snel naar de schroothoop, aangezien bedrijven zoals Nuance Communications en SpeechWorks eerder concurrerende strategieën samensmelten tot software die de bedoeling achter de natuurlijk gesproken of geschreven verzoeken van mensen afleidt. Grote luchtvaartmaatschappijen, banken en bedrijven in consumentengoederen gebruiken de systemen al, en hoewel de technologie het einde van een gesprek nog niet kan tegenhouden, helpt het bellers met eenvoudige vragen lange wachtrijen te vermijden - en maakt het menselijke agenten vrij om met complexere verzoeken.

Dergelijke verbeteringen hebben natuurlijke-taalsystemen voor explosieve groei opgezet: 43 procent van de Noord-Amerikaanse bedrijven heeft ofwel interactieve voice response-software gekocht voor hun callcenters of voert pilootstudies uit, volgens Forrester Research, een technologie-analysebedrijf. Naarmate meer bedrijven hun oude telefoonmenu's met druktoetsen vervangen, zal de huidige markt voor telefoongebaseerde spraaktoepassingen van $ 500 miljoen groeien tot $ 3,5 miljard in 2007, volgens Steve McClure, een vice-president in de softwareonderzoeksgroep bij marktanalysebedrijf IDC. Zo installeerde Bell Canada eind 2002 een voice response-systeem van 4,5 miljoen dollar, gebouwd door het in Menlo Park, CA gevestigde Nuance. Op basis van de resultaten die we zien, zal het werkelijke rendement op de investering slechts ongeveer 10 maanden duren, zegt Belinda Banks, associate director customer care bij Bell Canada. Over het algemeen verwacht het bedrijf dit jaar alleen al $ 5,3 miljoen aan klantenservicekosten te besparen.

En dit is pas de eerste fase in de implementatie van taalverwerkingssystemen. Bedrijven zoals SpeechWorks van Nuance en Boston, de twee marktleiders op het gebied van interactieve voice response-systemen, slagen deels omdat ze hun technologieën hebben afgestemd op smalle domeinen, zoals reisinformatie, waar de woordenschat en concepten die ze moeten beheersen beperkt zijn. Zelfs nu dergelijke systemen de niche van de klantenservice overnemen, gaan andere bedrijven nog steeds de uitdaging aan van echt begrip van natuurlijke taal. Als onderzoeksinspanningen bij IBM en het Palo Alto Research Center (PAARC) bijvoorbeeld vruchten afwerpen, kunnen computers binnenkort bijna elk gesprek interpreteren of bijna alle informatie ophalen die een internetgebruiker wil, zelfs als deze is opgesloten in een videobestand of een vreemde taal die markten opent waar mensen kennis zoeken via computernetwerken. Voorspelt IDC's McClure, terwijl de GUI [grafische gebruikersinterface] de interface was voor de jaren negentig, de NUI, of natuurlijke gebruikersinterface, de interface voor dit decennium zal zijn.



Wat zeg je?

Het bouwen van een echt interactief klantenservicesysteem zoals dat van Nuance vereist oplossingen voor elk van de belangrijkste uitdagingen bij de verwerking van natuurlijke taal: het nauwkeurig omzetten van menselijke spraak in machineleesbare tekst; het analyseren van de woordenschat en structuur van de tekst om betekenis te extraheren; het genereren van een verstandige reactie; en antwoorden met een menselijk klinkende stem.



Wetenschappers van het MIT, de Carnegie Mellon University en andere universiteiten, evenals onderzoekers van bedrijven als IBM, AT&T en het Stanford Research Institute (nu SRI International), worstelen al tientallen jaren met het eerste deel van het probleem: het omzetten van het gesproken woord in iets waarmee computers kunnen werken. De eerste praktische producten kwamen begin jaren negentig in de vorm van spraakherkenningsprogramma's voor consumenten, zoals IBM's Voice Type, die dicteren, maar gebruikers dwongen na elk woord te pauzeren, waardoor de acceptatie werd beperkt. Halverwege de jaren negentig was de technologie gevorderd en leidde dit tot dicteersystemen zoals NaturallySpeaking van Dragon Systems en ViaVoice van IBM, die ononderbroken spraak kunnen transcriberen met een nauwkeurigheid tot 99 procent.

Rond dezelfde tijd maakten een paar wetenschappers zich los van academische en bedrijfslaboratoria om startups te creëren die gericht waren op het aanpakken van de nog complexere problemen - en grotere potentiële markten - van het tweede gebied van taalverwerking, genaamd taalbegrip. Het zijn grotendeels de vorderingen op dit gebied die het veld hebben gepositioneerd voor zijn echte groeispurt. Deze vooruitgang berust op twee belangrijke realisaties, volgens de Chief Technology Officer van SpeechWorks, Michael Phillips, een voormalig onderzoeker bij MIT's Laboratory for Computer Science. De eerste was dat het weinig zin heeft om naar de maan te reiken - de decennia-oude droom van systemen die in staat zijn tot HAL-achtige algemene gesprekken. Het is een mythe dat mensen op dezelfde manier met machines willen praten als met mensen, zegt Phillips. Mensen willen een efficiënte, vriendelijke, behulpzame machine, niet iets dat hen probeert te laten denken dat ze een gesprek hebben met een mens. Deze veronderstelling vereenvoudigt de taak van het bouwen en trainen van een systeem in natuurlijke taal enorm.

Het tweede besef was dat de tijd was aangebroken om filosofieën te combineren die lang werden vastgehouden door rivaliserende facties in de taalverwerkende gemeenschap. De ene filosofie zegt in wezen dat het begrijpen van spraak een kwestie is van het onderscheiden van de grammaticale structuur, terwijl de andere stelt dat statistische analyse - het matchen van woorden of zinnen met een historische database met spraakvoorbeelden - een efficiënter hulpmiddel is om de betekenis van een zin te raden. Hybride systemen die beide methoden gebruiken, hebben de startups geleerd, zijn nauwkeuriger dan beide methoden op zich.



Maar dit inzicht kwam niet van de ene op de andere dag. Bij MIT had Phillips geholpen bij het ontwikkelen van experimentele software die spraak kon herkennen en, op basis van zijn begrip van grammatica, een verzoek kon begrijpen en logisch kon beantwoorden. Net als andere op grammatica gebaseerde systemen, brak het een zin op in zijn syntactische componenten, zoals onderwerp, werkwoord en object. Het systeem rangschikte deze componenten vervolgens in boomachtige diagrammen die de semantische inhoud van een zin vertegenwoordigden, of interne logica - wie deed wat met wie en wanneer. De software was beperkt tot het helpen van gebruikers bij het navigeren door Cambridge, MA, legt Phillips uit. Je zou zeggen: Waar is het dichtstbijzijnde restaurant?' en het zou zeggen: Wat voor soort restaurant wil je?' Je zou zeggen, Chinees, 'en het zou een plek voor je vinden.

Kort nadat Phillips de technologie van MIT in 1994 in licentie had gegeven en vertrok om SpeechWorks te starten, zagen zowel hij als onderzoekers van concurrent Nuance dat een van hun doeltoepassingen, oproepbesturing, iets meer vereiste. Er zijn bedrijven die 300 verschillende 800-nummers hebben, legt Phillips uit. De klant begrijpt de structuur van de organisatie niet, ze weten gewoon welk probleem ze hebben. Het juiste is om een ​​vraag te stellen, zoals: Wat is het probleem dat je hebt?' Maar vergeleken met een verzoek voor een Chinees restaurant in de buurt, zijn dergelijke vragen gevaarlijk open.

Het probleem wordt moeilijker als je bedenkt dat de dubbelzinnigheid van veel menselijke spraak - denk aan een zin zoals hij het meisje met de telescoop zag - betekent dat veel verzoeken openstaan ​​voor meerdere interpretaties. Er zijn zoveel verschillende manieren waarop iemand met het systeem kan praten dat het onmogelijk is om dat alles in grammatica te behandelen, zegt John Shea, vice-president voor marketing en productbeheer bij Nuance.

SpeechWorks vond uiteindelijk een werkbare oplossing in 2000, toen het de MIT-software koppelde aan een statistische taalverwerkingstechnologie die werd ontwikkeld door AT&T Labs-Research in Florham Park, NJ. Het systeem van AT&T is opgebouwd rond een database met veelvoorkomende zinsfragmenten die zijn ontleend aan tienduizenden opgenomen telefoongesprekken met zowel mens-tot-mens- als mens-tot-machinecommunicatie. Elk fragment in de database wordt gescoord op zijn statistische associatie met een bepaald onderwerp en dienovereenkomstig geclassificeerd. Een fragment zoals oproepen die ik niet heb gedaan, zou bijvoorbeeld sterk kunnen correleren met het onderwerp factureringsvragen over onbekend nummer, en het systeem zou de oproep doorsturen naar een agent die het account van de beller zou kunnen crediteren. Als het systeem niet zeker is van zijn keuze, vraagt ​​het de beller om meer informatie met behulp van spraaksynthesetechnologie. Volgens AT&T leidt het systeem uiteindelijk meer dan 90 procent van de oproepen correct door - een veel hoger slagingspercentage dan bellers ervaren wanneer ze zelf door ouderwetse telefoonbomen navigeren.

Nuance heeft een soortgelijk systeem ontwikkeld, gebaseerd op technologie van SRI, dat grammaticale of statistische methoden of beide kan gebruiken om betekenis te extraheren uit de spraak van een beller. We gebruiken verschillende benaderingen, afhankelijk van de behoeften van de klant, zegt Felix Gofman, productmarketingmanager bij Nuance. Je kunt mixen en matchen. Op een specifiek gebied, zoals bankieren, zijn de onderwerpen en woordenschat van de vragen van bellers beperkt en kan het systeem uitsluitend werken met vooraf gedefinieerde lijsten van wat klanten zouden kunnen zeggen. Voor nieuwe of bredere velden, zoals het bestellen van telefoondiensten, slaat het systeem elke vraag die het hoort op in een database en gebruikt vervolgens statistische technieken om nieuwe vragen te vergelijken met oude items in een zoektocht naar waarschijnlijke overeenkomsten, waardoor de nauwkeurigheid in de loop van de tijd wordt verbeterd.

De callcentertechnologie van SpeechWorks wordt gebruikt door uiteenlopende ondernemingen als Office Depot, de U.S. Postal Service, Thrifty Car Rental en United Airlines. Maar het bedrijf dat de technologie het dichtst bij zijn grenzen duwt, is Amtrak. Reizigers die het geautomatiseerde telefoonsysteem van Amtrak bellen, kunnen niet alleen treinschema's krijgen, maar ook reserveringen boeken en tickets van hun creditcard afschrijven. Toen we vertrokken, was het primaire doel om de klanttevredenheid te verhogen, zegt Matt Hardison, hoofd verkoop, distributie en klantenservice van de spoorwegen. Maar als bonus, zegt hij, betaalde de besparing op arbeidskosten Amtrak's investering van $ 4 miljoen in de technologie binnen 18 maanden terug.

Nuance heeft ondertussen grote klanten in de financiële en telecommunicatiesector, waaronder Schwab, Sprint PCS en Bell Canada. British Airways vertelde het bedrijf dat na de implementatie van Nuance-spraakherkenningssystemen vorig jaar, de gemiddelde kosten per klantoproep zijn gedaald van $ 3,00 naar $ 0,16. En volgens Bell Canada's Banks gebruikte 40 procent van de klanten om uit te schakelen of om een ​​live-operator te vragen, terwijl ze door de toetstoontelefoonboom van het bedrijf navigeerden. Tussen de implementatie van het systeem door het bedrijf in december 2002 en maart 2003 daalde dat aantal tot 15 procent, zegt Banks.

Een dieper begrip

Ondanks al hun succes begrijpen deze systemen in geen enkel opzicht echt wat ze horen. Ze behandelen alleen grammaticale regels, waarschijnlijkheden en opgeslagen voorbeelden. Ze blinken uit juist omdat hun makers zich hebben afgekeerd van de zoektocht naar een systeem dat intelligent genoeg is om een ​​boek te lezen en samen te vatten of een algemeen gesprek te voeren.

Maar andere onderzoekers behouden een bredere kijk op de mogelijkheden voor natuurlijke taalverwerking. Net als Ron Kaplan, een research fellow bij PARC die veel van de grammaticale basistheorie achter veel van de huidige natuurlijke-taalsystemen heeft ontwikkeld, bouwen ze software die een veel grotere verscheidenheid aan input aankan - van krantenverhalen tot de ongeorganiseerde massa van multimedia informatie op het web. Kaplan is kritisch over wat hij de oppervlakkige methoden noemt die worden gebruikt voor nichetoepassingen zoals call-steering. Vergeleken met het alternatief - het in stand houden van een dure staf van menselijke klantenservicemedewerkers - zijn ze eigenlijk niet slecht, zegt hij. Maar vergeleken met wat je zou willen, stinken ze. Een effectievere interface in natuurlijke taal, zegt Kaplan, zou de noodzaak elimineren om de systemen zorgvuldig aan te passen en gebruikers in staat te stellen vrijuit te spreken of te schrijven.

Twee problemen die die visie in de weg staan, volgens Kaplan, zijn dat de databases met taalvoorbeelden waarop eenvoudiger systemen putten, te klein zijn, en dat de statistische algoritmen die ze gebruiken zijn ontworpen om de dubbelzinnigheid in veel van wat mensen zeggen weg te nemen, zo snel als mogelijk op de meest waarschijnlijke betekenis. Kaplan is van mening dat als deze dubbelzinnigheid te snel wordt geëlimineerd, de juiste betekenis van een uiting - vooral een lange of complexe zin - verloren kan gaan. Daarom heeft hij de afgelopen tien jaar gewerkt aan een grammaticagestuurd systeem, de Xerox Linguistic Environment genaamd, dat in feite probeert beschermen meerduidigheid. Het systeem analyseert een uiting in elk mogelijk zinsdiagram dat is toegestaan ​​onder een set van 314 regels die de relaties tussen verschillende woordsoorten regelen (PAARC-onderzoekers hebben de regels in drie jaar handmatig samengesteld). Een complexe zin met 40 of meer woorden kan bijvoorbeeld op wel 1000 verschillende manieren worden geïnterpreteerd.

De grammaticale analyse van het systeem is zo grondig dat het gemiddeld 75 procent van de logische relaties in een zin correct vastlegt, wat eigenlijk heel hoog is in vergelijking met wat de meeste statistische methoden doen, zegt Kaplan. Die nauwkeurigheid kan worden verhoogd tot ongeveer 80 procent als de software gebruik maakt van die statistische methoden en elke mogelijke interpretatie vergelijkt met vergelijkbare diagrammen in een getrainde database - in het geval van de PARC-software, een opslag van honderdduizenden nauwkeurige diagrammen van getekende zinnen van Wall Street Journal Lidwoord.

Kaplan is van plan om het systeem eerst uit te rollen op de enorme digitale kennisbank van Xerox over reparatietechnieken voor kopieerapparaten, die voortdurend wordt geraadpleegd en bijgewerkt door de veldtechnici van het bedrijf. Daar zal het duizenden individuele inzendingen vergelijken om overtolligheden en tegenstrijdigheden uit te bannen. Het kan zijn dat veel technici dezelfde oplossing hebben gevonden voor een veelvoorkomend probleem, zoals het vervangen van de drum van een kopieerapparaat, legt Kaplan uit. Je krijgt een heleboel inzendingen die hetzelfde zeggen, alleen op verschillende manieren. Door dergelijke redundantie automatisch te vinden en weg te werken, voegt hij eraan toe, kunnen technici minder tijd besteden aan het uitzoeken van opties. De software zou uiteindelijk ook de kern kunnen worden van een geavanceerd systeem voor het vertalen van documenten in verschillende talen - een taak die vooral wordt geplaagd door ambiguïteit ( zie De vertaaluitdaging ).

Voordat een computer opgeslagen informatie, uitgedrukt in natuurlijke taal, kan begrijpen of vertalen, moet hij deze echter vinden. Dat wordt moeilijker naarmate het digitale universum groter wordt. Daarom streeft IBM naar een ambitieus project om natuurlijke taalverwerking toe te passen bij het beheer van ongestructureerde informatie, de massa digitale tekst, afbeeldingen, video en audio die is opgeslagen op computernetwerken. Een groot deel van IBM's activiteiten berust op zijn databaseproduct, DB2, maar een traditionele database kan alleen informatie ophalen die al is georganiseerd en geïndexeerd. IBM wil zakelijke gebruikers en consumenten onmiddellijk toegang geven tot de niet-geïndexeerde gegevens die wegkwijnen op miljoenen harde schijven over de hele wereld, waardoor haar dominantie in het beheer van gestructureerd gegevens effectief wordt uitgebreid naar het rijk van ongestructureerde informatie. Om daar te komen, volgt het bedrijf een initiatief dat is ontworpen om verschillende benaderingen voor taalverwerking samen te voegen tot krachtige software die al deze gegevens intelligent kan zoeken, organiseren en vertalen. Het project, de Unstructured Information Management Architecture genaamd, zou de activiteiten van het bedrijf tot ver in het internettijdperk kunnen voeden. Zoals onderzoeksweddenschappen gaan, is dit een grote, zegt Alfred Spector, de senior vice-president van de divisie.

Vertaalsoftware en andere producten die gebruikmaken van de nieuwe architectuur bevinden zich nog in de prototypefase. Maar uiteindelijk, zegt David Ferrucci, de hoofdsoftware-architect van het project, zal de architectuur IBM helpen systemen te bouwen die de nieuwste informatie die een gebruiker wil uit elke digitale bron, in elke taal, halen en in georganiseerde vorm leveren. Volgens de Giga Information Group in Cambridge, MA geven Amerikaanse bedrijven al $ 900 miljoen per jaar uit aan bedrijfsinformatieportalen die werknemers helpen de benodigde gegevens te vinden, en de kansen voor IBM en andere bedrijven die software ontwikkelen voor het beheren van ongestructureerde informatie zullen alleen maar toenemen als die informatie stapelt zich op. Er is nu duidelijk een zakelijke grondgedachte om met ongestructureerde data om te gaan, concludeert Spector.

Als de pogingen om met dubbelzinnigheid, ongestructureerde informatie en andere taalcomplexiteiten om te gaan, slagen, zouden we uiteindelijk kunnen stoppen computers als peuters te behandelen en alles wat we zeggen te vereenvoudigen zodat het past bij hun onvolwassen begrip van de wereld. Als die dag aanbreekt, en die zou snel kunnen komen, kunnen consumenten verwachten dat ze bij elke beurt geautomatiseerde spraakinterfaces aantreffen, waardoor ze gewoon Engels (of Frans of Chinees) kunnen gebruiken om met alles te communiceren, van webarchieven tot apparaten en auto's.

En dat zou echt iets zijn om over te praten.

Babel van taalverwerking BEDRIJF TECHNOLOGIE PLAATS AT&T Geautomatiseerde spraakherkenning; natuurlijk klinkende spraaksynthese
New York, NY Plezier Geautomatiseerde e-mailclassificatie en reactie San Francisco, CA, en Jeruzalem, Israël IBM Geautomatiseerde spraakherkenning;
vertaling; standaardarchitecturen voor het beheren van ongestructureerde informatie Armonk, NY Intel Audiovisuele spraakherkenning Santa Clara, CA Inxight Software voor het ontdekken, verkennen en categoriseren van tekstgegevens op bedrijfsnetwerken Sunnyvale, CA iPhrase-technologieën Zoeken in natuurlijke taal op bedrijfswebsites Cambridge, MA Microsoft Grammatica controle; vraaginterfaces; vertaling Redmond, WA Nuance-communicatie Interactieve voice response-systemen voor telefonische klantenservice Menlo Park, CA Onderzoekscentrum Palo Alto Verbeterde algoritmen voor het extraheren van betekenis uit geschreven tekst Palo Alto, CA SpeechWorks Interactieve voice response-systemen voor telefonische klantenservice Boston, MA StreamSage Zoeken in natuurlijke taal en indexering van video- en audiomateriaal Washington, DC

zich verstoppen