Op weg naar de onvoorspelbare sprekende computer 4/8

20 Jun 2014
toegevoegd door

Geen twee mensen spreken een woord op dezelfde manier uit. Vraag een paar willekeurig Nederlanders om, bijvoorbeeld, het woord “voetbal” uit te spreken (op een neutrale, niet al te enthousiaste manier) en bij elke spreker zal het anders klinken. Iedereen heeft immers een unieke set stembanden, en ook lippen, tong, huig, tanden en gehemelte (kortom: alle articulatoren) verschillen van persoon tot persoon. Dat is handig, want het maakt spreker- of stemherkenning mogelijk.

Verrassender is misschien dat niemand een woord meerdere keren op exact dezelfde manier uitspreekt. Vraag een willekeurige Nederlander om een aantal keren achter elkaar “voetbal” te zeggen, en steeds zal het spraaksignaal net wat anders zijn, al was het maar omdat de luchtstroom en duur van de verschillende uitingen subtiel zal verschillen. Uiteraard is de variatie binnen sprekers kleiner dan de variatie tussen sprekers; anders zou sprekerherkenning onmogelijk zijn. Maar het feit is dat de manier waarop sprekers een woord produceren tot op zekere hoogte onvoorspelbaar is.

shutterstock_139492223

Woordproductie is echter maar een klein onderdeel van spraakproductie in het algemeen. Het hele proces van de intentie om iets te zeggen tot aan de uiteindelijke articulatie (van “mind” naar “mond”, zeg maar) is verbazingwekkend complex. De productie van losse woorden is misschien wel het onderdeel dat we het beste begrijpen, onder meer door uitgebreide studies van de versprekingen die sprekers maken en door het meten van hersenactiviteit tijdens woordproductie.

Een andere bron van informatie over losse woordproductie komt van onderzoek waarin sprekers plaatjes benoemen, zoals in deze studie. In dit type onderzoek wordt aan sprekers een afbeelding van bijvoorbeeld een bal getoond, terwijl er ook een afleidend woord in beeld verschijnt, waarbij de spreker wordt gevraagd om dat woord te negeren (vergelijkbaar met het bekende Stroop effect). De afleider kan een woord zijn dat qua betekenis (“voet”) of qua klank (“dal”) gerelateerd is aan het plaatje. Dergelijke studies hebben laten zien dat sprekers in het eerste geval meer moeite hebben om het juiste woord (“bal”) te produceren dan in het tweede geval, en dat de timing van deze effecten ook verschillend is (het eerste effect treedt eerder op dan het tweede). Mede op basis hiervan wordt aangenomen dat spraakproductie uit meerdere stadia bestaat: een spreker moet eerst bepalen wat hij of zij wil zeggen (dit wordt ook wel “conceptualisatie” genoemd), vervolgens moeten daar de juiste woorden voor gevonden worden (“realisatie”), en die woorden worden ten slotte uitgesproken (“articulatie”).

Zoals gezegd zijn sprekers onvoorspelbaar wanneer ze een woord articuleren, maar hoe zit het met de andere stadia van het spraakproductieproces? Je zou denken dat alle sprekers een bal een “bal” noemen, maar dat is niet het geval: “voetbal” of “speelgoed” zijn immers ook twee correcte manieren om naar een bal te verwijzen, en dat doen sommige sprekers dan ook. Sprekers zijn dus niet per se voorspelbaar wanneer we naar de realisatie van woorden kijken.

De situatie wordt nog complexer wanneer de bal getoond wordt samen met twee andere ballen, die beiden kleiner zijn en een andere kleur hebben (bijvoorbeeld wit in plaats van zwart). Wanneer sprekers nu naar die specifieke bal willen verwijzen volstaat “de bal” niet langer (er zijn er immers drie). Sprekers hebben dan een conceptualisatie-probleem, en moeten een keuze maken: welke eigenschappen van de bal benoemen ze? Er zijn, in essentie, drie mogelijke verwijzende expressies waar sprekers uit kunnen kiezen: “de zwarte bal”, “de grote bal”, en “de grote zwarte bal”. Interessant genoeg komen we hier exact dezelfde onvoorspelbaarheid tegen: sprekers verschillen van elkaar in welke eigenschappen ze benoemen (hoewel kleur vaker gebruikt wordt dan grootte). Sterker nog: sprekers zijn zelfs niet altijd consistent in hun eigen taalgedrag; eerder gemaakte keuzes zijn niet volledig bepalend voor toekomstige keuzes.

Menselijke sprekers zijn dus in allerlei opzichten onvoorspelbaar, en dat is een probleem voor computersystemen die automatisch “menselijke” taal produceren. Computers zijn van nature namelijk zo voorspelbaar als wat; in principe geeft een computerprogramma altijd hetzelfde resultaat voor een bepaalde input, zelfs ongeacht de computer waarop het programma draait. Dat is een van de redenen waarom het doorgaans eenvoudig is om te zien of een nieuwsbericht geschreven is door een robo-journalist of door een exemplaar van vlees en bloed. In het verlengde van het NWO Vici project Bridging the gap proberen we computersystemen te ontwikkelen die net zo onvoorspelbaar zijn als mensen in hun taalgedrag. De kern van het idee is om de computer beslissingen te laten nemen op een statistische manier. Bijvoorbeeld, wanneer zo’n computermodel moet kiezen tussen het benoemen van de kleur of de grootte van een bal, kiest het in (zeg) 80% van de gevallen voor de ene en in 20% van de gevallen voor de andere eigenschap. Diverse studies hebben laten zien dat een computermodel dat werkt volgens een dergelijk, statistisch principe in staat is om beschrijvingen te produceren die in hoge mate overeenkomen met wat mensen doen, omdat de sprekende computer net zo onvoorspelbaar wordt als de menselijke spreker.

shutterstock_93037777

Maar hoe zouden mensen reageren op een sprekende computer die onvoorspelbaar is? Het is bekend dat mensen zeer goed zijn in patronen herkennen, en bovendien de neiging hebben om betekenis te geven aan patronen die eigenlijk betekenisloos zijn. Als een sprekende computer eerst een aantal keer “de zwarte bal” geproduceerd heeft, en vervolgens ineens “de grote bal” gebruikt in een verder identieke context, zou het zomaar kunnen dat menselijke luisteraars denken dat die verandering “iets” betekent (bijvoorbeeld dat de grootte van deze bal om de een of andere reden onze aandacht vraagt).

Maar eigenlijk is het vooral voorspelbaar dat mensen zelfs in hun waardering van een onvoorspelbare sprekende computer soms nogal onvoorspelbaar uit de hoek zullen komen.

Dit is het vierde deel in een serie die Emiel Krahmer voor deze blog verzorgt over zijn onderzoek naar menselijke en automatische taalproductie.

 

 

Reageer

Uw e-mailadres wordt niet getoond.