De robot-journalisten komen! 2/8

03 Apr 2014
toegevoegd door

Op 17 maart 2014 vond er een kleine aardbeving plaats in de buurt van Beverly Hills, California. De Los Angeles Times was de eerste krant die dit nieuws naar buiten bracht, 3 minuten nadat de beving geregistreerd werd. De schok die dit bericht teweeg bracht in de wereld van de journalistiek was misschien nog wel groter: het artikel was namelijk geschreven door een robot-journalist. Was dit het begin van het einde voor het nieuws zoals wij dat kenden? Zouden “echte” journalisten hiermee overbodig worden?

Afbeelding blog Krahmer 2a

Bron: www.bbc.com

Alle media-aandacht was op twee manieren misleidend: ten eerste, de robot journalisten zijn allang onder ons. En ten tweede, ze gaan journalisten van vlees en bloed dan misschien niet vervangen, ze kunnen het nieuws wel radicaal en op wellicht onvermoede wijze veranderen, zoals ik in deze blog post wil illustreren.

Maar laten we eerst eens kijken wat een robot-journalist nu eigenlijk is. De term roept wellicht het beeld op van een robot, zeg R2-D2, die de trilling registreert met sensoren in zijn “voeten”, en hier direct verslag van uitbrengt bij de dichtstbijzijnde lokale krant. De werkelijkheid is helaas meer prozaïsch: een robot-journalist is niets anders dan een computerprogramma dat data omzet in tekst, en daarbij gebruik maakt van sjabloonteksten. Deze techniek wordt ook wel data-to-text generation genoemd (niet te verwarren met text-to-text generation, waar ik eerder over schreef), en is bepaald niet nieuw.

Op het voormalige Instituut voor Perceptieonderzoek (IPO, TU/e), bijvoorbeeld, werd halverwege de jaren ’90 al aan data-to-text systemen gewerkt in de Taalgroep, onder leiding van Jan Landsbergen. Een van de toepassingen bestond uit het automatisch produceren van voetbalverslagen op basis van teletekstdata, het zogenaamde GoalGetter systeem, dat in het kader van het NWO OVIS project is ontwikkeld op basis van het data-to-speech system D2S.
Afbeelding blog Krahmer 2 klein

Een belangrijke noviteit van GoalGetter was het gebruik van taalkundige zins-templaten: sjablonen, zoals bijvoorbeeld “X scoorde Y”, waarbij X een gat is dat gevuld moet worden met een verwijzing naar een speler (bijvoorbeeld “de aanvaller van Willem II”) en Y een gat dat gevuld moet worden met een beschrijving van een doelpunt (“zijn tweede treffer”). Door de verwijzingen in de gaten te pluggen ontstaat de zin “De aanvaller van Willem II scoorde zijn tweede treffer.”

Door veel templaten te definiëren, en vele manieren toe te staan waarop de gaten in die templaten gevuld kunnen worden, krijgt het systeem de mogelijkheid om een grote variëteit aan teksten te produceren. Deze werkwijze is eigenlijk niet zo verschillend van hoe een sportjournalist een dergelijke verslag zou schrijven; ook die heeft een min of meer vaststaand arsenaal aan frases tot de beschikking, waarmee vrijelijk gevarieerd kan worden. Overigens werkt deze methode niet alleen voor sportdata, maar voor elk domein met gestructureerde data (het weer, financiën, aardbevingen, etc.).

In de afgelopen jaren zijn diverse bedrijven begonnen met het automatisch omzetten van data in nieuwsberichten, waarvan het Amerikaanse Narrative Science wellicht de bekendste is. Voor zover we dat kunnen inschatten lijkt de techniek niet wezenlijk veranderd in de afgelopen 15 jaar. Wat wel nieuw is, is de enorme toename van beschikbare data. Daarin heeft Narrative Science een interessante niche gevonden: het produceert geen verslagen van topwedstrijden, waar gevestigde journalisten al verslag van doen, maar juist van de subtoppers.

Elk weekend worden er in de VS alleen al duizenden officiële baseball-wedstrijden gespeeld, waar geen zichzelf respecterende journalist naar toe wil of kan, maar waarvan wel alle relevante data verzameld en opgeslagen worden (wie speelden? wie scoorde wanneer?, etc.). Het aantal mensen dat in een specifieke wedstrijd geïnteresseerd is en daar een verslag van zou willen lezen is misschien niet zo groot (vooral de spelers zelf, hun familie en andere leden van de club), maar voor alle wedstrijden samen is dat toch een aanzienlijke doelgroep, die niet te bedienen valt met echte journalisten. Een algoritme dat voor elke wedstrijd automatisch een verslag produceert biedt dan uitkomst, en dat is dan ook wat Narrative Science dezer dagen doet

Maar waarom daar stoppen? Waarom zou het algoritme maar één verslag per wedstrijd genereren? Waarom niet aparte verslagen voor de beide teams? Het briljante doelpunt van het winnende team is toch altijd een geluksballetje vanuit het perspectief van het verliezende team (ongeacht of het doelpunt nu objectief gezien het aanzien waard was). En nog een stapje verder: waarom maar één verslag per team? Waarom geen nieuwsverslag voor elke speler afzonderlijk? Oma zal immers het liefst lezen over de sterke individuele acties van haar kleinzoon of -dochter.

Text-to-text generation opent op deze manier de weg naar een volstrekt persoonlijk en subjectief nieuws, iets dat met “echte” journalisten praktisch onmogelijk is, en ook enigszins botst met het ideaal van de objectieve verslaggeving. Het ironische is echter dat bij lezers juist de perceptie lijkt te bestaan dat robot-journalisten betrouwbaarder en objectiever zijn dan die “echte” journalisten.

Dit is het tweede deel in een serie die Emiel Krahmer voor deze blog verzorgt over zijn onderzoek naar menselijke en automatische taalproductie.

Reageer

Uw e-mailadres wordt niet getoond.