Automatische taalgeneratie en de bibliotheek van Babel 1/8

10 Mar 2014
toegevoegd door

Afbeelding blog Krahmer 1 klein

In het intrigerende verhaal De bibliotheek van Babel (La biblioteca de Babel, 1941) beschrijft Jorge Luis Borges een bibliotheek waar elk denkbaar boek te vinden is. De bibliotheek “bestaat uit een onbepaald en misschien oneindig aantal zeshoekige galerijen, met in het midden immense luchtkokers die zijn omringd door zeer lage balustrades. Vanuit iedere zeshoek zijn de lagere en hogere verdiepingen te zien: eindeloos.” In elke galerij staat tegen vier muren een boekenkast met 5 planken, met op ieder plank 32 identiek-ogende boeken. Dat zijn dus 640 boeken per zeshoekige leeszaal. Elk boek in de bibliotheek is uniek; geen twee boeken hebben exact dezelfde inhoud. Het is de verkeerde vraag, maar als lezer stel je deze onwillekeurig toch: wie heeft al die boeken geschreven?

Aan dit verhaal moest ik denken toen ik voor het eerst las over Philip M. Parker, met afstand de meest productieve auteur van onze tijd. Via Amazon zijn zo’n 100.000 boeken van hem te bestellen (genoeg voor minimaal 150 zalen in de bibliotheek van Babel dus). Daar zitten pareltjes tussen als The 2007-2012 Outlook for Tufted Washable Scatter Rugs, Bathmats, and Sets That Measure 6-Feet by 9-Feet or Smaller in India (vraagprijs $495). Volgens een van de klantrecensies is het een “flawed masterpiece” dat desalniettemin een plek verdient in de persoonlijke bibliotheek van iedereen die geïnteresseerd is in wasbare badkamermatjes in India.

Je kunt je afvragen of het terecht is om Parker een auteur te noemen. We verwachten doorgaans dat een auteur bij het schrijven van een boek een min of meer creatieve handeling uitvoert. Bij Parker ligt dat genuanceerder: het creatieve element zit in het computerprogramma dat hij geschreven heeft, en dat automatisch “zijn” boeken produceert. De computers van Parker doen dit op basis van publiekelijk beschikbare informatie (bijvoorbeeld over Indiase badmatjes), die zelf weer verpakt kan zijn in een (door een menselijke auteur geschreven) tekst. Net zoals de bibliotheek van Babel veel onzinnige boeken bevat die weinig lezers zullen waarderen (Borges beschrijft een exemplaar dat van de eerste regel tot de laatste alleen de letters M C V met een perverse regelmaat herhaalt), hoeft niet elk boek van Parker een lezer te vinden. Als slechts 1% van zijn 100.000 boeken 1 keer verkocht wordt, levert dat toch al een aardig bedrag op.

De techniek die Parker ontwikkelde is een voorbeeld van wat ook wel tekst-naar-tekst generatie wordt genoemd: het op basis van bestaande teksten automatisch produceren van een vlot lezende nieuwe tekst. Een ander, meer recent voorbeeld is The Long Good Read, een volledig “door robots” vormgegeven krant, vol automatisch geselecteerde, recent gepubliceerde artikelen uit The Guardian (geschreven door menselijke journalisten). Tekst-naar-tekst generatie heeft nog allerlei andere (deels gerealiseerde) toepassingen, variërend van het fuseren en samenvatten van gerelateerde berichten om die zo overzichtelijker en compacter aan de lezer te kunnen presenteren, tot aan het vereenvoudigen van ingewikkelde teksten om ze toegankelijker te maken voor laaggeletterde lezers.

Tekst-naar-tekst generatie werkt dus bij de gratie van eerder, door mensenhanden, geschreven teksten, en dat is meteen de belangrijkste beperking van deze methode: het is niet mogelijk om op deze manier een nieuwe tekst (hoe triviaal ook) te produceren. Met andere woorden: hiermee wordt de computer nooit een auteur, in de creatieve zin van het woord. Daarvoor is een andere techniek nodig, die overigens ook in detail beschreven wordt in een boek ergens in de bibliotheek van Babel. Om u het zoeken te besparen, vertel ik daar graag meer over in mijn volgende bericht.

Dit is het eerste deel in een serie die Emiel Krahmer voor deze blog verzorgt over zijn onderzoek naar menselijke en automatische taalproductie

Reageer

Uw e-mailadres wordt niet getoond.