Machine learning en tekstanalyse: fata morgana of data morgana?

Een goede analyse van teksten kan veel werkprocessen drastisch verbeteren. Machine learning lijkt hierbij een belangrijke rol te kunnen spelen. Maar zoals bij elk visioen geldt de hamvraag: is dit realistisch of is het een fata morgana? Of in dit geval dus een ‘data morgana’? Simon Been, een informatie-specialist, gaat dieper op deze materie in.

Misschien moeten we hiervoor een autoriteit op het gebied van voorspellingen raadplegen: John Lennon. Ongetwijfeld herkent u wat deze Beatle in 1969 zong: 'The way things are going, they're gonna crucify me'. De wereld schudde ervan. Toen ik elf jaar later hoorde dat hij doodgeschoten was, schudde ik zelf. Zijn roem was hem inderdaad fataal geworden, maar dan niet door nagels aan een kruis, maar door kogels. De lering: ook al heb je het bij het juiste eind, het venijn zit in de details. Zo dachten we een tijd lang dat geautomatiseerde tekstanalyse vereiste: de computer onderwijzen hoe hij moet denken, via regeltjes. Nu lijkt het geheim: de computer zelf laten leren zijn eigen regeltjes te maken, op basis van enorme hoeveelheden data. Kortom: Machine Learning + Big Data.

Krachtig

Maar waarom is dat zo belangrijk? Big Data gebruiken is al zo krachtig. Kijk maar naar een andere uitspraak van John Lennon in 1966: 'We're more popular than Jesus now’. Dat lijkt op die vorige, ook qua ophef, maar hij is een stuk lastiger te valideren. Hoe check je of hij gelijk had? Een volksraadpleging op het kerkhof? Daar ligt tenslotte een groot deel van de toenmalige populatie. Een aardige indicatie is er wel te vinden: in het geschreven woord. Dus heb ik voor dit artikel mijzelf opgesloten in een pakhuis vol Engelstalige boeken uit die tijd en geturfd hoe vaak de woorden 'Jesus' en 'Beatles' voorkwamen. De resulterende grafiek (zie figuur 1) spreekt boekdelen: John Lennon zat er verschrikkelijk naast.

Figuur-1 Figuur 1. Analyse van Google Books op de woorden ‘Jesus’ en Beatles’

Ngram Viewer

De kracht van Big Data is hiermee wel bewezen. Laat ik eerlijk zijn: de grafiek in figuur 1 komt uit de Ngram Viewer van Google. Mijn analyse duurde een fractie van een seconde en spitte door 5 miljoen boeken. Big Data rules! Hoewel... wat is nou 5 miljoen boeken? En waarom geen tijdschriften? En brieven (bij gebrek aan internet), TV-journaals, radioprogramma’s? Trouwens, hoe weet ik of 'Jesus' niet gewoon een populaire voornaam is geworden?

Data Morgana

Kortom: tekstanalyse op grond van Big Data is helaas een Data Morgana. Of ga ik nu te snel? Gelukkig ontmoette ik laatst Theo van Veen van de Koninklijke Bibliotheek. De KB is hét Nederlandse kennisinstituut op het gebied van woord, tekst en document. Hij sprak op een zogeheten ‘Heterdaadsessie’ van het Papieren Tijger Netwerk, waarin zo'n 700 informatieprofessionals participeren. En dat komt nu goed van pas, want als er iemand is die weet wat de stand van zaken op dit gebied is, dan is dat Theo van Veen wel. Zijn focus is om de vindbaarheid en bruikbaarheid van digitale content te verbeteren via verrijkingen, machine learning en crowd sourcing.

Dingen herkennen

Het voorbeeld van zoeken naar ‘Beatles’ en ‘Jesus’ geeft een indicatie van zijn werk: allereerst moet je in teksten de namen van ‘dingen’ herkennen. Hoe weet je anders waar het om gaat? Deze ‘named entity recognition’ is een belangrijke stap in de verrijking van de content. Die namen worden geïdentificeerd door ze op te zoeken in een soort thesaurus. Op dit moment is dat bij voorkeur de DBpedia, een hoogst gestructureerde en machineleesbare versie van Wikipedia. Maar ja, die namen zijn ambigu zoals we al zagen met ‘Jesus’. Dus puur vergelijken is niet genoeg, we moeten de juiste namen vinden en wel door context te interpreteren.

Contextinformatie

Nu wordt het interessant. Diezelfde Wikipedia-variant bevat contextinformatie die identificatie van de juiste naam mogelijk maakt. Er kan vervolgens in de onderzochte tekst gelinkt worden naar die context om verdieping mogelijk te maken voor de gebruiker. Zelfs kan die gerelateerde informatie worden mee-geïndexeerd als onderdeel van het object. Ook kan zoeken op basis van semantische relaties mogelijk worden gemaakt. Allemaal vooraf, automatisch en ongevraagd. Theo van Veen hierover: “Gerelateerde informatie moet niet eerst door gebruikers gezocht hoeven te worden, maar moet direct worden aangeboden.” Oftewel: “Onze software moet onze content integraal gelezen en geanalyseerd hebben voor de gebruiker.”

TV-journaal

Een voorbeeld is het matchen van krantenartikelen en transcripten van Polygoon- of televisiejournaals. Er wordt gematcht op tientallen, misschien wel meer dan 100 kenmerken, te beginnen met titel, beschrijving, datum. Er zijn meer kant-en-klare basisingrediënten voor automatische herkenning die gebruikt kunnen worden, zoals een Persoonsnamenthesaurus (Nederlandse Thesaurus van Auteursnamen), onderdeel van het Gemeenschappelijk Geautomatiseerd Catalogiseersysteem, maar Van Veenzet zijn fiches op de Wiki-data.

Veel fouten

Conclusie: software rules! Er worden helaas nog wel veel fouten gemaakt. Ook zit niet alles in DBpedia. En dus is gebruikersfeedback nodig voor correcties, moeten links worden toegevoegd voor niet herkende namen en is extra training van de software vereist. Maar we komen er wel: deep learning, met name via een neuraal netwerk, wordt steeds effectiever als analysevorm, zeker vergeleken met het inmiddels ouderwetse ‘rule based’ learning. Toch geen Data Morgana dus!

Fake news

Overigens: mede-Beatle Paul McCartney is in verband met automatische tekstanalyse misschien nog wel de interessantste. Hij schreef namelijk het nummer 'Back in the USSR' met de gedenkwaardige zin 'Back in the US… back in the US… back in the USSR'. Hoe hij in de zomer van 1968 kon voorzien dat een halve eeuw later Donald Trump aan de macht zou komen in een Russisch voorkomende wolk van populisme, intimidatie en bedrog, mag altijd een raadsel blijven. Feit blijft dat het de interpretatie van teksten niet eenvoudiger maakt. Wat heb je aan al die statistieken en machine-data als ze vol zitten met fake-news?

Gewicht toekennen

Hoewel, misschien kun je de resultaten betrouwbaarder maken door gewichten toe te kennen aan de bronnen: hoe geloofwaardiger de bron, hoe zwaarder de teksten meetellen. Al komen we daarmee wel in het voorbeeld van Paul McCartney – letterlijk – in politieke discussies terecht. Er is wellicht ook een andere oplossing: toen de Beatles 'Back to the USSR’ schreven waren ze in India en gingen ze helemaal op in Transcedentie Meditatie. Wie weet gaf dat Paul wel zijn heldere inzichten. Misschien de volgende stap in machine learning: Transcending Textdata?

Simon Been is directeur van het Papieren Tijger Netwerk, een netwerk van informatie-professionals

Lees ook

T-Systems voorspelt aankomst- en vertrektijden Deutsche Bahn-treinen met data analytics

Deutsche Bahn gaat binnenkort een door T-Systems ontwikkeld systeem in gebruik nemen dat de aankomst- en vertrektijden van treinen voorspelt. Reizigers zien tot 90 minuten van tevoren hoe laat hun trein aankomt. Zo kunnen zij hun reis beter plannen en hun tijd efficiënter indelen. De oplossing maakt onder andere gebruik van machine learning-technologie. Het systeem maakt continu vergelijkingen tussen de dienstregeling en de actuele situatie. Daarbij analyseert het de dienstregelingsdata van meer dan twee miljoen stops per dag van alle Deutsche Bahn-treinen. Deze vergelijkt het met de act1

BullGuard neemt IoT security startup Dojo-Labs over

BullGuard, een Britse leverancier van antivirusoplossingen, neemt de Israëlische startup Dojo-Labs over. Met de overname van Dojo-Labs wil BullGuard zijn portfolio met beveiligingsoplossingen voor het Internet of Things uitbreiden. Dojo-Labs richt zich op de beveiliging van Internet of Things (IoT) apparatuur. Het bedrijf heeft een oplossing ontwikkeld waarmee alle IoT-apparaten op een netwerk worden beschermd. Hierbij zet Dojo-Labs machine learning algoritmes in om nieuwe dreigingen en abnormaliteiten te detecteren en blokkeren. De oplossing kan door gebruikers worden beheerd via een mo1

Nieuw analyticsplatform van Cisco geeft real-time inzicht in datacenters

Cisco introduceert het Tetration Analytics platform. Dit platform verzamelt op grote schaal data over allerlei aspecten van het datacenter en laat hier machine learning op los. Hierdoor levert het platform in real-time actiegedreven inzichten, die beheerders kunnen gebruiken om hun datacenter te optimaliseren. Om inzichten eenvoudig begrijpbaar te maken wordt deze weergegeven in visuals. Het systeem verzamelt per seconden 1 miljoen events, en slaat data voor een periode van een jaar op. Dit maakt het mogelijk historische gegevens te gebruiken om patronen, ontwikkelingen en trends inzichtelijk1