Elektronische Incunabelen

uitgesproken bij de aanvaarding
van het ambt
van hoogleraar Alfa-Informatica
aan de Rijksuniversiteit Groningen
door dr. ir. John Nerbonne
op dinsdag, 19 september 1995


[Incunabulum]

Mijnheer de Rector Magnificus,

Zeer gewaardeerde toehoorders,

De ontginning van nieuwe media

H oe is het om de ontginning van nieuwe media mee te maken? Hoe voelt het om een revolutie in media te beleven, een revolutie in de normale manier van communiceren, van presenteren, en van intellectueel werken? De volgende ontwikkelingen zijn algemeen bekend: Hoewel men de huidige situatie onmiddellijk herkent, is deze lijst echter uit een andere reflectie ontstaan. De stellingen komen van Elisabeth Eisenstein, die de ontginning van een ander medium onderzocht in een terecht beroemd werk: The Printing Press as an Agent of Change [Eisenstein 1979]. De ontwikkelingen die we vandaag onmiddellijk verbinden met de invoer van elektronische media, waren in de Renaissance net zo brisant met betrekking tot de pas uitgevonden boekdrukkunst: Als men Eisenstein leest, valt het op dat de belangrijkste gevolgen van de uitvinding van de drukkunst niet in eerste plaats waren te zien bij individuele lezers en teksten. Deze waren er ook, maar het revolutionaire was cultureel: het invoeren van een nieuw communicatiemiddel, het scheppen van een nieuwe gemeenschap van schrijvers, lezers en drukkers. Binnen deze gemeenschap waren er zeker nieuwe ervaringen, maar een focus hierop zou het daadwerklijk revolutionaire missen. Dus we hebben al een antwoord op een van de vragen waarmee we zijn begonnen: op het gevoel -- de individuele ervaring -- kwam het niet zozeer aan.

Als men nu overweegt in hoeverre elektronische middelen anders (dan traditionele) kunnen zijn, mag men Eisensteins werk niet uit het oog verliezen. Vaak hoort men dat elektronische informatiedragers toch niet erg verschillen van boeken. Ik neem als voorbeeld de zeer populaire ``hyperteksten'', documenten die ontworpen zijn om in verschillende, niet-vaste volgorde te worden gelezen.(1) Een bekende opmerking hierover maakt het bezwaar dat dit soort document al bestaat (denk aan handboeken of encyclopedieën). Welnu, het bezwaar klopt niet in zijn algemeenheid -- er zijn wel verschillen -- maar normaliter zou men de meeste hyperteksten grotendeels in boekvorm kunnen produceren. Dus is het bezwaar ook niet helemaal onjuist. Dit doet er echter niet toe omdat het het culturele element miskent -- bijv. dat vele lezers van hyperteksten gemakkelijk in staat zijn om eigen uitbreidingen toe te voegen, of om eigen replieken niet alleen te schrijven, maar ook eigenhandig vorm te geven en te distribueren. Zo wordt het verschil tussen producent en consument kleiner. De vraag naar het belang van de computer moet een culturele draai krijgen, net als in de tijd van Gutenberg.(2)


Elektronische incunabelen

[Incunabulum] W ij leven nu in het tijdperk van de ELEKTRONISCHE INCUNABELEN. De incunabelen of ``wiegedrukken'' (van Lat. cuna `wieg') waren de eerste drukwerken -- uit de eerste vijftig jaar na de uitvinding van de drukkerij (omstreeks 1450). De incunabelen waren echte drukwerken met alle voordelen van gedrukte teksten boven handschriften. Maar ze worden vandaag vooral gewaardeerd voor de vele sporen van de nog oudere manuscripttraditie die ze vertonen: relatief groot schrift, initialen (grote, versierde letters aan het begin van hoofdstukken e.d.), diakritische afkortingen, en de stijl van de letters die wordt gebruikt. Het was nog te vroeg om alle voordelen van de drukkunst goed te begrijpen. Het was te riskant om alles te proberen, misschien was het domweg te nieuw: men komt niet onmiddellijk op de geschiktste manieren om de nieuwe technologie in te zetten. Een nieuwe technologie is angstaanjagend genoeg in zijn kleinste vorm: Joachim Furst, Gutenbergs financier, werd uit Parijs verdreven toen hij twaalf identieke bijbels liet zien.(3) Zulke nauwkeurigheid en dan ook nog in zulke aantallen moest het werk van de duivel zijn.

De illustratie aan het begin van dit stuk, die hier nog eens wordt afgebeeld, komt uit een incunabel uit de Groningse collectie, die de fraaie manuscript-traditie toont zoals de boekdrukkunst die laat zien. Het is de eerste bladzijde van Vincent van Beauvois Speculum Naturale Straßburg. ca. 1464-1470 (met wapen van Wilhelmus Frederici).(4)


[Rekenprogramma en rekenmachine]
FIGUUR 1: Het gebruikt van programma's die rekenmachines nabootsen is een tot de verbeelding sprekend voorbeeld van een elektronisch incunabel -- een cultuurprodukt dat niet-functionele elementen van vroegere ontwikkelingsstadia heeft behouden.

Rekenmachines hebben hun moeite met complexe uitdrukkingen omdat ze proberen elk tussenresultaat onmiddellijk te laten zien. De machines met haakjes-knoppen staan complexe expressies weliswaar toe, maar eisen dat men de expressie van links naar rechts in één keer intypt, wat de overzichtelijkheid in de weg staat. Deze voorwaarden zijn bij computer-interfaces al jaren achterhaald, maar de oude zeden leven verder! De expressie (links) kan men dan ook toepassen op een heel bestand van waarden (van expectations en observations, om bijv. een Chi2 waarde te berekenen).

Een vergelijkbaar voorbeeld bij documenttechnologie bieden de nog steeds populaire WYSIWYG (``What You See Is What You Get'') opmaken, waarin structurele informatie onnodig ontbreekt. HTML, XML en verwante opmaken bieden hier vooruitgang [Bos 1993].


Elektronische informatiedragers liggen nu in de wieg -- met een meer dan toevallige gelijkenis met gedrukte media. Het ouderschap is niet te ontkennen. Maar net als bij de gedrukte incunabelen: het nieuwe is er al, en het is nu al beter dan zijn voorgangers. Wij hoeven niet meer te praten van ``veelbelovende'' mogelijkheden. In plaats hiervan kunnen wij verwijzen naar bewezen techniek. Voordat ik enige hiervan de revue laat passeren, wil ik kort herinneren aan de materiële basis voor deze ontwikkelingen, de CMOS technologie (``Complementary Metal-Oxide Semiconductor''). Deze technologie heeft voor ons twee belangrijke eigenschappen: ten eerste verbetert zij zich snel en betrouwbaar. In de laatste 15 jaar zagen wij een verdubbeling in capaciteit in gemiddeld 20 maanden, wat de Wet van Moore precies voorspelde. Deskundigen zien geen technische limiet aan deze vooruitgang in de nabije toekomst. Ten tweede wordt die technologie door zeer belangrijke financiële interesses gedragen, o.a. communicatie-, vermaaks-, transport- en elektronica-industrie. Dus kunnen we verwachten dat de technische mogelijkheden inderdaad ook worden gerealiseerd. Bovendien zijn er ontwikkelingen in computerarchitectuur, algoritmiek en compilerbouw, die verdere verbeteringen inhouden. De consequentie voor verbruikers is duidelijk: wat we vandaag doen, doen we over 6 jaar op z'n minst 10 keer sneller. Dus: wat ik vandaag schets, wordt snel beter.


[Exponentiële verbetering]
FIGUUR 2: De snelle verbetering in digitale schakelingen is betrouwbaar constant geweest, zoals deze loglineaire grafiek aantoont.

In sommige gebieden zijn elektronische informatiedragers nu al beter en goedkoper dan gedrukte. Ze staan een flexibeler toegang toe omdat men er automatisch in kan zoeken. Verder kan men ze makkelijker bijhouden; men hoeft niet op vervolgedities te wachten -- die natuurlijk meestal sowieso te duur zijn. Bovendien zijn ze goed te koppelen aan andere media, zoals simulatie, animatie, audio, of video. Vooral audio wordt nu al in taal-lerende programma's vaak en winstgevend ingezet.(5) Voor een echte doorbraak richting elektronische informatiedragers ontbreekt er op dit moment echter nog een distributiesysteem. Dit is volstrekt niet triviaal, maar het zal er moeten komen. Het moet technisch, maar ook juridisch en economisch goed in elkaar zitten (het hedendaagse Internet voldoet maar gebrekkig aan de eisen). Men moet informatie bijv. uit Palo Alto kunnen halen net zoals men vandaag daarheen belt. De kosten moeten redelijk en transparant verdeeld worden, intellectueel eigendom moet worden beschermd, en vertrouwelijkheid mag niet worden opgegeven.

Na de grote teleurstellingen over experimenten met film en video in het onderwijs mag men terecht terughoudend zijn over de inzet van nieuwe media in het onderwijs.(6) Anderzijds sluit computergrafiek wel bij oudere tradities aan. De Meno van Plato toont hoe Socrates zijn theorie over aangeboren ideeën demonstreert. Hij tekent een vierkant en vraagt een jonge slaaf een stelling uit de geometrie: hoe verhoudt zich dit vierkant met het vierkant van diens diagonaal? Eerst moet men ook het tweede tekenen. Hier wordt een driehoek zichtbaar, die precies de helft van het origineel uitmaakt. Hij overlapt ook met een geschikt deel van het nieuwe. Als men dit verder bekijkt, ziet men dat het deel precies vier keer in het nieuwe optreedt. Het antwoord is dan alleen maar een kwestie van tellen. Figuur 3 geeft een idee hoe overtuigend dit is.(7)


[Kwadraat van Socrates]
FIGUUR 3: De Meno van Plato is een van de vroegste reflecties over kennis en redenering, en hij benadrukt vooral grafische redenering.

Grafiek in deze vorm is veel meer dan een leuke toevoeging, of alleen maar illustratie. John Etchemendy en Jon Barwise, twee gedegen logici (en vroegere collega's aan Stanford University), analyseren zulke grafiek op dezelfde manier als logische representaties.(8) In het bijzonder zijn er puur grafische bewijzen mogelijk (en ook gemengd grafisch-tekstuele) in representaties zoals Venn-diagrammen, schakelingsdiagrammen en Euler-diagrammen.


Letteren

G ary Larson herinnert ons eraan dat niet elk werktuig onmiddellijk verbetering betekent.(9) Dus dienen wij de concrete toepassing van informatica binnen de alfa-wetenschappen nader onder de loep te nemen.

Alfa-Informatica onderzoekt de inzet van informatie-technologie binnen de geesteswetenschappen. Men begon pas een jaar of 25 geleden om letterenthema's door middel van computers onder de loep te nemen. Het verbaast sommigen nog altijd dat men dit überhaupt wil, misschien omdat de computer nog steeds als rekenmachine wordt gezien. Maar de belangrijkste toepassingen van computers vandaag zijn enerzijds tekstverwerking en anderzijds data-opslag en -manipulatie. Pas op de derde plaats komen toepassingen waar wiskundige berekeningen in het middelpunt staan. (Later moet ook communicatie in deze lijst komen te staan.) Men zou eigenlijk kunnen zeggen dat de computer een typisch alfa-werktuig is geworden.(10)


[Het moderne trivium]
FIGUUR 4: Teksten staan centraal in het moderne letterentrivium.

Dankzij deze veelzijdigheid van de computer zijn studenten en onderzoekers uit de Letterenfaculteiten vaak voor beeldschermen te vinden. Immers, de machine levert grote voordelen voor hun werk. Het moderne trivium in letteren bestaat uit geschiedenis, literatuur en taalkunde. De computer heeft bij alle letterengebieden ingang gevonden. Voor alle disciplines vervangt hij niet alleen potlood en papier maar ook bibliotheekscatalogus, gegevenslijsten, woordenboeken en thesauri, en steeds grotere delen van de bibliotheek zelf. In alle letterengebieden wordt in teksten gezocht naar referenties, woorden en citaten. Met een computer kijkt men door honderdduizenden bladzijden in dezelfde tijd die eerder voor tien nodig waren. De traditionele wetenschappelijke correspondentie wordt nu al grotendeels elektronisch verzorgd. In de historische wetenschappen zijn databases onmisbaar om de grote hoeveelheden archief-data te organiseren, door te kijken, en ook consistent te houden.(11) Modelbouw, simulaties en vormen van ``counterfactual reasoning'' verschaffen verdere nieuwe inzichten. In de filologie (de oudere traditie van taal- en literatuurwetenschap) moeten tekstvarianten met elkaar worden vergeleken, in een standaard schrift gebracht, en met woordenboeken verbonden. In de taalkunde worden computers verder gebruikt om complexe theorieën te modelleren waarvan de linguïst zonder technische ondersteuning niet alle consequenties kan berekenen.


Taalkunde en computationele taalkunde

M ijn eigen specialisme is de computationele taalkunde waar ik U een klein kijkje achter de coulissen wil bieden.

Er is een natuurlijke taakverdeling tussen taalkunde en computationele taalkunde. De taalkunde (of linguïstiek) beschrijft talen -- bijv. enerzijds hoe ze worden uitgesproken en anderzijds wat ze betekenen. Bij de studie van geluid -- fonetiek en fonologie -- horen vragen zoals welke geluiden in een taal voorkomen, hoe ze variëren, welke klinkers of medeklinkers er zijn, e.d. Bij de studie van betekenis -- semantiek -- horen vragen zoals waarover wordt gesproken, wanneer is een uiting waar of onwaar, wat is de betekenis van een nadrukkelijke uiting, e.d. Uiteraard is de verhouding tussen geluid en betekenis van belang, waarover verdere deelgebieden inlichtingen verstrekken -- morfologie over woordstructuur en syntaxis over de structuur van zinnen en zinsdelen.


Taalkunde Computationele Taalkunde
taalbeschrijving
7x + 4x + . . .
correct, minimaal
taalberekening
(7 + 4 + . . .)x
doelmatig, snel
FIGUUR 5: Computationele Taalkunde bestudeert de berekeningen die aan taalprocessen ten grondslag liggen, bijv. ontleden, herkennen, genereren, nakijken, sorteren, ontsluiten, of vergelijken. Om dit te doen, maakt ze gebruik van taalbeschrijvingen vanuit de beschrijvende (ofwel theoretische) taalkunde. Dit kan overlappen als de computationele taalkundige verschillende formuleringen onderzoekt, net zoals de numerieke informatica gebruik maakt van verschillende vormen van term-uitdrukkingen. De doelen vullen elkaar aan.

Computationele taalkunde neemt taalbeschrijvingen van de linguïstiek over om te bestuderen hoe men hiermee berekent. Een voorbeeld is de net genoemde verhouding tussen geluid en betekenis. De taalkunde beschrijft deze verhouding, en de computationele taalkunde geeft aan hoe men op basis van het één het andere kan berekenen. Het instrumentarium dat we hiervoor inzetten komt uit de informatica: welke berekeningen zijn gegarandeerd uitvoerbaar (beslisbaar)? Kan de verwerking deterministisch zijn? Kan ze incrementeel zijn?(12) Wat is de juiste organisatie van informatie (data-structuur)?(13) Hoeveel tijd en geheugen is nodig (uit de algoritmische complexiteitstheorie)? In het geval van parallelle verwerking, hoe is de communicatie tussen verwerkingseenheden?

De arbeidsverdeling tussen taalkunde en computationele taalkunde wordt soms verduisterd door de vele andere gebruiksmogelijkheden van computers binnen de taalkunde, bijv. als media binnen toepassingen zoals spraakherkennende of spraakbegrijpende systemen [Nederhof, Bouma, Koeling & Van Noord 1997], taalonderwijs-programma's [Jager, Nerbonne & Van Essen 1998], of zoeksystemen; als werktuig voor visualisatie, bijv. om spectrogrammen of analysebomen te tonen [Van Noord & Bouma 1997]; als ingangen tot de reusachtige datareserves in hedendaagse corpora; als opslagmedium voor dataverzamelingen [Nerbonne 1998]; en als werkpaarden waar data-analyse arbeidsintensief is [Nerbonne & Heeringa 1997]. Het gebruik van computers binnen taalkunde volgt niet de bekende lijnen tussen theorie en toepassing, theorie en experiment of theorie en data. Ze worden overal ingezet.(14)


Theorie, experiment en toepassing

O veral zijn er verbeteringen te bekennen -- in theorie, experiment en toepassing. De taalkundige theorievorming profiteert van een verdere controle door implementatie. Bij het verzamelen van data en experimenteren is de computer nuttig om grote hoeveelheden data te organiseren en toegankelijk te maken, en een van de meest verheugende ontwikkelingen in verband met de invoer van de computer in de taalkunde is dat de breedte van mogelijke toepassingen enorm is gegroeid.

Theorie

De taalkundige theorievorming profiteert van een verdere controle door implementatie. Ik beperkt me tot een voorbeeld uit de literatuur,(15) het zogenoemde ``PRO-theorema'':

1. Every governed anaphor must be bound.
2. Every governed pronominal must be free (non-bound).
3. PRO is an anaphor and a pronominal.

PRO must not be governed.

Het is gelukkig niet nodig om alle vaktermen te verklaren.(16) Het gaat om een simpele logische fout. Ik parafraseer het argument eerst: als we de anaforen bekijken, dan zijn alle geregeerde elementen gebonden, en als we pronominalen bekijken, dan zijn alle geregeerde niet-gebonden. Als iets zowel anafoor als ook pronominaal is, dan zou het als het geregeerd was zowel gebonden als ook niet-gebonden moeten zijn, wat uiteraard niet kan. Dus mag men niet aannemen dat zoiets geregeerd mag worden.

Het probleem treedt echter in de definitie van ``governed'' op, die helaas ambigu wordt gebruikt. In het bijzonder worden verschillende definities gegeven voor governed in het geval van anaforen in tegenstelling tot pronomina, wat mogelijk maakt dat iets er wel in de ene maar niet in de andere zin onder zou kunnen vallen.

Dus is dit een voorbeeld van de klassieke drogreden van de ``equivocatie'' -- waar een cruciale term ambigu wordt gebruikt. Logisch wordt dezelfde soort fout gemaakt in het voorbeeld:

1. Een hoofd weegt vier 4kg.
2. George is hoofd van het project.

George weegt 4 kg.

Het PRO-theorema komt uit een van de bekendste taalkundige werken van de jaren tachtig, en het werd met zekerheid meerdere honderden keren gelezen zonder dat de fout werd herkend. Het werd pas ontdekt toen men probeerde het te formaliseren voor een implementatie.(17) Het punt hier is dat een grondig toetsen van taalkundige ideeën noodzaak is, en dat implementatie hier hulp biedt. Stabler [1992] en Veenstra [1998] documenteren meerdere vergelijkbare gevallen.

Chomsky is natuurlijk de belangrijkste taalkundige van onze tijd, en verder misschien ook dé meest produktieve bijdrager aan de ontwikkeling van de mathematische linguïstiek ooit. Als dit soort fout ook bij hem schuil kan gaan, is niemand immuun.

Experiment

Ook bij het verzamelen van data en experimenteren is de computer nuttig. Bij het verzamelen en organiseren van gegevens vervangt de computer nu de kaartjes in de schoenendoos - met het belangrijke verschil dat, zodra gegevens worden ingevoerd, ze algemeen beschikbaar kunnen zijn. Dus zijn evaluaties of berekeningen die hierop gebaseerd zijn perfect herhaalbaar. Hier wordt de normale wetenschappelijke kwaliteitscontrole een stuk makkelijker, wat een verbetering moet betekenen als we de kans benutten. Dit is nu al technisch mogelijk: alleen het brede gebruik ontbreekt nog. (Verder moet men ook aan het archiveren van verzamelde gegevens denken.)

Dit verschil alleen zou genoeg zijn om de taalkunde een nieuwe richting te geven. De theoretische taalkunde concentreerde zich van 1957 tot in de jaren negentig op de ``intuïties'' van sprekers, o.a. om het monnikkenwerk van dataverzameling in corpora te vermijden. Chomsky [1965, pp. 3-15] argumenteerde terecht en overtuigend dat intuïtieve data voor enkele doeleinden voldoende waren. Maar de grenzen hiervan zijn na 35 jaar duidelijk, vooral de concentratie op een relatief beperkte gegevensbasis. Ik wil een voorbeeld uit mijn eigen ervaring hiervoor vertellen. Prof. Jindrich Toman verzamelde in 1983 320 voorbeelden van Duitse adjectieven die door -bar-suffigering worden gevormd. Hij speculeerde toen dat dit bijna alle mogelijkheden binnen deze constructie moesten zijn [Toman 1983]. Dat hij probeerde ze allemaal te vinden, was overigens buitengewoon vlijtig. Mw. Susanne Riehemann, een doctoraalstudent in Tübingen, heeft een voorstel over woordvorming verder uitgewerkt dat van mij en Dr. Hans-Ulrich Krieger stamde [Krieger & Nerbonne 1993]. Ze kon in de corpora van het Institut für deutsche Sprache spoedig meer dan 1200 verschillende bar-adjectieven vinden, incl. vele die niet in eerdere classificaties pasten [Riehemann 1993, Riehemann 1998].

Toepassingen

Een van de meest verheugende ontwikkelingen in verband met de invoer van de computer in de taalkunde is dat de breedte van mogelijke toepassingen enorm is gegroeid. De traditionele toepassingsgebieden -- taalonderwijs en spraaktherapie -- worden versterkt, en vele zijn er bijgekomen, o.a. ondersteuning voor vertalers, grammatica- en spellingscontrole, zoeksystemen voor grote tekstbestanden, spraaksynthese voor gehandicapten, informatiesystemen, en andere.(18)

Toegepaste wetenschap wordt soms -- vooral binnen Letteren -- als verdacht beschouwd. Het bezwaar van Willa Cather is zeker extreem, maar vergelijkbaar met dat van anderen: ``What has science ever done for man except make him more comfortable?'' (The Professor's House, 1925).(19)

Toepassingen -- zegt de zuiver wetenschappelijke criticus -- brengen misschien financiële steun met zich mee, maar ze maken ons tot dienaars van de mammon, en leiden ons van de grootste en belangrijkste taken af. Dat ook de grootste wetenschappers vaak een vreugde in toepassingen vonden -- men denke aan Einsteins werk aan koelkastpompen, of Keplers meettechniek voor biervaten (d.m.v. ellipsvergelijkingen) -- zou de criticus bevreemden. Mooie voorbeelden zijn ook in Groningen te vinden. De bekendste taalwetenschappelijke bijdrage ooit vanuit Groningen is de (myoelastische-aërodynamische) theorie van stemvorming -- het inzicht dat de stembanden vibreren vanwege het Bernoulli effect, en niet rechtstreeks door spierkracht [Van den Berg 1958]. Prof. Jan-Willem van den Berg heeft echter niet alleen deze theorie ontwikkeld in zijn proefschrift uit 1953, maar hij was ook voortdurend betrokken bij projecten voor therapie voor mensen met strottehoofdletsel, training voor slokdarmstem en ontwikkeling van strottehoofdprothesen -- de zogenoemde ``Groninger button''.

Het is ook zo dat toegepast werk vaak zuiver wetenschappelijke thema's belicht. Dit wil ik in de huidige computationele taalkunde door de disambiguatie illustreren. Een van de eerste resultaten nadat taalkundige theorieën werden geïmplementeerd, was dat de taal als tekensysteem verschrikkelijk ambigu is. Heel gewone zinnetjes zijn ermee besmet:

Huxley kreeg het boek van Darwin
Beschrijft van Darwin het krijgen of het boek?


[Twee interpretaties]
FIGUUR 6: Hoewel het de communicatie nauwelijks stoort, komt dubbelzinnigheid vaak in taal voor. De bomen verbeelden de twee manieren om het adverbiaal van Darwin te interpreteren.

Misschien gaat het erom dat Darwin Huxley een boek van een derde gaf. Taalkundigen representeren deze ambiguïteit door verschillende structuurbomen, één waar het adverbiaal met het naamwoord boek wordt gecombineerd, en één waar het met het werkwoord wordt gecombineerd. Er rijst dan de vraag: wanneer horen we het één en wanneer het andere?

Meestal neigen we er toe ambiguïteit niet op te merken omdat betekenis, context of kennis een sterke voorkeur voor één structuur geeft:

Huxley kreeg het boek over evolutie.
Huxley kreeg het boek in 1859.
Deze vraag werd sinds vijftien jaar als centraal beschouwd binnen de computationele taalkunde, vooral door mensen die taalbegrijpende toepassingen hebben ontwikkeld. In deze systemen waar de computer menselijke uitingen moet begrijpen, is het onvoldoende de ambiguïteit alleen te representeren. Men moet verder kiezen welke betekenis bedoeld is.


[Soortenlogische disambiguering]
FIGUUR 7: Woorden zoals van betekenen relaties die verschillen, afhankelijke van de soorten die aan elkaar worden gerelateerd.

Een eerste mogelijkheid om disambiguatie onder de knie te krijgen bood de soortenlogica. Figuur 7 laat zien hoe objecten in verschillende soorten worden geclassificeerd terwijl relaties bij elke argumentpositie bepaalde soorten eisen. Om het onderscheid in de zinnen in Figuur 6 te analyseren moest men postuleren dat het woord van wel relaties tussen documenten en mensen (de AUTEUR relatie, onder ander) kan aangeven (dus boek van Darwin), en ook tussen overdrachtgebeurtenissen en mensen (dus kregen . . . van, waar van de overdrager in de relatie betekent), en dat relaties tussen boeken en jaren minder voor de hand liggen (die door in worden genoemd).(20) Dit was echter voldoende voor enkele kleine toepassingen.

Bij deze benadering hebben trouwens sommige onderzoekers geprobeerd een begrip van metafoor aan te sluiten [Pustejovsky 1991]. De motivatie is voor de hand liggend: we hebben bijv. hierboven van het boek in de Renaissance gesproken, waar in blijkbaar toch een relatie tussen boeken en tijden aangeeft -- maar hier wordt er iets anders met boek bedoeld: niet het concrete object maar de genus als geheel, een lichte metonymische verschuiving. Deze pogingen blijven interessant, maar niet centraal omdat ze uiteindelijk zeer veel nieuwe ambiguïteiten in het spel brengen.

Hoewel regelgebaseerde benaderingen (waarvan soortenlogica er maar één is) tot op heden worden gebruikt, zijn de meeste onderzoekers ervan overtuigd dat ze uiteindelijk geen afdoende oplossingen kunnen bieden. Hiervoor zijn veel redenen aan te geven. Ten eerste is de kennisverwerving die met deze aanpak gepaard gaat moeilijk en aan fouten onderhevig. Ten tweede zijn de disambiguerende factoren zeer verschillend en moeilijk onder de knie te krijgen. Men kan zich snel overtuigen dat het thema van gesprek een rol kan spelen, maar ook de extra-linguïstische situatie, de kennis over de gesprekspartner, en zelfs algemene kennis van de wereld. Ten derde hebben studies met grote corpora een belangrijke correlatie aangetoond tussen frequentie en disambiguatie, die overigens goed met psychologische studies spoort, maar die slecht is in te zetten binnen aanpakken die uitsluitend regelgebaseerd zijn. Ten vierde -- en bijzonder interessant in Groningen -- past de puur regelgebaseerde aanpak slecht bij alles wat we over de concrete verwerking in de menselijke hersenen weten. De neurowetenschappelijke kijk op cognitie lijkt hier goed te passen.

Statistische aanpakken van disambiguering genieten vandaag grotere populariteit [Hindle & Rooth 1993]. De basisidee is simpel. Men vergelijkt de voorwaardelijke waarschijnlijkheid van de twee concurrerende hypothesen, nl. of de prepositionele woordgroep samengaat met de nominale (NP + PP) of met de verbale (VP + PP)

P(NP + PP | HNP = boek, HPP = van, HNP (in PP) = Darwin) >
    P(VP + PP | HVP = krijgen, HPP = van, HNP (in PP) = Darwin)

waar HNP betekent het grammaticale Hoofd van de Nominale woordgroep (en mutatis mutandis voor de hoofden van de Verbale en Prepositionale woordgroepen).

Men omzeilt het probleem van kennisacquisitie door gebruik te maken van stochastische trainingsmethoden. Men negeert factoren die geen weerslag in corpora vinden. Men mikt op frequentie-effecten. Statistische aanpakken zijn ook nauwer verwant aan modellen in neurocomputing vanwege hun gevoeligheid voor frequentie. Stellig is het te vroeg om de statistische aanpak tot winnaar uit te roepen, maar hij levert nu betere prestaties voor het disambigueringsprobleem in sommige experimenten.

Verder is het zo dat de statistische methoden net zo goed op klassieke problemen van de taalkunde toe te passen zijn. Dit punt is de ontwikkelaars van statistische methoden uiteraard niet ontgaan. Zo komt het dat dit zeer toegepaste werk conclusies over taalkundige theorieën trekt. Mijn collega prof. Remko Scha spreekt al van een performance-gerichte taalkunde [Bod & Scha 1996], terwijl Dr. Abney een reeks van taalkundige feiten identificeert waarvan de preciese formulering statistisch lijkt te zijn [Abney 1996].


Terug naar theorie

M en kan hier opmerken dat de statistische benadering zeker de concrete taalkundige ervaring meer in de aandacht trekt ten koste van de eraan ten gronde liggende, en van de ervaring geabstraheerde cognitieve ``competentie''. Op den duur zou dit de taalkunde een duw terug in de richting cultuurwetenschap kunnen geven. Zo mogen we van deze richting verdere interessante inzichten verwachten over de respectievelijke invloeden van natuur en cultuur. Nu al hebben de toepassingen een verrijking van de taalkundige horizon en een methodisch arsenaal opgeleverd: er worden tegenwoordig vragen gesteld en methoden toegepast die enkele jaren geleden ondenkbaar waren. De scepticus mag vermoeden dat ``verrijking'' in methoden verarming in theorie vergezelt (in de zin dat strakke theorie inhoudelijk minimaal hoort te zijn), en hier moet men zeker alert blijven. Maar ook zijn de vragen breder, en de aannamen minder beperkt. Dus profiteert de Alfa-Informatica van een multi-disciplinaire werkwijze net zoals de informatica zelf, hetgeen ook Hopcroft [1987] beargumenteert.

Mijn doel is te onderstrepen dat toegepast werk ook zuiver wetenschappelijke vernieuwing kan stimuleren. Het werk over disambiguatie ontstond om toepassingen te ondersteunen ook daar waar niet op een taalkundige basis kon worden gebouwd. Na een tiental jaren blijkt dat de beste huidige methoden voor dit toegepaste probleem ook inzicht in zuiver taalkundige thema's bieden. Het is nu nog onduidelijk of het meest recente werk op dit gebied een echte wetenschappelijke verschuiving veroorzaakt. Dat is iets voor verdere experimenten, en een later verhaal.


Conclusies

M ijn lezing begon met een verslag over de stand van zaken op het gebied van elektronische informatiedragers. Vandaar ging ik naar de specifieke consequenties hiervan binnen letteren in het algemeen, daarna binnen taalkunde, en ten slotte binnen de computationele taalkunde, waar ik enthousiasme wilde wekken voor de inzet van de computer in theorie, in experiment, en bij toepassingen.

Om de kring te sluiten wil ik vooral aan de jongere letterenspecialisten appelleren mijn verhaal niet als specialistisch geklets op te nemen. Het werk over elektronische informatiedragers zou wel degelijk van uw letterendeskundigheid kunnen profiteren. Wie weet beter dan U wat teksten zijn, hoe ze logisch in elkaar zitten, welke eigenschappen van teksten te verklaren zijn door hun inessentiële traditie als drukwerken, en welke toch wezenlijk voor hun rol als informatiedragers zijn? Zijn deze -- ook zeer toegepaste -- vragen niet interessant voor het begrip ``tekst'' waarmee wij al eeuwenlang worstelen?


Samenvatting

D e computer is nu al onmisbaar binnen taalkundig en historisch onderzoek, niet alleen als hulpmiddel bij het verzamelen en het organiseren van gegevens, maar ook bij de theorievorming -- waar ze een perspectief van informatie-verwerking bijdraagt. Bij geesteswetenschappelijk onderwijs en bij het communiceren van (ook populair-)wetenschappelijke resultaten zijn de voordelen van computationele ondersteuning nog duidelijker. Daarom is het nu vrijwel zeker dat de informatie-dragers van de toekomst elektronisch zullen zijn. Verder wordt met hulp van de computer een reeks van niet-pedagogische toepassingen mogelijk -- in uitgeverijen, journalistiek en media, vertaalfuncties, public relations, en documentatie- en informatie-voorzieningen. Voor de letterenspecialist zijn zulke toepassingen interessant omdat ze culturele en cognitieve inzichten verlangen, en omdat hun ontwikkelen kans biedt om deze inzichten te verdiepen. Zo gaat men over de normale vakgrenzen heen kijken, en men verwerft daardoor nieuwe kennis.

Vanzelfsprekend kan men over mijn verhaal sceptisch zijn, en men moet toegeven dat scepticisme in zulke vragen een eerbare traditie heeft. Ik wil sluiten met nog een citaat van Socrates, deze keer zijn oordeel over een voor hem nieuw medium, het schrift:

``. . . door hun vertrouwen in het schrift te stellen, zoeken zij met behulp van vreemde tekens hun geheugen buiten zichzelf [. . .] Gij schaft uw leerling de schijn van wijsheid, maar niet de waarheid. Want als ze veel hebben gelezen zonder onderricht, zullen zij de indruk maken veel te weten, terwijl ze in feite onwetend zijn en lastig in de omgang [. . .]'' Plato Phaidros: 275a

Dankzegging

D ames en heren,

Aan het eind van mijn rede gekomen, wil ik een woord van dank voor mijn benoeming richten aan het College van Bestuur en aan de Faculteit der Letteren. En ik wil een aantal persoonlijke woorden zeggen.

Ten eerste een zeer persoonlijk woord van dank aan mijn familie. Aan mijn moeder voor haar vertrouwen, aan mijn vrouw Ellen die het mij steeds lichter maakt, en verder aan Eamon en Brendan, die nooit ophouden met het stellen van de gekste vragen -- de beste vragen.

Ik wil deze gelegenheid gebruiken om mijn eigen leraren te bedanken, vooral David Dowty, Arnold Zwicky en Alfred Schopf, gewetensvolle en uitdagende voorbeelden voor een jonge wetenschapper. Een dank ook aan oude collega's, waarvan ik veel leerde: Dan Flickinger, Mark Gawron, Erhard Hinrichs, Bill Ladusaw, Carl Pollard en Tom Wasow. De wat jongere collega's Uli Krieger en Klaus Netter wil ik evenmin weglaten. Als ze niet zo koppig waren geweest, zou ik in nog dieper ongelijk verkeren.

Dames en heren hoogleraren in de Faculteit der Letteren, mijn waarde collega's,

Zoals ik heb uiteengezet, zijn er belangrijke kwesties die ons gemeenschappelijk aangaan. Ik verheug me op de samenwerking met u. Een bijzonder dankwoord wil ik richten aan collega's die mijn aankomst in een nieuwe omgeving makkelijker en produktiever hebben gemaakt. Ik denk aan Frans Zwarts, Werner Abraham, Tjeerd de Graaf, en Jack Hoeksema.

Dames en heren Alfa-Informatici,

Beste Gosse, Gertjan, Harry, George en Bert,

Het leukste voor mij bij het werk in Groningen zijn onze praatjes, hoe men het volgende probleem moet aanpakken, hoe men benadering x juist opvat, en -- zoals altijd -- kan dat niet beter? Verder hebben jullie mij onder moeilijke omstandigheden welkom geheten, mijn eerste taalpogingen in een beter op het Nederlands lijkende richting gestuurd, en mijn eerste ervaringen met een volstrekt vreemde bureaucratische omgeving begrijpbaarder gemaakt. Gelukkig hadden we ook tijd voor inhoudelijke kwesties gedurende deze tijd. Ik dank jullie voor de steun en hulp in de laatste drie jaar, en verheug me op onze samenwerking in de toekomst.

Dames en heren doctorandi, studenten, jongelui,

Ik stel jullie enthousiasme zeer op prijs. Het is voor mij een reden om blij te zijn over mijn beslissing naar de universiteit terug te komen. Nu bevind ik me soms in een adviseursrol. Het volgende advies is aan jullie gericht, maar ik wil mezelf er ook aan houden. Ik zei al dat wij in de eerste dagen van elektronische informatiedragers leven, in het tijdperk van de elektronische incunabelen. Vergillius herinnert ons dat de beste dagen soms snel weg zijn. Optima dies . . . prima fugit.

De conclusie is duidelijk: go for it.

Ik heb gezegd.(21)


Voetnoten

1. Voor het eerst door Ted Nelson voorgesteld [Nelson 1965].
2. Het werken met hyperteksten is overigens de inhoud van een Alfa-Informatica cursus voor eerstejaars studenten. Deze cursus werd door mijn collega's dr. Harry Gaylord en dr. Bert Bos ontwikkeld. Hij heeft geen entreevoorwaarden zoals programmeerkennis. Zie http://www.let.rug.nl/alfa/classes.html.
3. Herverteld in Burke [1985, p. 113].
4. Het incunabel is in bezit van de Universiteitsbibliotheek, Rijksuniversiteit Groningen, en wordt gebruikt door de vriendelijke medewerking van de bibliothecarissen Alex Klugkist en Alie Bijker.
5. Zie Rothenberg [1998] voor een voorbeeld van hoe audio zelfs op afstand wordt ingezet.
6. Mijn collega Wim Liebrand citeert graag Thomas Edison die aan het begin van de eeuw schreef (geciteerd door Cuban [1986]):
Books will soon be obsolete in the schools [. . .] The motion picture is destined to revolutionize our educational system.
7. Het idee voor deze animatie heb ik van een lezing van John Etchemendy, hoogleraar wijsbegeerte in Stanford, die er ook één maakte.
8. Hun bijdrage is een van meerdere interessante in Chandrasekaran & Glasgow [1995].
9. De tekening van Larson staat in de gedrukte versie van deze oratie. Het laat zien hoe een van zijn holenmensen stapt op een hark en krijgt de steel in zijn gezicht. Het kan eerst stroef gaan bij de inzet van nieuwe ideeën. De cartoon is getiteld ``De ontdekking van werktuigen''. De tekening van Larson werd in het boekje met permissie gebruikt. De achtergrond van deze permissie illustreert een van de problemen die elektronische incunabelen vandaag oproepen. Met name wou het bedrijf dat Larson vertegenwoordigt geen gebruik van zijn tekening veroorloven in elektronische vorm. Hun redenering is dat elektronisch gebruik te weinig bescherming van de rechten van de auteur garandeert. Misbruik door illegaal kopiëren is te makkelijk. Daarom staat zijn tekening ook niet in deze elektronische versie van het betoog.
10. Zie het rapport van Bos [1993] over de eisen die een Letterenfaculteit stelt aan informatiesystemen.
11. Zie Welling [1998] voor een recent voorbeeld van de inzet van databases in de geschiedschrijving.
12. Van Noord [1997] en Nerbonne [1996] zijn voorbeelden van dit type van vraag.
13. Een interessant voorbeeld hiervan zijn de ideeën van Flickinger over hiërarchische structuren in het lexicon [Flickinger & Nerbonne 1992, Bouma & Nerbonne 1994].
14. De verwerkingsvraag is niet alleen bij ontleden en genereren toepasbaar, maar overal waar informatieverwerking door middel van taal plaatsvindt. Tjong Kim Sang [1998] en Stoianov, Bouma & Nerbonne [1998] passen methoden vanuit machinaal leren op het probleem van taalverwerving.
15. De presentatie is ontleend aan Chomsky [1986] en vooral aan de kritiek in Pollard [1993].
16. Toch wil ik de taalkundige meer details bieden.

Chomsky [1986] bespreekt de volgende zin (229) als tegenvoorbeeld omtrent de complementaire verdeling van reflexieven (anaforen) en pronominalen:

(229)    The childreni liked { each other'si
theiri
} friends.
(waar de subscripten aangeven dat alleen children in vraag mag komen als antecedent voor de possessiva). De distributie van deze elementen wordt door Chomsky (en veel andere onderzoekers) beschreven door middel van ``minimal governing categories''. Deze zijn steeds nominale woordgroepen (NP's) en zinnen (S's), en ze bepalen het bereik waarbinnen de anafoor een antecedent moet hebben c.q. een niet-anaforische pronomen geen antecedent mag hebben. Het voorbeeld boven zou dan alleen mogen bestaan als de structuur ambigu is. Chomsky pleit niet voor ambiguïteit in structuur, maar voor een voorwaardelijk begrip ``minimaal regeerdomein'':
What we want to say, then, is that the relevant governing category for an expression e is the least complete CFC [NP or S (JN)] containing a governor of e in which e could satisfy the binding theory with some indexing (perhaps not the actual indexing of the expression under investigation). Thus in (229) the clause is the relevant governing category for the anaphor, but the NP is the relevant governing category for the pronoun. Under this interpretation of the binding theory, the examples in (229) will be exactly as predicted. [Chomsky 1986, p. 171]
Maar stel dat een element in deze positie optreedt dat zowel anafoor als ook pronomen was (PRO). Omdat het pronominaal is, moet zijn regeerbereik de hele zin zijn, maar omdat het anafoor is moet zijn bereik de NP zijn waarin hij als determinator functioneert.

Uiteraard zouden verdere stipulaties (bijv. die verbieden dat de problematische elementen op die plaats überhaupt optreden) het probleem kunnen oplossen, maar dan dienen ze benoemd te worden -- wat hier niet gebeurt.

17. Formalisatie alleen was natuurlijk voldoende geweest om het te ontdekken. Ik wil hier niet over de verschillende rollen van formalisatie en implementatie spreken, die allebei belangrijk zijn.
18. Cole, Mariani, Uszkoreit, Zaenen & Zue [1996] is een nuttig overzicht van huidige technologie en toepassingen.
19. Cather miste bij de exacte wetenschappen morele verbetering -- maar 70 jaar later zijn wij minder optimistisch dat dit door cultuurwetenschappelijk onderwijs en onderzoek wordt bevorderd.
20. Voor volledigheid dient hier te worden gezegd dat men verder aanneemt dat over relaties tussen documenten en entiteiten denoteert, maar normaliter geen relaties ten opzichte van het overdragen van bezit (in combinatie met krijgen). Het kleine voorbeeld is dan ook niet perfect: met weinig moeite kan men uitdrukkingen vinden die aan aantonen dat de aannamen hier vrij beperkt zijn in hun toepassing.
21. Voor hulp met het Nederlands in dit praatje dank ik George Welling en Gertjan van Noord, en voor de tekeningen van Darwin en Huxley dank aan Tony Mullen. Een dank ook -- last but not least -- aan Peter Kleiweg die onmisbare assistentie bood in het voorbereiden van het manuscript, in een benadering van de taal aan Nederlands, en die ook goed op de inhoud let.

Bibliografie

Abney, Steven [1996],
Statistical methods and linguistics, in J. Klavans & P. Resnick, eds, `The Balancing Act: Combining Symbolic and Statistical Approaches to Language', MIT Press, Cambridge, MA, pp. 1-26.
Van den Berg, Jan-Willem [1958],
`Myoelastic-aerdynamic theory of voice production', Journal of Speech and Hearing Research 1, 227-44.
Bod, Rens & Remko Scha [1996],
Data-oriented language processing, in S. Young & G. Bloothooft, eds, `Corpus-Based Methods in Language and Speech Processing', Kluwer, Dordrecht, pp. 137-173.
Bos, Bert [1993],
An information infrastructure for a faculty of arts, Technical report, Alfa-informatica, Rijksuniversiteit Groningen.
Available as http://www.let.rug.nl/~bert/PROSA/rep-main.html.
Bouma, Gosse & John Nerbonne [1994],
Lexicons for feature-based systems, in `Proc. of KONVENS', Springer, Berlin.
Burckhardt, Jacob [1928 (11860)],
Die Kultur der Renaissance in Italien, Th.Knaur, Berlin.
Burke, James [1985],
The Day the Universe Changed, Little, Brown & Co., Boston.
Chandrasekaran, B. & Janice Glasgow [1995],
Diagrammatic reasoning : Cognitive and Computational Perspectives, AAAI/MIT Press, Menlo Park, CA.
Chomsky, Noam A. [1965],
Aspects of the Theory of Syntax, MIT Press, Cambridge.
Chomsky, Noam A. [1986],
Knowledge of Language: Its Nature, Origin, and Use, Praeger, New York.
Cole, Ronald A., Joseph Mariani, Hans Uszkoreit, Annie Zaenen & Victor Zue [1996],
Survey of the State of the Art in Human Language Technology, National Science Foundation and European Commission, http://www.cse.ogi.edu/CSLU/HLTsurvey/HLTsurvey.html.
Cuban, Larry [1986],
Teachers and Machines: The Classroom Use of Technology since 1920, Teachers College Press, New York.
Eisenstein, Elisabeth [1979],
The Printing Press as an Agent of Change, Cambridge University Press, Cambridge.
(in two vol.).
Flickinger, Daniel & John Nerbonne [1992],
`Inheritance and complementation: A case study of easy adjectives and related nouns', Computational Linguistics 19(3), 269-309.
Hindle, Donald & Mats Rooth [1993],
`Structural ambiguity and lexical relations', Computational Linguistics 19(1), 103-120.
Hopcroft, John E. [1987],
`Computer science: The emergence of a discipline', Communications of the Association for Computing Machinery 30(3), 198-202.
Turing Award Lecture.
Jager, Sake, John Nerbonne & Arthur van Essen [1998],
Language Teaching and Language Technology, Swets and Zeitlinger, Lisse.
Krieger, Hans-Ulrich & John Nerbonne [1993],
Feature-based inheritance networks for computational lexicons, in T. Briscoe, V. de Paiva & A. Copestake, eds, `Inheritance, Defaults, and the Lexicon', Cambridge University Press, Cambridge, pp. 90-136.
Also DFKI Research Report RR-91-31.
Nederhof, M. J., G. Bouma, R. Koeling & G. van Noord [1997],
Grammatical analysis in the OVIS spoken-dialogue system, in J. Hirschberg, C. Kamm & M. Walker, eds, `Interactive Spoken Dialog Systems: Bringing Speech and NLP Together in Real Applications', Proceedings of a Workshop Sponsored by the Association for Computational Linguistics, Madrid, Spain, pp. 66-73.
Nelson, Ted [1965],
A file structure for the complex, the changing, and the indeterminate, in `Proc. of the 20th ACM National Conf.', pp. 84-100.
Nerbonne, John [1996],
Computational semantics--linguistics and processing, in S. Lappin, ed., `Handbook of Contemporary Semantic Theory', Blackwell Publishers, London, pp. 459-82.
Nerbonne, John [1998],
Linguistic Databases, CSLI, Stanford.
Nerbonne, John & Wilbert Heeringa [1997],
Measuring dialect distance phonetically, in J. Coleman, ed., `Computational Phonology', John Coleman, Madrid, pp. 11-18.
Van Noord, Gertjan [1997],
`An efficient implementation of the head-corner parser', Computational Linguistics 23(3), 425-456.
Van Noord, Gertjan & Gosse Bouma [1997],
HDRUG: A flexible and extendible development environment for natural language processing., in `Proceedings of the EACL/ACL Workshop ENVGRAM, Computational Environments for Grammar Development and Linguistic Engineering', Madrid.
Pollard, Carl [1993],
On formal grammars and empirical linguistics, in A. Kathol & M. Bernstein, eds, `ESCOL '93: Proc. of the 10th Eastern States Conference on Linguistics', Ohio State University, Columbus.
Pustejovsky, James [1991],
`The generative lexicon', Computational Linguistics 17(4), 409-441.
Riehemann, Susanne [1993],
Word formation in lexical type hierarchies: A case study of -bar adjectives in german, Master's thesis, Universität Tübingen.
Riehemann, Susanne [1998],
`Type-based morphology', Journal of Comparative Germanic Linguistics 2.
Rothenberg, Martin [1998],
The new face of distance learning in language instruction, in S. Jager, J. Nerbonne & A. van Essen, eds, `Language Teaching and Language Technology', Swets and Zeitlinger, Lisse, pp. 146-48.
Stabler, Edward P. [1992],
The Logical Approach to Syntax, MIT Press, Cambridge.
Stoianov, Ivelin, Huub Bouma & John Nerbonne [1998],
Modelling the phonotactic structure of natural language words with simple recurrent networks, in H. van Halteren, ed., `Proceedings of the VIIIth Computational Linguistics in the Netherlands', Nijmegen.
Tjong Kim Sang, Erik F. [1998],
Machine Learning of Phonotactic Structure, PhD thesis, University of Groningen.
Toman, Jindrich [1983],
Wortsyntax: Eine Diskussion ausgewählter Probleme deutscher Wortbildung, Niemeyer, Tübingen.
Veenstra, Mettina [1998],
Formalizing the Minimalist Program, PhD thesis, Rijksuniversiteit Groningen.
Welling, George [1998],
The Prize of Neutrality: Trade Relations between Amsterdam and North America 1771-1871. A Study in Computational History, PhD thesis, Rijksuniversiteit Groningen.