Elektronische Incunabelenuitgesproken bij de aanvaardingvan het ambt van hoogleraar Alfa-Informatica aan de Rijksuniversiteit Groningen door dr. ir. John Nerbonne op dinsdag, 19 september 1995 |
Zeer gewaardeerde toehoorders,
Als men nu overweegt in hoeverre elektronische middelen anders (dan traditionele) kunnen zijn, mag men Eisensteins werk niet uit het oog verliezen. Vaak hoort men dat elektronische informatiedragers toch niet erg verschillen van boeken. Ik neem als voorbeeld de zeer populaire ``hyperteksten'', documenten die ontworpen zijn om in verschillende, niet-vaste volgorde te worden gelezen.(1) Een bekende opmerking hierover maakt het bezwaar dat dit soort document al bestaat (denk aan handboeken of encyclopedieën). Welnu, het bezwaar klopt niet in zijn algemeenheid -- er zijn wel verschillen -- maar normaliter zou men de meeste hyperteksten grotendeels in boekvorm kunnen produceren. Dus is het bezwaar ook niet helemaal onjuist. Dit doet er echter niet toe omdat het het culturele element miskent -- bijv. dat vele lezers van hyperteksten gemakkelijk in staat zijn om eigen uitbreidingen toe te voegen, of om eigen replieken niet alleen te schrijven, maar ook eigenhandig vorm te geven en te distribueren. Zo wordt het verschil tussen producent en consument kleiner. De vraag naar het belang van de computer moet een culturele draai krijgen, net als in de tijd van Gutenberg.(2)
De illustratie aan het begin van dit stuk, die hier nog eens wordt afgebeeld, komt uit een incunabel uit de Groningse collectie, die de fraaie manuscript-traditie toont zoals de boekdrukkunst die laat zien. Het is de eerste bladzijde van Vincent van Beauvois Speculum Naturale Straßburg. ca. 1464-1470 (met wapen van Wilhelmus Frederici).(4)
![]() |
FIGUUR 1: Het gebruikt van programma's die rekenmachines nabootsen
is een tot de verbeelding sprekend voorbeeld van een elektronisch
incunabel -- een cultuurprodukt dat niet-functionele elementen
van vroegere ontwikkelingsstadia heeft behouden.
Rekenmachines hebben hun moeite met complexe uitdrukkingen omdat ze proberen elk tussenresultaat onmiddellijk te laten zien. De machines met haakjes-knoppen staan complexe expressies weliswaar toe, maar eisen dat men de expressie van links naar rechts in één keer intypt, wat de overzichtelijkheid in de weg staat. Deze voorwaarden zijn bij computer-interfaces al jaren achterhaald, maar de oude zeden leven verder! De expressie (links) kan men dan ook toepassen op een heel bestand van waarden (van expectations en observations, om bijv. een Chi2 waarde te berekenen). Een vergelijkbaar voorbeeld bij documenttechnologie bieden de nog steeds populaire WYSIWYG (``What You See Is What You Get'') opmaken, waarin structurele informatie onnodig ontbreekt. HTML, XML en verwante opmaken bieden hier vooruitgang [Bos 1993]. |
Elektronische informatiedragers liggen nu in de wieg -- met een meer dan toevallige gelijkenis met gedrukte media. Het ouderschap is niet te ontkennen. Maar net als bij de gedrukte incunabelen: het nieuwe is er al, en het is nu al beter dan zijn voorgangers. Wij hoeven niet meer te praten van ``veelbelovende'' mogelijkheden. In plaats hiervan kunnen wij verwijzen naar bewezen techniek. Voordat ik enige hiervan de revue laat passeren, wil ik kort herinneren aan de materiële basis voor deze ontwikkelingen, de CMOS technologie (``Complementary Metal-Oxide Semiconductor''). Deze technologie heeft voor ons twee belangrijke eigenschappen: ten eerste verbetert zij zich snel en betrouwbaar. In de laatste 15 jaar zagen wij een verdubbeling in capaciteit in gemiddeld 20 maanden, wat de Wet van Moore precies voorspelde. Deskundigen zien geen technische limiet aan deze vooruitgang in de nabije toekomst. Ten tweede wordt die technologie door zeer belangrijke financiële interesses gedragen, o.a. communicatie-, vermaaks-, transport- en elektronica-industrie. Dus kunnen we verwachten dat de technische mogelijkheden inderdaad ook worden gerealiseerd. Bovendien zijn er ontwikkelingen in computerarchitectuur, algoritmiek en compilerbouw, die verdere verbeteringen inhouden. De consequentie voor verbruikers is duidelijk: wat we vandaag doen, doen we over 6 jaar op z'n minst 10 keer sneller. Dus: wat ik vandaag schets, wordt snel beter.
![]() |
FIGUUR 2:
De snelle verbetering in digitale schakelingen is
betrouwbaar constant geweest, zoals deze loglineaire grafiek
aantoont. |
In sommige gebieden zijn elektronische informatiedragers nu al beter en goedkoper dan gedrukte. Ze staan een flexibeler toegang toe omdat men er automatisch in kan zoeken. Verder kan men ze makkelijker bijhouden; men hoeft niet op vervolgedities te wachten -- die natuurlijk meestal sowieso te duur zijn. Bovendien zijn ze goed te koppelen aan andere media, zoals simulatie, animatie, audio, of video. Vooral audio wordt nu al in taal-lerende programma's vaak en winstgevend ingezet.(5) Voor een echte doorbraak richting elektronische informatiedragers ontbreekt er op dit moment echter nog een distributiesysteem. Dit is volstrekt niet triviaal, maar het zal er moeten komen. Het moet technisch, maar ook juridisch en economisch goed in elkaar zitten (het hedendaagse Internet voldoet maar gebrekkig aan de eisen). Men moet informatie bijv. uit Palo Alto kunnen halen net zoals men vandaag daarheen belt. De kosten moeten redelijk en transparant verdeeld worden, intellectueel eigendom moet worden beschermd, en vertrouwelijkheid mag niet worden opgegeven.
Na de grote teleurstellingen over experimenten met film en video in het onderwijs mag men terecht terughoudend zijn over de inzet van nieuwe media in het onderwijs.(6) Anderzijds sluit computergrafiek wel bij oudere tradities aan. De Meno van Plato toont hoe Socrates zijn theorie over aangeboren ideeën demonstreert. Hij tekent een vierkant en vraagt een jonge slaaf een stelling uit de geometrie: hoe verhoudt zich dit vierkant met het vierkant van diens diagonaal? Eerst moet men ook het tweede tekenen. Hier wordt een driehoek zichtbaar, die precies de helft van het origineel uitmaakt. Hij overlapt ook met een geschikt deel van het nieuwe. Als men dit verder bekijkt, ziet men dat het deel precies vier keer in het nieuwe optreedt. Het antwoord is dan alleen maar een kwestie van tellen. Figuur 3 geeft een idee hoe overtuigend dit is.(7)
![]() |
FIGUUR 3: De Meno van Plato is een van de vroegste reflecties over kennis en redenering, en hij benadrukt vooral grafische redenering. |
Grafiek in deze vorm is veel meer dan een leuke toevoeging, of alleen maar illustratie. John Etchemendy en Jon Barwise, twee gedegen logici (en vroegere collega's aan Stanford University), analyseren zulke grafiek op dezelfde manier als logische representaties.(8) In het bijzonder zijn er puur grafische bewijzen mogelijk (en ook gemengd grafisch-tekstuele) in representaties zoals Venn-diagrammen, schakelingsdiagrammen en Euler-diagrammen.
Alfa-Informatica onderzoekt de inzet van informatie-technologie binnen de geesteswetenschappen. Men begon pas een jaar of 25 geleden om letterenthema's door middel van computers onder de loep te nemen. Het verbaast sommigen nog altijd dat men dit überhaupt wil, misschien omdat de computer nog steeds als rekenmachine wordt gezien. Maar de belangrijkste toepassingen van computers vandaag zijn enerzijds tekstverwerking en anderzijds data-opslag en -manipulatie. Pas op de derde plaats komen toepassingen waar wiskundige berekeningen in het middelpunt staan. (Later moet ook communicatie in deze lijst komen te staan.) Men zou eigenlijk kunnen zeggen dat de computer een typisch alfa-werktuig is geworden.(10)
![]() |
FIGUUR 4:
Teksten staan centraal in het moderne letterentrivium. |
Dankzij deze veelzijdigheid van de computer zijn studenten en onderzoekers uit de Letterenfaculteiten vaak voor beeldschermen te vinden. Immers, de machine levert grote voordelen voor hun werk. Het moderne trivium in letteren bestaat uit geschiedenis, literatuur en taalkunde. De computer heeft bij alle letterengebieden ingang gevonden. Voor alle disciplines vervangt hij niet alleen potlood en papier maar ook bibliotheekscatalogus, gegevenslijsten, woordenboeken en thesauri, en steeds grotere delen van de bibliotheek zelf. In alle letterengebieden wordt in teksten gezocht naar referenties, woorden en citaten. Met een computer kijkt men door honderdduizenden bladzijden in dezelfde tijd die eerder voor tien nodig waren. De traditionele wetenschappelijke correspondentie wordt nu al grotendeels elektronisch verzorgd. In de historische wetenschappen zijn databases onmisbaar om de grote hoeveelheden archief-data te organiseren, door te kijken, en ook consistent te houden.(11) Modelbouw, simulaties en vormen van ``counterfactual reasoning'' verschaffen verdere nieuwe inzichten. In de filologie (de oudere traditie van taal- en literatuurwetenschap) moeten tekstvarianten met elkaar worden vergeleken, in een standaard schrift gebracht, en met woordenboeken verbonden. In de taalkunde worden computers verder gebruikt om complexe theorieën te modelleren waarvan de linguïst zonder technische ondersteuning niet alle consequenties kan berekenen.
Er is een natuurlijke taakverdeling tussen taalkunde en computationele taalkunde. De taalkunde (of linguïstiek) beschrijft talen -- bijv. enerzijds hoe ze worden uitgesproken en anderzijds wat ze betekenen. Bij de studie van geluid -- fonetiek en fonologie -- horen vragen zoals welke geluiden in een taal voorkomen, hoe ze variëren, welke klinkers of medeklinkers er zijn, e.d. Bij de studie van betekenis -- semantiek -- horen vragen zoals waarover wordt gesproken, wanneer is een uiting waar of onwaar, wat is de betekenis van een nadrukkelijke uiting, e.d. Uiteraard is de verhouding tussen geluid en betekenis van belang, waarover verdere deelgebieden inlichtingen verstrekken -- morfologie over woordstructuur en syntaxis over de structuur van zinnen en zinsdelen.
| ||||
FIGUUR 5:
Computationele Taalkunde bestudeert de berekeningen die
aan taalprocessen ten grondslag liggen, bijv. ontleden,
herkennen, genereren,
nakijken, sorteren, ontsluiten, of vergelijken. Om dit
te doen, maakt ze gebruik van taalbeschrijvingen vanuit
de beschrijvende (ofwel theoretische) taalkunde. Dit kan
overlappen als de computationele taalkundige verschillende
formuleringen onderzoekt, net zoals
de numerieke informatica gebruik maakt van verschillende
vormen van term-uitdrukkingen.
De doelen vullen elkaar aan. |
Computationele taalkunde neemt taalbeschrijvingen van de linguïstiek over om te bestuderen hoe men hiermee berekent. Een voorbeeld is de net genoemde verhouding tussen geluid en betekenis. De taalkunde beschrijft deze verhouding, en de computationele taalkunde geeft aan hoe men op basis van het één het andere kan berekenen. Het instrumentarium dat we hiervoor inzetten komt uit de informatica: welke berekeningen zijn gegarandeerd uitvoerbaar (beslisbaar)? Kan de verwerking deterministisch zijn? Kan ze incrementeel zijn?(12) Wat is de juiste organisatie van informatie (data-structuur)?(13) Hoeveel tijd en geheugen is nodig (uit de algoritmische complexiteitstheorie)? In het geval van parallelle verwerking, hoe is de communicatie tussen verwerkingseenheden?
De arbeidsverdeling tussen taalkunde en computationele taalkunde wordt soms verduisterd door de vele andere gebruiksmogelijkheden van computers binnen de taalkunde, bijv. als media binnen toepassingen zoals spraakherkennende of spraakbegrijpende systemen [Nederhof, Bouma, Koeling & Van Noord 1997], taalonderwijs-programma's [Jager, Nerbonne & Van Essen 1998], of zoeksystemen; als werktuig voor visualisatie, bijv. om spectrogrammen of analysebomen te tonen [Van Noord & Bouma 1997]; als ingangen tot de reusachtige datareserves in hedendaagse corpora; als opslagmedium voor dataverzamelingen [Nerbonne 1998]; en als werkpaarden waar data-analyse arbeidsintensief is [Nerbonne & Heeringa 1997]. Het gebruik van computers binnen taalkunde volgt niet de bekende lijnen tussen theorie en toepassing, theorie en experiment of theorie en data. Ze worden overal ingezet.(14)
1. | Every governed anaphor must be bound. |
2. | Every governed pronominal must be free (non-bound). |
3. | PRO is an anaphor and a pronominal. |
PRO must not be governed. |
Het is gelukkig niet nodig om alle vaktermen te verklaren.(16) Het gaat om een simpele logische fout. Ik parafraseer het argument eerst: als we de anaforen bekijken, dan zijn alle geregeerde elementen gebonden, en als we pronominalen bekijken, dan zijn alle geregeerde niet-gebonden. Als iets zowel anafoor als ook pronominaal is, dan zou het als het geregeerd was zowel gebonden als ook niet-gebonden moeten zijn, wat uiteraard niet kan. Dus mag men niet aannemen dat zoiets geregeerd mag worden.
Het probleem treedt echter in de definitie van ``governed'' op, die helaas ambigu wordt gebruikt. In het bijzonder worden verschillende definities gegeven voor governed in het geval van anaforen in tegenstelling tot pronomina, wat mogelijk maakt dat iets er wel in de ene maar niet in de andere zin onder zou kunnen vallen.
Dus is dit een voorbeeld van de klassieke drogreden van de ``equivocatie'' -- waar een cruciale term ambigu wordt gebruikt. Logisch wordt dezelfde soort fout gemaakt in het voorbeeld:
1. | Een hoofd weegt vier 4kg. |
2. | George is hoofd van het project. |
George weegt 4 kg. |
Het PRO-theorema komt uit een van de bekendste taalkundige werken van de jaren tachtig, en het werd met zekerheid meerdere honderden keren gelezen zonder dat de fout werd herkend. Het werd pas ontdekt toen men probeerde het te formaliseren voor een implementatie.(17) Het punt hier is dat een grondig toetsen van taalkundige ideeën noodzaak is, en dat implementatie hier hulp biedt. Stabler [1992] en Veenstra [1998] documenteren meerdere vergelijkbare gevallen.
Chomsky is natuurlijk de belangrijkste taalkundige van onze tijd, en verder misschien ook dé meest produktieve bijdrager aan de ontwikkeling van de mathematische linguïstiek ooit. Als dit soort fout ook bij hem schuil kan gaan, is niemand immuun.
Dit verschil alleen zou genoeg zijn om de taalkunde een nieuwe richting te geven. De theoretische taalkunde concentreerde zich van 1957 tot in de jaren negentig op de ``intuïties'' van sprekers, o.a. om het monnikkenwerk van dataverzameling in corpora te vermijden. Chomsky [1965, pp. 3-15] argumenteerde terecht en overtuigend dat intuïtieve data voor enkele doeleinden voldoende waren. Maar de grenzen hiervan zijn na 35 jaar duidelijk, vooral de concentratie op een relatief beperkte gegevensbasis. Ik wil een voorbeeld uit mijn eigen ervaring hiervoor vertellen. Prof. Jindrich Toman verzamelde in 1983 320 voorbeelden van Duitse adjectieven die door -bar-suffigering worden gevormd. Hij speculeerde toen dat dit bijna alle mogelijkheden binnen deze constructie moesten zijn [Toman 1983]. Dat hij probeerde ze allemaal te vinden, was overigens buitengewoon vlijtig. Mw. Susanne Riehemann, een doctoraalstudent in Tübingen, heeft een voorstel over woordvorming verder uitgewerkt dat van mij en Dr. Hans-Ulrich Krieger stamde [Krieger & Nerbonne 1993]. Ze kon in de corpora van het Institut für deutsche Sprache spoedig meer dan 1200 verschillende bar-adjectieven vinden, incl. vele die niet in eerdere classificaties pasten [Riehemann 1993, Riehemann 1998].
Toegepaste wetenschap wordt soms -- vooral binnen Letteren -- als verdacht beschouwd. Het bezwaar van Willa Cather is zeker extreem, maar vergelijkbaar met dat van anderen: ``What has science ever done for man except make him more comfortable?'' (The Professor's House, 1925).(19)
Toepassingen -- zegt de zuiver wetenschappelijke criticus -- brengen misschien financiële steun met zich mee, maar ze maken ons tot dienaars van de mammon, en leiden ons van de grootste en belangrijkste taken af. Dat ook de grootste wetenschappers vaak een vreugde in toepassingen vonden -- men denke aan Einsteins werk aan koelkastpompen, of Keplers meettechniek voor biervaten (d.m.v. ellipsvergelijkingen) -- zou de criticus bevreemden. Mooie voorbeelden zijn ook in Groningen te vinden. De bekendste taalwetenschappelijke bijdrage ooit vanuit Groningen is de (myoelastische-aërodynamische) theorie van stemvorming -- het inzicht dat de stembanden vibreren vanwege het Bernoulli effect, en niet rechtstreeks door spierkracht [Van den Berg 1958]. Prof. Jan-Willem van den Berg heeft echter niet alleen deze theorie ontwikkeld in zijn proefschrift uit 1953, maar hij was ook voortdurend betrokken bij projecten voor therapie voor mensen met strottehoofdletsel, training voor slokdarmstem en ontwikkeling van strottehoofdprothesen -- de zogenoemde ``Groninger button''.
Het is ook zo dat toegepast werk vaak zuiver wetenschappelijke thema's belicht. Dit wil ik in de huidige computationele taalkunde door de disambiguatie illustreren. Een van de eerste resultaten nadat taalkundige theorieën werden geïmplementeerd, was dat de taal als tekensysteem verschrikkelijk ambigu is. Heel gewone zinnetjes zijn ermee besmet:
Huxley kreeg het boek van DarwinBeschrijft van Darwin het krijgen of het boek?
![]() |
FIGUUR 6:
Hoewel het de communicatie nauwelijks stoort, komt
dubbelzinnigheid vaak in taal voor. De bomen verbeelden
de twee manieren om het adverbiaal van Darwin
te interpreteren. |
Misschien gaat het erom dat Darwin Huxley een boek van een derde gaf. Taalkundigen representeren deze ambiguïteit door verschillende structuurbomen, één waar het adverbiaal met het naamwoord boek wordt gecombineerd, en één waar het met het werkwoord wordt gecombineerd. Er rijst dan de vraag: wanneer horen we het één en wanneer het andere?
Meestal neigen we er toe ambiguïteit niet op te merken omdat betekenis, context of kennis een sterke voorkeur voor één structuur geeft:
Huxley kreeg het boek over evolutie.Deze vraag werd sinds vijftien jaar als centraal beschouwd binnen de computationele taalkunde, vooral door mensen die taalbegrijpende toepassingen hebben ontwikkeld. In deze systemen waar de computer menselijke uitingen moet begrijpen, is het onvoldoende de ambiguïteit alleen te representeren. Men moet verder kiezen welke betekenis bedoeld is.
Huxley kreeg het boek in 1859.
![]() |
FIGUUR 7:
Woorden zoals van betekenen relaties die
verschillen, afhankelijke van de soorten die aan elkaar worden
gerelateerd. |
Een eerste mogelijkheid om disambiguatie onder de knie te krijgen bood de soortenlogica. Figuur 7 laat zien hoe objecten in verschillende soorten worden geclassificeerd terwijl relaties bij elke argumentpositie bepaalde soorten eisen. Om het onderscheid in de zinnen in Figuur 6 te analyseren moest men postuleren dat het woord van wel relaties tussen documenten en mensen (de AUTEUR relatie, onder ander) kan aangeven (dus boek van Darwin), en ook tussen overdrachtgebeurtenissen en mensen (dus kregen . . . van, waar van de overdrager in de relatie betekent), en dat relaties tussen boeken en jaren minder voor de hand liggen (die door in worden genoemd).(20) Dit was echter voldoende voor enkele kleine toepassingen.
Bij deze benadering hebben trouwens sommige onderzoekers geprobeerd een begrip van metafoor aan te sluiten [Pustejovsky 1991]. De motivatie is voor de hand liggend: we hebben bijv. hierboven van het boek in de Renaissance gesproken, waar in blijkbaar toch een relatie tussen boeken en tijden aangeeft -- maar hier wordt er iets anders met boek bedoeld: niet het concrete object maar de genus als geheel, een lichte metonymische verschuiving. Deze pogingen blijven interessant, maar niet centraal omdat ze uiteindelijk zeer veel nieuwe ambiguïteiten in het spel brengen.
Hoewel regelgebaseerde benaderingen (waarvan soortenlogica er maar één is) tot op heden worden gebruikt, zijn de meeste onderzoekers ervan overtuigd dat ze uiteindelijk geen afdoende oplossingen kunnen bieden. Hiervoor zijn veel redenen aan te geven. Ten eerste is de kennisverwerving die met deze aanpak gepaard gaat moeilijk en aan fouten onderhevig. Ten tweede zijn de disambiguerende factoren zeer verschillend en moeilijk onder de knie te krijgen. Men kan zich snel overtuigen dat het thema van gesprek een rol kan spelen, maar ook de extra-linguïstische situatie, de kennis over de gesprekspartner, en zelfs algemene kennis van de wereld. Ten derde hebben studies met grote corpora een belangrijke correlatie aangetoond tussen frequentie en disambiguatie, die overigens goed met psychologische studies spoort, maar die slecht is in te zetten binnen aanpakken die uitsluitend regelgebaseerd zijn. Ten vierde -- en bijzonder interessant in Groningen -- past de puur regelgebaseerde aanpak slecht bij alles wat we over de concrete verwerking in de menselijke hersenen weten. De neurowetenschappelijke kijk op cognitie lijkt hier goed te passen.
Statistische aanpakken van disambiguering genieten vandaag grotere populariteit [Hindle & Rooth 1993]. De basisidee is simpel. Men vergelijkt de voorwaardelijke waarschijnlijkheid van de twee concurrerende hypothesen, nl. of de prepositionele woordgroep samengaat met de nominale (NP + PP) of met de verbale (VP + PP)
P(NP + PP | HNP = boek, HPP = van,
HNP (in PP) = Darwin) > P(VP + PP | HVP = krijgen, HPP = van, HNP (in PP) = Darwin) |
waar HNP betekent het grammaticale Hoofd van de Nominale woordgroep (en mutatis mutandis voor de hoofden van de Verbale en Prepositionale woordgroepen).
Men omzeilt het probleem van kennisacquisitie door gebruik te maken van stochastische trainingsmethoden. Men negeert factoren die geen weerslag in corpora vinden. Men mikt op frequentie-effecten. Statistische aanpakken zijn ook nauwer verwant aan modellen in neurocomputing vanwege hun gevoeligheid voor frequentie. Stellig is het te vroeg om de statistische aanpak tot winnaar uit te roepen, maar hij levert nu betere prestaties voor het disambigueringsprobleem in sommige experimenten.
Verder is het zo dat de statistische methoden net zo goed op klassieke problemen van de taalkunde toe te passen zijn. Dit punt is de ontwikkelaars van statistische methoden uiteraard niet ontgaan. Zo komt het dat dit zeer toegepaste werk conclusies over taalkundige theorieën trekt. Mijn collega prof. Remko Scha spreekt al van een performance-gerichte taalkunde [Bod & Scha 1996], terwijl Dr. Abney een reeks van taalkundige feiten identificeert waarvan de preciese formulering statistisch lijkt te zijn [Abney 1996].
Mijn doel is te onderstrepen dat toegepast werk ook zuiver wetenschappelijke vernieuwing kan stimuleren. Het werk over disambiguatie ontstond om toepassingen te ondersteunen ook daar waar niet op een taalkundige basis kon worden gebouwd. Na een tiental jaren blijkt dat de beste huidige methoden voor dit toegepaste probleem ook inzicht in zuiver taalkundige thema's bieden. Het is nu nog onduidelijk of het meest recente werk op dit gebied een echte wetenschappelijke verschuiving veroorzaakt. Dat is iets voor verdere experimenten, en een later verhaal.
Om de kring te sluiten wil ik vooral aan de jongere letterenspecialisten appelleren mijn verhaal niet als specialistisch geklets op te nemen. Het werk over elektronische informatiedragers zou wel degelijk van uw letterendeskundigheid kunnen profiteren. Wie weet beter dan U wat teksten zijn, hoe ze logisch in elkaar zitten, welke eigenschappen van teksten te verklaren zijn door hun inessentiële traditie als drukwerken, en welke toch wezenlijk voor hun rol als informatiedragers zijn? Zijn deze -- ook zeer toegepaste -- vragen niet interessant voor het begrip ``tekst'' waarmee wij al eeuwenlang worstelen?
Vanzelfsprekend kan men over mijn verhaal sceptisch zijn, en men moet toegeven dat scepticisme in zulke vragen een eerbare traditie heeft. Ik wil sluiten met nog een citaat van Socrates, deze keer zijn oordeel over een voor hem nieuw medium, het schrift:
``. . . door hun vertrouwen in het schrift te stellen, zoeken zij met behulp van vreemde tekens hun geheugen buiten zichzelf [. . .] Gij schaft uw leerling de schijn van wijsheid, maar niet de waarheid. Want als ze veel hebben gelezen zonder onderricht, zullen zij de indruk maken veel te weten, terwijl ze in feite onwetend zijn en lastig in de omgang [. . .]'' Plato Phaidros: 275a
Aan het eind van mijn rede gekomen, wil ik een woord van dank voor mijn benoeming richten aan het College van Bestuur en aan de Faculteit der Letteren. En ik wil een aantal persoonlijke woorden zeggen.
Ten eerste een zeer persoonlijk woord van dank aan mijn familie. Aan mijn moeder voor haar vertrouwen, aan mijn vrouw Ellen die het mij steeds lichter maakt, en verder aan Eamon en Brendan, die nooit ophouden met het stellen van de gekste vragen -- de beste vragen.
Ik wil deze gelegenheid gebruiken om mijn eigen leraren te bedanken, vooral David Dowty, Arnold Zwicky en Alfred Schopf, gewetensvolle en uitdagende voorbeelden voor een jonge wetenschapper. Een dank ook aan oude collega's, waarvan ik veel leerde: Dan Flickinger, Mark Gawron, Erhard Hinrichs, Bill Ladusaw, Carl Pollard en Tom Wasow. De wat jongere collega's Uli Krieger en Klaus Netter wil ik evenmin weglaten. Als ze niet zo koppig waren geweest, zou ik in nog dieper ongelijk verkeren.
Dames en heren hoogleraren in de Faculteit der Letteren, mijn waarde collega's,
Zoals ik heb uiteengezet, zijn er belangrijke kwesties die ons gemeenschappelijk aangaan. Ik verheug me op de samenwerking met u. Een bijzonder dankwoord wil ik richten aan collega's die mijn aankomst in een nieuwe omgeving makkelijker en produktiever hebben gemaakt. Ik denk aan Frans Zwarts, Werner Abraham, Tjeerd de Graaf, en Jack Hoeksema.
Dames en heren Alfa-Informatici,
Beste Gosse, Gertjan, Harry, George en Bert,
Het leukste voor mij bij het werk in Groningen zijn onze praatjes, hoe men het volgende probleem moet aanpakken, hoe men benadering x juist opvat, en -- zoals altijd -- kan dat niet beter? Verder hebben jullie mij onder moeilijke omstandigheden welkom geheten, mijn eerste taalpogingen in een beter op het Nederlands lijkende richting gestuurd, en mijn eerste ervaringen met een volstrekt vreemde bureaucratische omgeving begrijpbaarder gemaakt. Gelukkig hadden we ook tijd voor inhoudelijke kwesties gedurende deze tijd. Ik dank jullie voor de steun en hulp in de laatste drie jaar, en verheug me op onze samenwerking in de toekomst.
Dames en heren doctorandi, studenten, jongelui,
Ik stel jullie enthousiasme zeer op prijs. Het is voor mij een reden om blij te zijn over mijn beslissing naar de universiteit terug te komen. Nu bevind ik me soms in een adviseursrol. Het volgende advies is aan jullie gericht, maar ik wil mezelf er ook aan houden. Ik zei al dat wij in de eerste dagen van elektronische informatiedragers leven, in het tijdperk van de elektronische incunabelen. Vergillius herinnert ons dat de beste dagen soms snel weg zijn. Optima dies . . . prima fugit.
De conclusie is duidelijk: go for it.
Ik heb gezegd.(21)
1. | Voor het eerst door Ted Nelson voorgesteld [Nelson 1965]. | |||
2. | Het werken met hyperteksten is overigens de inhoud van een Alfa-Informatica cursus voor eerstejaars studenten. Deze cursus werd door mijn collega's dr. Harry Gaylord en dr. Bert Bos ontwikkeld. Hij heeft geen entreevoorwaarden zoals programmeerkennis. Zie http://www.let.rug.nl/alfa/classes.html. | |||
3. | Herverteld in Burke [1985, p. 113]. | |||
4. | Het incunabel is in bezit van de Universiteitsbibliotheek, Rijksuniversiteit Groningen, en wordt gebruikt door de vriendelijke medewerking van de bibliothecarissen Alex Klugkist en Alie Bijker. | |||
5. | Zie Rothenberg [1998] voor een voorbeeld van hoe audio zelfs op afstand wordt ingezet. | |||
6. | Mijn collega Wim Liebrand citeert graag Thomas
Edison die aan het begin van de eeuw schreef (geciteerd door
Cuban [1986]):
Books will soon be obsolete in the schools [. . .] The motion picture is destined to revolutionize our educational system. | |||
7. | Het idee voor deze animatie heb ik van een lezing van John Etchemendy, hoogleraar wijsbegeerte in Stanford, die er ook één maakte. | |||
8. | Hun bijdrage is een van meerdere interessante in Chandrasekaran & Glasgow [1995]. | |||
9. | De tekening van Larson staat in de gedrukte versie van deze oratie. Het laat zien hoe een van zijn holenmensen stapt op een hark en krijgt de steel in zijn gezicht. Het kan eerst stroef gaan bij de inzet van nieuwe ideeën. De cartoon is getiteld ``De ontdekking van werktuigen''. De tekening van Larson werd in het boekje met permissie gebruikt. De achtergrond van deze permissie illustreert een van de problemen die elektronische incunabelen vandaag oproepen. Met name wou het bedrijf dat Larson vertegenwoordigt geen gebruik van zijn tekening veroorloven in elektronische vorm. Hun redenering is dat elektronisch gebruik te weinig bescherming van de rechten van de auteur garandeert. Misbruik door illegaal kopiëren is te makkelijk. Daarom staat zijn tekening ook niet in deze elektronische versie van het betoog. | |||
10. | Zie het rapport van Bos [1993] over de eisen die een Letterenfaculteit stelt aan informatiesystemen. | |||
11. | Zie Welling [1998] voor een recent voorbeeld van de inzet van databases in de geschiedschrijving. | |||
12. | Van Noord [1997] en Nerbonne [1996] zijn voorbeelden van dit type van vraag. | |||
13. | Een interessant voorbeeld hiervan zijn de ideeën van Flickinger over hiërarchische structuren in het lexicon [Flickinger & Nerbonne 1992, Bouma & Nerbonne 1994]. | |||
14. | De verwerkingsvraag is niet alleen bij ontleden en genereren toepasbaar, maar overal waar informatieverwerking door middel van taal plaatsvindt. Tjong Kim Sang [1998] en Stoianov, Bouma & Nerbonne [1998] passen methoden vanuit machinaal leren op het probleem van taalverwerving. | |||
15. | De presentatie is ontleend aan Chomsky [1986] en vooral aan de kritiek in Pollard [1993]. | |||
16. | Toch wil ik de taalkundige meer details bieden.
Chomsky [1986] bespreekt de volgende zin (229) als tegenvoorbeeld omtrent de complementaire verdeling van reflexieven (anaforen) en pronominalen:
What we want to say, then, is that the relevant governing category for an expression e is the least complete CFC [NP or S (JN)] containing a governor of e in which e could satisfy the binding theory with some indexing (perhaps not the actual indexing of the expression under investigation). Thus in (229) the clause is the relevant governing category for the anaphor, but the NP is the relevant governing category for the pronoun. Under this interpretation of the binding theory, the examples in (229) will be exactly as predicted. [Chomsky 1986, p. 171]Maar stel dat een element in deze positie optreedt dat zowel anafoor als ook pronomen was (PRO). Omdat het pronominaal is, moet zijn regeerbereik de hele zin zijn, maar omdat het anafoor is moet zijn bereik de NP zijn waarin hij als determinator functioneert. Uiteraard zouden verdere stipulaties (bijv. die verbieden dat de problematische elementen op die plaats überhaupt optreden) het probleem kunnen oplossen, maar dan dienen ze benoemd te worden -- wat hier niet gebeurt. | |||
17. | Formalisatie alleen was natuurlijk voldoende geweest om het te ontdekken. Ik wil hier niet over de verschillende rollen van formalisatie en implementatie spreken, die allebei belangrijk zijn. | |||
18. | Cole, Mariani, Uszkoreit, Zaenen & Zue [1996] is een nuttig overzicht van huidige technologie en toepassingen. | |||
19. | Cather miste bij de exacte wetenschappen morele verbetering -- maar 70 jaar later zijn wij minder optimistisch dat dit door cultuurwetenschappelijk onderwijs en onderzoek wordt bevorderd. | |||
20. | Voor volledigheid dient hier te worden gezegd dat men verder aanneemt dat over relaties tussen documenten en entiteiten denoteert, maar normaliter geen relaties ten opzichte van het overdragen van bezit (in combinatie met krijgen). Het kleine voorbeeld is dan ook niet perfect: met weinig moeite kan men uitdrukkingen vinden die aan aantonen dat de aannamen hier vrij beperkt zijn in hun toepassing. | |||
21. | Voor hulp met het Nederlands in dit praatje dank ik George Welling en Gertjan van Noord, en voor de tekeningen van Darwin en Huxley dank aan Tony Mullen. Een dank ook -- last but not least -- aan Peter Kleiweg die onmisbare assistentie bood in het voorbereiden van het manuscript, in een benadering van de taal aan Nederlands, en die ook goed op de inhoud let. |