TOPIC toepassingen aan de KUB
Hans Roes
Bibliotheek Katholieke Universiteit Brabant
HTML versie van een artikel dat oorspronkelijk verscheen in DB/M Database Magazine 3(4) juli/augustus 1992. Tekst kan hier en daar licht afwijken, de inhoud is echter ongewijzigd.
Inleiding
Full text retrieval en document beheersingssystemen nemen een steeds belangrijker plaats in op de automatiseringsmarkt. Snel in opkomst is het pakket Topic van Verity. Dit artikel gaat in op de merites van Topic aan de hand van ervaringen die de afgelopen anderhalf jaar met het pakket zijn opgedaan aan de Katholieke Universiteit Brabant (KUB). De toepassingen van het pakket liggen aan de KUB vooral in de bibliothecaire sfeer. Dit neemt niet weg dat uit deze ervaringen ook bredere lessen kunnen worden getrokken, bijvoorbeeld in de sfeer van kantoorautomatisering.
Allereerst wordt ingegaan op de achtergronden van de situatie aan de KUB en de redenen waarom voor Topic werd gekozen. Vervolgens worden de voornaamste toepassingen die momenteel in produktie zijn besproken. Daarna wordt dieper ingegaan op het meest intrigerende aspect van het pakket: full text retrieval op basis van concepten en het probleem dat de implementatie daarvan oplevert. In dat kader worden ook programmatische oplossingen voor dit probleem beschreven. Voorts worden enige toepassingen die momenteel in een ontwikkelstadium verkeren beschreven en wordt kort ingegaan op de mogelijkheden die de nieuwe release (versie 3.1) zal gaan geven. Tot slot wordt een evaluatie van het pakket vanuit beheers- en gebruikersaspecten gegeven.
Het Tilburgse HT DIC programma
Drie jaar geleden kreeg de KUB toestemming van het ministerie van Onderwijs en Wetenschappen voor de bouw van een nieuwe bibliotheek. Deze gelegenheid werd aangegrepen om de positie van de bibliotheek in de universitaire processen van onderwijs, onderzoek en maatschappelijke dienstverlening te heroverwegen en op een meer moderne leest te schoeien. Informatisering zou daarin een belangrijke rol moeten spelen. Dit leidde tot het zogenaamde High Tech Documentation Information and Communication (HT DIC) programma. [1]
Kernbegrippen in dit HT DIC programma zijn werkplekintegratie en kennisnavigatie. Studenten en medewerkers zouden in staat moeten zijn vanaf hun desktop op zoek te gaan naar kennis die in allerlei bestanden in binnen- en buitenland ligt opgeslagen en deze op dezelfde werkplek te verwerken tot nieuwe informatieprodukten. Gesteld kan worden dat dit doel grotendeels bereikt is sinds op 9 maart jongstleden het nieuwe bibliotheekgebouw werd betrokken.
De zogenaamde geïntegreerde werkplek is een 386SX DOS PC met een MS Windows grafisch user interface (GUI) welke een keur aan mogelijkheden biedt op het gebied van tekstverwerking, statistische en rekenprogrammatuur etc. en toegang geeft tot een veertiental services die op centrale VAX machines zijn geïmplementeerd. Onder die services vallen de Online Publieks Catalogus (OPC) een Campus Wide Information Service, diverse VUBIS databases (waaronder Excerpta Informatica) en een viertal Topic databases. Uiteindelijk zullen via deze KUBgids ook bestanden buiten de KUB benaderbaar worden. Door het inbouwen van intelligentie in deze KUBgids moet het doel van kennisnavigatie worden bereikt. [2]. In de nieuwe bibliotheek zijn 250 PC's opgesteld ten behoeve van studenten, terwijl in een grote inruilactie ook de werkplek computers van de staf (1400) in een klap werden gemoderniseerd.
De keus voor Topic
Verbetering van de toegang tot informatie impliceerde in dit programma ook een verbeterde ontsluiting van de literatuur welke in tijdschriften wordt gepubliceerd. Traditioneel is via de OPC slechts te achterhalen welke jaargangen van welke tijdschriften zich in een bibliotheek bevinden. Welke artikelen in deze tijdschriften zijn gepubliceerd valt in zo'n wereld alleen te achterhalen door naar de bibliotheek toe te gaan en de tijdschriften door te bladeren. Wel bestaan er voor wetenschapsgebieden met een commerciële markt al jarenlang gespecialiseerde databases, maar deze zijn arbeidsintensief -en dus duur- in onderhoud. Vandaar dat ze alleen worden opgezet voor die delen van de collectie welke ook een commercieel perspectief bieden. Doel was echter om het vanuit een wetenschappelijk oogpunt belangrijkste deel van de collectie tijdschriften adequaat te ontsluiten, tegen een betaalbare prijs. Dit vereist goedkope invoer en een sterk retrievalpakket. Door het kiezen van een sterk retrieval pakket kan namelijk een belangrijk bezwaar van het ontbreken van handmatig indexeren van artikelen, het toekennen van trefwoorden, ondervangen worden. Hoe dit in zijn werk gaat zal duidelijk worden bij de nadere bespreking van topics als concept retrieval mechanisme. Het probleem van de goedkope invoer werd opgelost door te kiezen voor scanning en optical character recognition. Uiteraard is dit geen honderd procent geautomatiseerd proces, handmatig editen en taggen is nog steeds nodig al wordt hier via eigen ontwikkelde programmatuur interessant vooruitgang geboekt.
Een belangrijke nog niet genoemde overweging bij de beslissing om over te gaan op het pakket Topic was een strategische. De overtuiging bestond en bestaat dat steeds meer informatie in full text vorm beschikbaar zal komen, daarbij zal ongetwijfeld sprake zijn van een groot aantal formaten, variërend van SGML (Standard Generalized Markup Language) dat in de uitgeverswereld sterk in opkomst is, en ODA (Office Document Architecture) tot allerlei formaten tekstverwerkings- en Desk Top Publishing pakketten. Een van de aantrekkelijke aspecten van Topic is dat het de documenten in de oorspronkelijke vorm laat, en de mogelijkheid biedt om diverse formaten in dezelfde database naast elkaar te laten functioneren door middel van het gebruik van filters. Sommige van die filters kunnen ge-customized worden. In deze zin geven sommigen er ook de voorkeur aan Topic een retrieval engine in plaats van een dbms te noemen.
Het waren met name deze twee aspecten, concept retrieval en de mogelijkheid met documenten in uiteenlopende oorspronkelijke formaten te kunnen werken, die de doorslag gaven om de test met een ander pakket te stoppen in december 1989 en de overstap te wagen naar Topic. Overigens was dit geen makkelijke beslissing. In ruim een half jaar was een flinke expertise opgebouwd met het andere pakket en leek het mogelijk om binnen korte tijd een Online Contents service voor het ontsluiten van tijdschriftartikelen operationeel te hebben. In diezelfde decembermaand werd door het management besloten dat begin april 1991 een Online Contents service aan de universitaire gemeenschap moest worden aangeboden op de werkplek. Kortom er waren drie maanden beschikbaar om met behulp van Topic een Online Contents service te realiseren. Dit doel bleek gemakkelijk haalbaar.
Implementaties aan de KUB
Aan de KUB zijn op dit moment een viertal Topic databases in produktie en derhalve via het universitaire netwerk beschikbaar voor studenten en medewerkers. Tegen betaling is een van deze databases, Online Contents, ook voor derden bereikbaar via Datanet, Surfnet of inbellijnen. De overige drie services zijn vanwege contractuele redenen alleen via het interne netwerk raadpleegbaar. Deze drie zijn de KUB/ESP Current Awareness Service, waar nader op ingegaan wordt; Samsom's Nederlandse Gids Software pakketten, een database publishing project van Samsom Bedrijfsinformatie uitgevoerd door Excerpta Informatica waarbij de rechten werden verkregen deze database intern toegankelijk te maken; en tot slot de NCRD database, welke rechtshistorische documentatie bevat. Er worden tests uitgevoerd om een aantal belangrijke interne documenten zoals wetenschappelijk jaarverslag en studiegidsen van faculteiten ook via Topic te ontsluiten voor de universitaire gemeenschap.
Online Contents
De Online Contents Service (OLC) bevat de gescande en ge'ocr-de inhoudsopgaven van de circa 1500 belangrijkste tijdschriften die de KUB bibliotheek in abonnement heeft. Deze tijdschriften worden dagelijks gescand en ingevoerd in de database. Nadat de eerste produktieslag heeft plaatsgevonden worden door middel van preprocessing een aantal belangrijke gegevens, welke in een relationele (Ingres) database zijn opgeslagen toegevoegd. Deze betreffen met name bibliografische gegevens zoals bijvoorbeeld de onderwerpscodering van het tijdschrift. Ook worden in deze slag document separators toegevoegd welke dienen als record scheider aangezien meerdere records in een bestand kunnen voorkomen. Na deze slag zijn de inhoudsopgaven klaar voor invoer in de Topic database. Dit proces is verloopt grotendeels via commando procedures op operating system niveau (VMS).
Bij het proces van database opbouw en update kan in de meest minimale vorm (indien we uitgaan van ASCII records) bij Topic volstaan worden met een viertal commando files:
- de style.ddd file beschrijft de data structuur van de documenten. Er wordt een onderscheid gemaakt in zogenaamde gestructureerde velden en het dispatch veld dat doorgaans vrije tekst bevat,
- de style.dmv file geeft aan hoe de documenten ge-parsed worden. Met behulp van UNIX regular expression syntax wordt herkend waar gestructureerde velden en dispatch veld beginnen en eindigen en worden record scheiders herkend,
- de style.dft file waarin aangegeven wordt hoe een document in de database gepresenteerd dient te worden in het geval van een volledige view,
- de defaults. file ten slotte geeft de datapaden aan van de directories waarin de bestanden en indexen zijn te vinden. Tevens wordt hier geregeld hoe documenten in verkorte lijstvorm worden gepresenteerd en welke gestructureerde velden met behulp van zogenaamde filters afzoekbaar zijn. Ook geeft de defaults file de mogelijkheid om een logfile te specificeren waarin de acties van de gebruikers op de database worden gelogd. In Tilburg wordt deze mogelijkheid benut om het gebruik te monitoren, in de toekomst kunnen deze gegevens echter ook een rol spelen bij het management van de tijdschrift collectie. Er kan immers worden nagegaan van welke tijdschriften de inhoudsopgaven vaak (of nooit !) online geraadpleegd worden.
Indien sprake is van enigszins gestructureerde documenten is het mogelijk om het proces van database bouw snel onder de knie te krijgen. Een van de deelnemers aan de tweedaagse dba cursus welke door Verity werd verzorgd had aan het einde van de eerste dag zijn electronic mail berichten van de maanden daarvoor in een werkende Topic database geplaatst. Hoe een inhoudsopgave er in Topic's Document Viewer uitziet is te zien in figuur 1.
Help Search Topics Filters Documents Exit __ Document Viewer________________________________________________________ Computers in industry : international journal of experience and practice on computer applications in industrial and technological processes T-nummer : 6968 . Jaar : 1992 . Volume : 18 . Nummer : 3 . UDC : 650.53(05) / 658.5(05) / 650.54(05) . Invoer : 13-apr-92 . Inhoudsopgave ------------------------------------------------------------ Information systems: A key ingredient to achieving organizational competitive strategy Cardinali,R. 241 FACES (Forming Attachment of Components Expert System) and issues of its development __________________________________________________________________________ Document 37 of 9679 Line 1 of 60 Online Contents Database Topic Copyright(c) 1988, 1990 Verity, Inc. kublib.kub.nl 20:14:28
Figuur 1.
Een inhoudsopgave in de Topic Document Viewer
>Van de geselecteerde tijdschriften worden de jaargangen vanaf 1991 ingevoerd. Het gebruik van de database is tweeledig. Allereerst kunnen zogenaamde current awareness zoekacties worden uitgevoerd: het browsen door inhoudsopgaven van tijdschriften waarin men geïnteresseerd is, een proces waarvoor vroeger een bezoek aan de bibliotheek nodig was, maar dat nu vanaf de eigen werkplek waar dan ook op de campus, dan wel thuis kan worden ondernomen. Ten tweede kan de gehele database als uitgangspunt worden genomen voor meer onderwerpsgerichte zoekacties. Het spreekt voor zich dat naarmate de database groeit zoekacties van de laatste soort interessanter worden. Gegeven de dynamiek in de wetenschap mag verwacht worden dat binnen twee a drie jaar voldoende kritische massa is bereikt.
KUB/ESP Current Awareness Service
In een wat breder kader bezien is het zelf scannen en ocr'en van inhoudsopgaven een licht absurde zaak. Immers in de uitgeverswereld stijgt ook de automatiseringsgraad en zijn veel artikelgegevens en zelfs hele artikelen al in machine leesbare vorm beschikbaar. Voorts hebben uitgevers er belang bij dat hun tijdschriften goed ontsloten worden. Deze overwegingen hebben geleid tot een samenwerkingsproject tussen de KUB en Elsevier Science Publishers waarbij de laatste maandelijks op diskette de uitgebreide artikelgegevens van een aantal van haar tijdschriften waarop de KUB een abonnement heeft aanlevert. Deze gegevens bevatten naast die welke ook in Online Contents worden opgenomen de samenvattingen en door de redactie toegekende trefwoorden. Deze gegevens bevatten derhalve ook meer tekst, waardoor de retrieval aspecten van het pakket duidelijker tot hun recht komen. De gegevens worden aangeleverd in SGML, zodat ook meteen ervaring kon worden opgedaan met het gebruik van filters. Dit nu bleek een zeer frustrerende ervaring.
Topic biedt de mogelijkheid om bij SGML te kiezen tussen een standaard filter en een volledig customized filter, waarbij overigens het standaardfilter via een mapping file licht ge-customized kan worden. Aangezien filters in de woorden van Cliff Reid, een van de grondleggers van Verity, "more ignore than interpret", werd in eerste instantie gekozen voor het bouwen van een customized filter teneinde de rijke set SGML tags zo volledig mogelijk te kunnen vertalen. Helaas bleek dit te resulteren in onverklaarbare fouten bij het parsen van de documenten. Document separators werden niet herkend zodat de records verminkt in de database kwamen. Verity suggereerde een oplossing om ieder record in een aparte file te plaatsen, maar voor wie bekend is met het VMS operating systeem, zal duidelijk zijn dat dit al snel leidt tot meer files dan VMS aan kan. Derhalve werd verder geëxperimenteerd met het standaard filter. Dit nu bleek de eigenaardige eigenschap te hebben om regelovergangen te vertalen in spaties. Hierdoor werden woorden in stukken gehakt, met alle gevolgen voor de woordindex vandien. Verity Benelux noch Verity USA wisten een uitweg uit dit dilemma. Uiteindelijk werd met een groot deel geluk en een klein deel wijsheid een zeer onorthodoxe oplossing gevonden. Allereerst werd een eenvoudige preprocessor in C geschreven die in de oorspronkelijke documenten zoekt naar spaties voor regelovergangen en op die spaties zelf regelovergangen forceert. Voor het parsen wordt gebruik gemaakt van het standaard filter met een kleine mapping file, terwijl bij het indexeren en displayen het customized filter wordt gebruikt.
Zoeken in een Topic database
Voordat wordt ingegaan op het zoeken in een Topic database dient eerst de structuur van zo'n database nader toegelicht te worden. Topic organiseert zijn documenten in zogenaamde partities welke sequentieel afgezocht worden. Tussenresultaten worden direct getoond in de Results Browser (een verkorte lijst, zie figuur 2.). Terwijl op de achtergrond zoekacties in andere partities doorgaan, kunnen alvast inhoudsopgaven worden bekeken. Met name in zeer grote databases een voordeel. De meest recente partities staan altijd bovenaan. Het is mogelijk partities later samen te voegen. Zo worden in Tilburg partities aangemaakt voor de produktie van elke dag. Na afloop van een week worden deze samengevoegd. Per kwartaal worden vervolgens weer de weekpartities samengevoegd. Deze partitie benadering heeft meerdere voordelen. Naast het al genoemde bekijken van tussenresultaten van zoekacties opent het de deur naar een gedistribueerde oplossing waarbij partities over meerdere CPU's in een LAN of zelfs WAN kunnen worden verspreid. Met de komst van versie 3.1. is ook de zogenaamde Partition Server beschikbaar waarover hieronder meer.
Help Search Topics Filters Documents Exit - __ Results Browser _______________________________________________________ Presented: 26 of 26 Processed: 2333 of 2333 ... ________________________________________________________________________ 1 1.00 Cognition : international journ 1992 42 1-3 14-apr-92 o 2 1.00 Journal of the American Society 1992 43 2 06-apr-92 * 3 1.00 Program : news of computers in 1992 26 2 01-apr-92 * 4 1.00 Computers & mathematics with ap 1992 23 6-9 31-jan-92 * 5 1.00 Psychology and aging 1991 6 4 31-jan-92 * 6 1.00 Connection science : journal of 1991 3 4 30-mar-92 | 7 1.00 Information processing & manage 1992 28 2 30-mar-92 | 8 1.00 Sigir forum : a publication of 1992 25 2 27-feb-92 | 9 1.00 Behavioral neuroscience 1991 105 6 23-jan-92 | 10 1.00 Contemporary educational psycho 1992 17 1 22-jan-92 | 11 1.00 Information systems : data base 1991 16 6 16-jan-92 v ________________________________________________________________________ Titel: Cognition : international journal of cognitive psychology T-nummer: 3650 Jaar: 1992 Volume: 42 Nummer: 1-3 UDC: 159.95 Invoer: 14-apr-92 __________________________________________________________________________ Word: 'RETRIEVAL' Filters: OFF Retrieved: 26 of 2333 Online Contents Database Topic Copyright(c) 1988, 1990 Verity, Inc. kublib.kub.nl 20:12:12
Figuur 2.
De Results Browser
Naast het triviale browsen door de gehele database kan op een viertal manieren een meer gerichte zoekactie worden uitgevoerd. Met filters (niet te verwarren met bijvoorbeeld het SGML filter dat een rol speelt bij invoer) kan een string match gedaan worden op de gestructureerde velden. Zo levert invullen van de string "database" in het veld tijdschrifttitel alle afleveringen van tijdschriften met het woord database in de titel. Met behulp van filters is het ook mogelijk om de resultaten van een zoekactie te beperken tot een bepaalde periode. Meer mogelijkheden worden duidelijk in figuur 3.
Help Search Topics Filters Documents Exit __ Set Filters ___________________________________________________________ Category Operator Selection Titel: Includes database T-nummer: Includes Jaar: Includes Volume: Includes Nummer: Includes UDC: Includes Invoer: From: To: ____________________ Execute Clear ____________________ __________________________________________________________________________ Type filter information. Online Contents Database Topic Copyright(c) 1988, 1990 Verity, Inc. kublib.kub.nl 20:15:55
Figuur 3.
Het Filter scherm
Naast deze vorm van zoeken die sterk aan Query by Example doet denken kent Topic drie mogelijkheden om free text te zoeken. De eerste mogelijkheid is word search waarbij aan de hand van de woordenlijst gezocht kan worden naar het voorkomen van een bepaald woord in de database. De tweede mogelijkheid is Boolean Plus searching. Hierbij kunnen combinaties tussen meerdere woorden opgegeven woorden waarbij Topic een zeer uitgebreide set operatoren kent. Naast de traditionele Booleaanse AND, OR en NOT zijn er de adjacency of nearness operatoren PHRASE (woorden achter elkaar in de aangegeven volgorde), SENTENCE (woorden in één zin, niet noodzakelijk in de aangegeven volgorde) en PARAGRAPH (woorden in één alinea, niet noodzakelijk in de aangegeven volgorde). Variant op de AND operator is de zogenaamde ALL operator, en varianten op de OR operator zijn de ANY en WORDGROUP operator. Het verschil bestaat daarin dat de AND en OR operator met gewichten kunnen werken. Dit fenomeen wordt van belang bij concept retrieval. De laatste operator is de zogenaamde ACCRUE operator. Deze kan het best gezien worden als een tussenvorm van de AND en OR operatoren. Scoort de AND operator alleen wanneer alle opgegeven termen aanwezig zijn en de OR indien slechts een van alle opgegeven termen voorkomen, de ACCRUE operator scoort hoger naarmate méér van de opgegeven termen voorkomen.
Met behulp van deze operatoren en de mogelijkheid om bij sommige operatoren gewichten toe te kennen aan de termen (waarbij wildcards uiteraard zijn toegestaan) om het belang van die termen voor de zoekvraag aan te geven, kunnen vrij complexe queries worden gebouwd. Daarmee zijn we aangeland bij het onderwerp topics.
Topics
Topic is vrijwel zeker gebaseerd op eerder wetenschappelijk werk van Tong et. al. [3]. Vrijwel zeker, aangezien over Topic en zijn oorsprong zeer weinig literatuur te vinden is. Wel worden vaker twee naamgenoten gevonden waarvan er een verwant lijkt, maar dat zeker niet is.
Het idee achter topics kan in zijn meest eenvoudige vorm begrepen worden door een topic op te vatten als een representatie van een booleaanse query in de vorm van een boomstructuur. De wortel is de hoofdtopic welke een naam heeft, de takken leiden tot knooppunten welke op zich weer (sub)topics kunnen zijn, maar uiteindelijk eindigt de topic in bladeren welke woorden, of woordstammen kunnen zijn. De verbindingen in de boom worden gevormd door de operatoren en sommige operatoren (AND, OR en ACCRUE) zijn in staat om gewichten te accepteren van termen. Een voorbeeld van een relatief eenvoudige topic wordt gegeven in figuur 4.
Help Search Topics Filters Documents Exit __ Topic Editor __________________________________________________________ PARENTS CURRENT CHILDREN /- 0.80 information-retrieval-uf-- --information-scie---information-retr--+- 0.80 information-retrieval-rt-- Accrue |- 0.50 bibliographic-retrieval -- |- 0.50 fact-retrieval -- |- 0.50 legal-information-retrie-- |- 0.50 retrieval-system -- |- 0.50 sdi -- \- 0.50 text-retrieval -- __________________________________________________________________________ information-retrieval KUB/ESP Current Awareness Service Topic Copyright(c) 1988, 1990 Verity, Inc. kublib.kub.nl 20:18:07
Figuur 4.
Een topic gerepresenteerd in een boomstructuur
>Topic levert een topic editor waarmee deze boomstructuur zichtbaar wordt gemaakt. Dit heeft het enorme voordeel dat een complexe booleaanse query, waarbij zelfs zeer ervaren searchers wel eens een haakje vergeten of zich vergissen in de volgorde waarin een query wordt geëvalueerd, op relatief inzichtelijke en overzichtelijke wijze kan worden opgebouwd. Daarmee is het mogelijk vrij nauwkeurig te bepalen of een document zal voldoen aan de gestelde zoekvraag. Door de mogelijkheid om aan te geven wat het relatieve gewicht van de zoektermen is wordt min of meer een oplossing bereikt voor het in information retrieval aloude probleem van de afruil tussen recall en precision (een omvangrijk resultaat van een zoekactie kent doorgaans veel ruis, terwijl nader afbakenen het risico met zich mee brengt van het missen van voor de zoekvraag relevante records). Topic rangschikt de records naar de mate waarin ze scoorden op de zoekvraag.
De natuurlijke neiging ontstaat om vrij snel omvangrijke en complexe queries te bouwen, zeker door de mogelijkheid om eerder gebouwde topics weer als subtopic onder een andere topic te hangen. Om te voorkomen dat dit zou leiden tot onacceptabele responstijden zijn in Topic niet alleen de records op woordniveau geïndexeerd, maar worden ook topics geïndexeerd. In samenhang met de partitie benadering betekent dat in de praktijk weinig op het bureau trommelende vingers.
Topics als kennisrepresentatie
Een groot voordeel is voorts dat topics in het systeem opgeslagen kunnen worden. Een goed geformuleerde query blijft daarmee beschikbaar ook voor minder ervaren literatuuronderzoekers. In die zin kan gesproken worden van een kennissysteem. Door de topic een adequate naam te geven kan deze gezien worden als een trefwoord dat zelf op zoek gaat naar het document dat het dient te ontsluiten. Gebruikers hoeven in de Topic Browser slechts te kiezen uit een lijst "trefwoorden", de namen van de topics. Overigens kunnen gebruikers zelf aanpassingen verrichten aan in het systeem aanwezige topics en deze aanpassingen bewaren in hun eigen zogenaamde "user area", zonder daarmee de "system topics" te veranderen.
Vanuit bibliothecair oogpunt zal het voordeel duidelijk zijn. Waar in een traditionele database ieder record afzonderlijk van trefwoorden dient te worden voorzien en dit tot in lengte van dagen voor nieuw binnenkomende records dient te gebeuren, zal een eenmaal gebouwde topic tot in lengte van dagen ook nieuw binnenkomende records herkennen als relevant voor een zoekvraag. Uiteraard dient ook een topic set onderhouden te worden.
Tot zover de theorie. In de praktijk blijkt het voor documentalisten niet mee te vallen aan deze wezenlijk omgekeerde manier van werken te wennen. Het is prettiger om met een bepaald document in de hand met behulp van een lijst trefwoorden te bepalen wat het onderwerp is van een document, dan stil te staan bij de vraag op grond van welke feitelijk in documenten voorkomende woorden te bepalen hoe een zoekvraag naar soortgelijke documenten dient te worden gespecificeerd.
Programmatisch genereren van topics
Een uitweg uit dit dilemma kan worden gevonden door middel van het programmatisch genereren van topics. Zo werd, naar een idee van Cliff Reid, voor de KUB/ESP Current Awareness Service een zeer uitgebreide set topics gebouwd met behulp van twee eenvoudige C programma's welke de thesaurus van Excerpta Informatica omzetten in een topic set. Een thesaurus is een lijst gecontroleerde trefwoorden, waarbij tussen de trefwoorden ook relaties worden gelegd. Zo worden voorkeursrelaties gebruikt om het probleem van synoniemen op te vangen: door middel van de thesaurus zien literatuuronderzoekers wat de geprefereerde term is wanneer ze via een synoniem begonnen te zoeken. Daarnaast zijn er nog hiërarchische relaties en associatieve relaties tussen termen mogelijk. Een thesaurus kan dus evenals een topic set gezien worden als een vorm van kennisrepresentatie, waarbij de relaties tussen de thesaurustermen vertaald worden in een topic boomstructuur. Deze benadering werkt vrij bevredigend voor de KUB/ESP Current Awareness Service aangezien ongeveer hetzelfde onderwerpsgebied bestreken wordt en aangezien zowel de records in de database als de gebruikte thesaurus Engelstalig zijn.
Voor Online Contents werkt een dergelijke benadering niet aangezien hier meertalige records in voorkomen en het onderwerpsgebied niet eenduidig is, immers aan de KUB zijn er meer wetenschapsgebieden dan alleen informatica. Voor Online Contents werden echter op vrij eenvoudige wijze topics gebouwd waarmee de afleveringen van een bepaald tijdschrift kunnen worden gezocht. Met name van belang voor current awareness zoekacties.
Hiërarchie van operatoren
Overigens kunnen door de recordstructuur van Online Contents topics niet goed tot hun recht komen. Aangezien meerdere artikelen in een record voorkomen (het record is immers een inhoudsopgave) kunnen bij ondoordacht gebruik van operatoren valse hits optreden, wanneer een term voorkomt in een artikeltitel en een tweede term in een andere artikeltitel. De enige oplossing hiervoor is een consequent gebruik van de nearness operatoren die immers forceren dat de gezochte termen bij elkaar staan. Echter nearness operatoren kennen geen gewichten zodat de zo gewenste relevance ranking verloren gaat. Mede om deze reden, maar ook vanwege landelijke afspraken om te komen tot een shared Online Contents service wordt op dit moment de Online Contents database omgebouwd naar records op artikelniveau.
Uitbreiding van functionaliteit
Topic is een zeer open pakket. Het is mogelijk om via application launches vanuit Topic een verbinding te leggen met het operating system niveau en van daaruit andere applicaties op te starten. Zo is in Tilburg een e-mail mogelijkheid ingebouwd die de gebruikers in staat stelt een record uit een Topic database naar zichzelf te mailen. Uiteraard kunnen ook andere applicaties als tekstverwerking vanuit Topic op deze wijze opgestart worden. Een variant op de application launch is de SQL bridge die het mogelijk maakt om een query op een relationele database uit te voeren met gegevens uit de Topic database. Aangezien tijdschriftafleveringen in een bibliotheek wel eens een andere locatie kunnen krijgen (magazijn bijvoorbeeld) worden deze locatiegegevens bijgehouden in een relationele (Ingres) database. Zo wordt voorkomen dat Topic records aangepast zouden moeten worden, indien een tijdschrift van plaats verandert.
Plannen voor de toekomst
Topic biedt de mogelijkheid om met behulp van topics en de zogenaamde Batch Profiler een geautomatiseerde literatuurattenderingsservice te bouwen. Met behulp van topics kan een gebruiker zijn interesseprofiel vastleggen. Deze topics worden losgelaten op iedere update van de database en bij een voldoende hoge (te specificeren) score wordt de gebruiker via e-mail gemeld dat er nieuwe artikelen binnen zijn die voldoen aan zijn interesse. Door het opstarten van de Topic database vanuit een eigen user area worden deze artikelgegevens in een Personal Queue zichtbaar. Technisch is deze service geen probleem. Op dit moment wordt gewerkt aan de procedurele kant van de zaak om gebruikers die dat wensen een eigen account te geven op de bibliotheek VAX met de daarbij behorende voorzieningen en privileges. Tot nu toe is voor de universitaire gemeenschap slechts een publieksversie beschikbaar. Verwacht wordt dat het zelf bouwen van topics hierdoor gestimuleerd wordt.
Een tweede plan betreft het realiseren van een interne document delivery service, waarbij gebruikers vanuit een Topic database in staat worden gesteld om een kopie van een artikel te bestellen. Door gebruik te maken van de SQL Bridge kunnen artikelgegevens in een Ingres applicatie aangevuld worden met gebruikersgegevens waarbij een aantal validaties mogelijk zijn. Dit resulteert in een werklijst voor document delivery personeel.
Gedistribueerde databases: de Partition Server
Het laatste concrete plan betreft een proef met Topics Partition Server. Boven werd reeds melding gemaakt van een landelijk project om een shared Online Contents service te bouwen. In principe wordt dit een stelsel waarbij records tussen deelnemende instellingen via een centraal punt bij PICA, de Nederlandse organisatie voor bibliotheekautomatisering, worden verdeeld en gedupliceerd. Het gaat hierbij echter om zeer grote hoeveelheden records. In 1991 werden in Tilburg ruim 8000 inhoudsopgaven ingevoerd op een totaal van 1500 tijdschriften. Op artikelniveau zal dit leiden tot circa 80.000 records. Een landelijke Online Contents zal al snel betrekking hebben op enige tienduizenden tijdschriften. De vraag is of een oplossing met een gedistribueerde database dan niet de voorkeur verdient.
Met de komst van Topic 3.1 is ook de Partition Server beschikbaar waarmee het mogelijk wordt de database over een WAN te distribueren. Tussen de KUB en de Koninklijke Bibliotheek wordt deze zomer begonnen met dit experiment. Voor het UNIX platform is reeds een dergelijke configuratie operationeel, voor het VMS platform zal dit project het eerste zijn.
Niet behandelde features
Topic is een pakket met veel mogelijkheden waarvan nog niet alle genoemd zijn. Zo wordt in Tilburg geen gebruik gemaakt van hyperlink mogelijkheden waarmee gebruikers eigen notities aan documenten kunnen worden gekoppeld of een link met een image kan worden gelegd. Een andere mogelijkheid is Topic Real Time System, een variant waarbij de database gevoed wordt vanuit een mailbox of nieuwsservice. In combinatie met de Batch Profiler kan zo continu informatie op maat worden bijgehouden. Ook dient in dit verband de beschikbaarheid van een Application Programmer Interface (API) te worden genoemd. Van belang in dit verband is voorts dat Topic voor diverse platforms beschikbaar is, impliciet werden al VMS en UNIX genoemd, andere platforms zijn DOS, OS/2, Macintosh. Verity claimt dat het produkt op 27 verschillende platforms draait [4].
Topic 3.1
Verity heeft last gehad van een wellicht te snelle groei. De ervaringen in Tilburg zijn voornamelijk gebaseerd op versie 2.2.1 op VMS platform met een character based interface. Vanaf versie 3.0 is een GUI beschikbaar voor onder andere MS Windows. Helaas bleek versie 3.0 meer een betaversie dan een echt produkt te zijn [4]. Met versie 3.1 zouden de problemen opgelost moeten zijn. Met de komst van de GUI's moet het ook mogelijk worden Topic in client server mode te draaien. Binnenkort start de test in Tilburg met MS Windows 3.1 clients en VAX server. Een ander nieuwtje is de SQL Gateway. Hiermee moet het mogelijk worden om een query tegelijkertijd op een Topic database en relationele database los te laten, waarbij Topic het relationele gedeelte van de query vertaalt in een SQL query. Een vrij fundamentele uitbreiding van de SQL Bridge uit versie 2.2. Helaas is de SQL Gateway alleen (nog ?) beschikbaar voor Oracle op UNIX en VMS en Sybase op VMS. Overigens worden SQL Gateway en de al genoemde Partition Server alleen maar met consultancy verkocht en dat geeft te denken.
Evaluatie
Vanuit een beheersmatig aspect beschouwd is Topic een vriendelijk pakket. In Tilburg werden zonder al te veel moeite een aantal applicaties ontwikkeld door bibliotheekmedewerkers in samenwerking met het universitaire rekencentrum. Hierbij moet vermeld dat de automatiseringskennis binnen de bibliotheek aan de maat is en dat het produkt nog niet in al zijn facetten is uitgetest, maar in vergelijking met andere produkten op dit gebied kunnen met Topic snel operationele applicaties worden ontwikkeld. Ronduit negatief is de ervaring met filters, terwijl het bouwen van topics een zaak is die vooral niet moet worden onderschat. Daar staat echter tegenover dat Topic naast topics ook gewone full text retrieval mogelijkheden kent en dat een investering in het bouwen van topics zonder meer veelbelovend is.
Vanuit gebruikersoogpunt geldt dat het pakket zonder begeleiding niet tot zijn recht komt. Minimaal enige uren stoeien met het pakket is vereist om te leren hoe gericht naar documenten kan worden gezocht, terwijl het ook niet eenvoudig is uit te leggen `wat topics zijn'. Als een set system topics aanwezig is, dan blijkt dit echter het veruit meest gebruikte middel bij het zoeken.
Wie eenmaal gevoel voor het produkt ontwikkeld heeft zal echter niet snel meer zonder willen.
De auteur
Hans Roes studeerde algemene economie en is aan de KUB verbonden als bibliothecaris voor Economie en Informatica. Hij maakt deel uit van het HT DIC Program Management, en is tevens manager van het Tilburgs Online Contents project en lid van de landelijke werkgroep Online Contents.
Noten
- 1. The New Library and the Development of Innovative Information
Services at Tilburg University. - Tilburg : Tilburg University Press, 1989. - V,
79 pp.
Documentation, Information and Communication at Tilburg University : Plan of Action - Research - Services / ed. by L. Wieers. - Tilburg : Tilburg University Library, 1990. - IX, 98 pp. - 2. Het beeldscherm als informatiebalie / onder red. van H. de Kievith en A. van de Wijngaart. - SURF : Tijdschrift over Computerdienstverlening in het Hoger Onderwijs en Onderzoek (Bloemendaal) 5 (1991.12) nr.4 p.4-6
- 3. RUBRIC : A System for Rule-Based Information / by B.P. McCune, R.M. Tong, J.S. Dean ... [et al.]. - IEEE Transactions on Software Engineering (New York, NY) SE-11 (1985.09) nr.9 p.939-945
- 4. Smart Document Retrieval / by E.L. Appleton. - Datamation (New York, NY) 38 (1992.01.15) nr.2 p.20-23