Documentaire informatiesystemen

Documentaire informatiesystemen.

Een case study van bibliotheekautomatisering aan de Katholieke Universiteit Brabant

Hans Roes, Jola van Luyt-Prinsen

HTML versie van een artikel dat verscheen in Handboek Bestuurlijke Informatiekunde, Samsom, 1993 en Handboek Automatisering van de Informatieverzorging, Samsom, 1994. Tekst en figuren kunnen licht afwijken van de gedrukte versie, doch de inhoud blijft ongewijzigd.

Inhoud

1 Inleiding
2 Ontsluiting van documentaire informatie
2.1 Documentrepresentaties
2.2 De informatievraag
3 Case study: bibliotheeksystemen KUB
3.1 Werkplekintegratie en kennisnavigatie
3.2 Online Publieks Catalogus (OPC)
3.3 Excerpta Informatica
3.4 Online Contents (OLC)
4 Trends
4.1 Van secundaire naar primaire informatie
4.2 Kennisnavigatie
5 Parallelen met kantoorautomatisering
6 Literatuur

1 Inleiding

De term informatiemaatschappij wordt wel eens gebruikt om aan te geven dat de wereld veranderd is in een 'global village'. Van alle kanten wordt informatie aangeboden en de verwerking daarvan stelt dan ook toenemende eisen aan organisaties. Er is hier sprake van een tweeledig probleem. Enerzijds is er de angst dat vitale informatie niet dan wel niet tijdig wordt verwerkt, hetgeen meer of minder ernstige consequenties kan hebben voor de prestaties van organisaties. Anderzijds is er het probleem van de selectie van informatie, hoe kan de overbelaste manager uit de soms gigantische stroom informatie die stukken selecteren die voor hem op een bepaald moment van werkelijk belang zijn. Dit laatste probleem wordt ook wel eens aangeduid met de term 'information overload'. Het zal duidelijk zijn dat hier sprake kan zijn van verborgen kosten voor organisaties.

Automatisering wordt gezien als een hulpmiddel bij het verwerken van informatie. Sommige auteurs geven echter aan dat van alle gegevens die in organisaties omgaan, slechts 1 procent in computers is opgeslagen, terwijl 95 procent van de informatie nog steeds op papier staat. De overige 4 procent is opgeslagen op microfiche (Canning McNurlin, 1989, I). De exactheid van dit soort gegevens mag betwistbaar zijn, de boodschap is echter duidelijk. Dit is ook niet verwonderlijk indien gekeken wordt naar de aard van automatisering van gegevensverwerking. De term gegevensverwerking spreekt op zich al boekdelen. Databases hebben een vrij snelle ontwikkeling doorgemaakt van het net- werkmodel, naar het hiërarchische model, tot uiteindelijk het relationele model min of meer universeel werd toegepast. Kenmerk van alledrie modellen is dat ze gericht zijn op het structureren van gegevens. Met name in het relationele model worden door middel van gegevensanalyse en normalisatie gege- vens steeds verder uiteengerafeld en geatomiseerd. Dit heeft grote voordelen voor de integriteit van de data, immers elk gegeven wordt in principe maar een keer opgeslagen. Wanneer de gegevens eenmaal goed zijn opgeslagen kan door middel van het bouwen van applicaties op een exacte manier informatie aan het systeem worden onttrokken. De elegante wiskundige grond- slag van het relationele model heeft ook het voordeel dat produkten op de markt in hoge mate uitwisselbaar zijn. De query taal SQL bijvoorbeeld, kent weliswaar veel varianten, maar de overeenkomsten zijn toch groter dan de verschillen.

Helaas zijn niet alle gegevens zo gestructureerd dat ze passen in het relationele keurslijf. Informatie wordt op zeer uiteenlopende wijzen verpakt: boeken, rapporten, tijdschriftartikelen, memo's, brieven, richtlijnen, procedures, technische documentatie en dergelijke, zijn varianten met voornamelijk, maar niet alleen, tekstuele kenmerken. Ze kunnen ook grafische informatie bevat- ten. Zo bestaat er ook louter grafische informatie: schilderijen, prenten, animaties, reclame, video en deze laatste kan op zijn beurt weer gekoppeld zijn met audio welke ook als zelfstandige informatiebron voorkomt. Voorts worden in toenemende mate computermedia ingezet voor de overdracht van informatie. Wanneer diverse vormen van informatie op deze uiteenlopende wijzen gecombineerd worden spreekt men ook wel van multimedia.

Hier begint de wereld van de documentaire informatie. De verschillen tussen de diverse vormen van informatie zijn groot, maar er is een verbindend kenmerk: de informatie is in hoge mate ongestructureerd. Uiteraard zijn er wel structurele kenmerken te onderscheiden aan al deze informatiebronnen, zoals auteur(s), titel, datum, plaats van ontstaan, vorm en dergelijke. De wezenlijke vraag is echter altijd: waar gaat het document over, de vraag naar de informatie-inhoud. Dit impliceert dat informatie toegankelijk moet worden gemaakt, moet worden beschreven en daarmee ontsloten. Informatie die niet ontsloten is kan niet of slechts met zeer veel moeite worden teruggevonden.

Dit artikel gaat in op documentaire informatie en de wijze waarop deze een plaats kan innemen in de informatiesystemen van organisaties. Daarbij ligt de nadruk niet zozeer op kwesties van definitie (zie voor een overzicht van een aantal definities van het begrip documentaire informatie Van de Water en Mantelaers, 1990, I). De nadruk ligt vooral op toepassingen, op de ontsluiting, het toegankelijk maken van documentaire informatie. Van oudsher zijn bibliotheken op dit terrein actief geweest en ook in bibliotheken is de automatisering doorgedrongen. Meer en meer wordt er gebruik gemaakt van technieken uit het relatief jonge vakgebied van de information retrieval (IR). Daarnaast wordt steeds meer informatie aangeboden via de internationale netwerken en bibliotheken proberen ook deze informatie toegankelijk te maken.

Hoewel er verschillen bestaan tussen bibliotheken en kantoororganisaties (Blair en Gordon, 1991, I), kunnen uit deze ervaringen toch de nodige lessen worden getrokken voor kantoorautomatisering.

Dit artikel is als volgt opgezet. Allereerst worden de achtergronden van het vakgebied van de documentaire informatie en de information retrieval toegelicht. Vervolgens worden aan de hand van deze begrippen drie aan de KUB gebruikte bibliotheekinformatiesystemen, de Online Publieks Catalogus, de Excerpta Informatica databases en de Online Contents database besproken. Deze drie services geven een aardig overzicht van de 'archeologie' van IR systemen. De nadruk ligt daarbij op de aspecten techniek en organisatie. Vervolgens wordt aandacht geschonken aan mogelijke uitbreidingen van de bestaande systemen in de richting van full text en de ontwikkeling van hulp bij het navigeren in een wereld met verschillende informatiesystemen. Het navigatieprobleem wordt kort geïllustreerd aan de hand van het groeiende aanbod van informatiediensten op de internationale netwerken. Het artikel eindigt met een aantal conclusies die van belang kunnen zijn bij ontwikkelingen op het gebied van de kantoorautomatisering, en de plaats van documentaire informatie ten opzichte van bestaande informatiesystemen. In een bijlage is een uitgebreide, geselecteerde en geannoteerde bibliografie opgenomen voor wie zich verder wil verdiepen in dit boeiende terrein.

2 Ontsluiting van documentaire informatie

Een goed aanknopingspunt voor een behandeling van de problematiek van het ontsluiten van documentaire informatie, wordt gevormd door het algemene IR model van Salton en McGill (Salton en McGill, 1983, V; zie voor een korte maar zeer duidelijke behandeling Paijmans, 1993, IV). In dit model produceren auteurs documenten waarin kennis wordt vastgelegd, en welke worden opgeslagen in een documentair informatiesysteem, of meer algemeen, een IR systeem. Daartegenover staan gebruikers met bepaalde kennislacunes, of informatievragen. De doelstelling van een IR systeem is het matchen van de informatievragen op de in het systeem vastgelegde kennis. Daartoe worden in het IR systeem documentrepresentaties vastgelegd. De gebruikersvragen worden vertaald in queries en via 'similarity functions' wordt naar overeenkomsten met de documentrepresentaties gezocht. In principe beschrijft dit model alle IR systemen die maar verzonnen kunnen worden, van ouderwetse kaartcatalogi in bibliotheken tot de meest geavanceerde geautomatiseerde retrievalsystemen. IR systemen onderscheiden zich met name door verschillen in documentrepresentaties en de wijze waarop de gebruiker ondersteund wordt.

2.1 Documentrepresentaties

Documentrepresentaties kunnen ruim worden opgevat als middelen om de inhoud van documenten te beschrijven of, om een bibliotheekterm te gebruiken: te classificeren. In de bibliotheekwereld zijn tot nu toe vooral twee systemen (waarop veel variaties bestaan) populair: decimale classificatie-methoden en trefwoorden. Aan een document worden codes of trefwoorden toegekend die de inhoud van een document beschrijven, als het ware uitdrukken: "dit document gaat over het onderwerp documentaire informatie". Bij de bespreking van de aan de KUB gebruikte bibliotheeksystemen wordt nader op deze klassieke ontsluitingsmethoden ingegaan. Op dit moment is van belang op te merken dat dergelijke codes aan elk document afzonderlijk toegekend dienen te worden. Van oudsher gebeurt dit door vakinhoudelijk geschoold bibliotheekpersoneel, ook wel documentalisten of informatiespecialisten genoemd. Veel onderzoek is en wordt gedaan naar geautomatiseerde classificatie-methoden. Ook aan de KUB wordt met een dergelijk systeem gewerkt.

Documentrepresentaties hoeven zich echter niet te beperken tot classificaties, maar kunnen zich ook uitstrekken tot (delen van) de tekst zelf. In principe kan dus ook de gehele tekst fungeren als documentrepresentatie. In dit laatste geval spreekt men wel van full text retrieval systemen. Merk op dat automatische classificatie-methoden gebruik dienen te maken van full text representaties.

Geautomatiseerde methodes kunnen variëren van heel eenvoudig tot heel complex. In het meest eenvoudige geval wordt een index gemaakt waarin alle woorden die voorkomen in de tekst alfabetisch gerangschikt worden met hun plaats(en) in de tekst, net zoals boeken een index kunnen hebben. Dit zijn de zogenaamde inverted file benaderingen. Aangezien niet alle woorden van een tekst van even groot belang zijn om de inhoud aan te duiden zijn er een aantal methoden ontwikkeld om de meest relevante termen te vinden. Dit kunnen puur statistische methoden zijn, die voornamelijk kijken naar relatieve woordfrequentie ten opzichte van overige documenten in een set, waarbij het uitgangspunt is dat een woord dat relatief vaak voorkomt in een document vergeleken met het voorkomen van dat woord in de gehele documentverzameling, inhoudelijk beter zal discrimineren tussen documenten in die verzameling. Weer andere systemen proberen gebruik te maken van de plaats van het voorkomen van woorden, of meer in het algemeen de structuur van het document, voorzover aanwezig. Woorden in titels van hoofdstukken en paragrafen worden van meer belang geacht dan woorden middenin de tekst. Met name door de opkomst van documentbeschrijvingstalen als SGML en ODA, mag hier in de toekomst meer van worden verwacht.

Iets meer intelligente systemen kijken naar de woorden die voorkomen in zogenaamde sleutelzinnen zoals bijvoorbeeld: "Dit artikel is als volgt opgezet ..."; "De belangrijkste punten zijn ...". Andere systemen voegen nog meer intelligentie toe. Zo worden zelfstandige naamwoorden meer beschrijvend geacht dan werk- woorden en worden parsers gebruikt om deze te filteren. Vaak gebeurt dit weer in combinatie met statistische methoden. Tot slot zijn er systemen die gebruik maken van technieken uit de artificiële intelligentie. Evenals expertsystemen zijn deze vaak slechts toepasbaar in beperkte domeinen.

De meeste hier min of meer intelligent genoemde methoden zijn overigens (nog) niet of nauwelijks verwerkt in commerciële systemen, maar bevinden zich nog in de onderzoeksfase. Het overgrote deel van de op de markt gebrachte systemen maakt meer of minder 'slim' gebruik van inverted files, al dan niet in combinatie met de meer eenvoudige statistische technieken.

Het onderzoek naar het automatisch genereren van documentrepresentaties is om twee redenen van groot belang. In de eerste plaats vanwege de hoge kosten die gepaard gaan met de inzet van inhoudelijk geschoold personeel. Om deze reden werden (en worden) in bibliotheken vaak slechts de boeken geclassificeerd en de tijdschriften slechts op het niveau van het tijdschrift zelf. Het grote, en steeds belangrijker, aanbod van (wetenschappelijke) artikelen wordt in veel bibliotheken echter nauwelijks ontsloten. Dit werk wordt vaak gedaan door de zogenaamde Abstracting and Indexing Services, welke hun databases met samenvattingen en trefwoorden, wereldwijd aanbieden tegen commerciële tarieven. Doorgaans online, maar in toenemende mate ook via CD-ROMs. Nadeel van deze services is, met name in het geval van CD-ROMs, de vertraging tussen verschijnen van artikel en beschrijving in de databases. Daarom wordt ook de combinatie van online en CD-ROMs steeds populairder. Toch blijven er vertragingen tussen het verschijnen van een artikel en de beschrijving ervan in een database, die typisch tussen de drie en zes maanden liggen.

Een tweede, meer fundamenteel probleem is dat mensen nu eenmaal mensen zijn. De kans op overeenstemming tussen menselijke classificeerders in het toekennen van codes of trefwoorden voor onderwerpsontsluiting is zeker kleiner dan een. Overigens hangt de mate van overeenstemming sterk af van het gebruikte classificatiesysteem. Zo zal in een systeem waarin vrijelijk trefwoorden mogen worden toegekend, de mate van overeenstemming lager zijn dan in een systeem waarin aan de hand van een gecontroleerde trefwoordenlijst wordt gewerkt. Milstead beschrijft de problematiek van het classificeren en mogelijke hulpmiddelen daarbij, die van zeer eenvoudig tot zeer geraffineerd variëren (Milstead, 1992, III).

De keuze voor een bepaalde wijze van ontsluiten en de diepte van de ontsluiting, zal sterk afhangen van het doel van het systeem in relatie tot de kosten ervan. In een wetenschappelijke bibliotheek is onderwerpsgericht kunnen zoeken van groot belang. Juristen die geïnteresseerd zijn in het snel kunnen terug- vinden van jurisprudentie zullen soms onderwerpsgericht willen zoeken, maar vragen ook access points op bijvoorbeeld wetsarti- kelen. Verzekeringsmaatschappijen die dossiers over bepaalde zaken snel bij elkaar willen hebben kunnen doorgaans volstaan met dossiernummer en naam of klantnummer, terwijl de dossiers zelf niet full text afzoekbaar hoeven te zijn, maar bijvoorbeeld in image format opgeslagen kunnen worden. In dit laatste geval kan volstaan worden met een relationele database met pointers naar image databases. Indien gekozen wordt voor een eenvoudig classificatiesysteem zoals in het geval van een traditionele bibliotheekcatalogus, dan kan deze in principe ook als een relationeel systeem ontworpen worden.

2.2 De informatievraag

Bestaan er problemen aan de kant van de documentrepresentatie, aan de kant van de gebruiker zijn de problemen zo mogelijk nog complexer. Allereerst dient een gebruiker zijn informatiebehoefte onder woorden te kunnen brengen, dit mag een triviaal probleem lijken, maar is het zeker niet. Zeker als men naar iets nieuws op zoek is, wat uiteraard bij onderwerpsgerichte zoekacties vaak het geval zal zijn. Vervolgens dient de geformuleerde informatiebehoefte vertaald te worden naar een vorm die het IR systeem 'begrijpt', de interface problematiek. Dit veronderstelt kennis van de documentrepresentaties en de mogelijkheden van het systeem. Bijkomend probleem kan zijn dat een gebruiker met veel verschillende systemen kan worden geconfronteerd, een groeiend probleem met de proliferatie van IR systemen op CD-ROMs, en de trend om steeds meer informatiesystemen via het publieke Internet aan te bieden. Dit laatste probleem wordt ook wel aangeduid als het kennisnavigatieprobleem.

De zoekmogelijkheden worden bepaald door de documentrepresentaties en de toegestane combinaties tussen elementen daarvan. Indien gebruik wordt gemaakt van een decimale classificatie zal de gebruiker deze bij de hand moeten hebben en de algemene principes ervan moeten begrijpen. Voor (gecontroleerde) woordsystemen geldt dit evenzeer. Het is een groot voordeel indien hulp bij het gebruik van dit soort ontsluitingssystemen is ingebouwd in de database zelf. Voor wat betreft combinaties tussen zoektermen wordt vaak, in meer of mindere expliciete mate, gebruik gemaakt van Booleaanse operatoren . Overigens zijn er inmiddels meerdere soorten operatoren mogelijk dan de standaard AND (alle zoektermen dienen aanwezig te zijn), OR (minimaal een van de opgegeven zoektermen dient aanwezig te zijn) en NOT (documenten die wel een, maar niet een andere zoekterm bevatten). Een belangrijke uitbreiding in met name full text retrievalsystemen vormen de nearness, of adjacency operatoren die kunnen afdwingen dat meerdere woorden in de tekst bij elkaar staan (waarbij eventueel afstand gespecificeerd kan worden), al dan niet in een bepaalde volgorde. Nieuw zijn ook operatoren die met gewichten voor zoektermen kunnen werken, waarbij sommige zoektermen een hoger gewicht kunnen krijgen dan andere, minder belangrijk geachte, de gevonden documenten krijgen vervolgens een score mee, op grond waarvan de zoekresultaten gerangschikt kunnen worden. Een variant op toekennen van gewichten zijn operatoren die een document ranken op relatieve frequentie van de opgegeven zoektermen. Bij de bespreking van de KUB systemen wordt hierop teruggekomen.

Van groot belang is het resultaat van een zoekactie en de mogelijkheid voor feedback. Een vrij subtiele methode is de zogenaamde relevance feedback. Wanneer een gebruiker in een zoekresultaat een bepaald document als relevant voor zijn vraag aanduidt, kan de representatie hiervan gebruikt worden voor het starten van een nieuwe zoekactie naar documenten met vergelijkbare representaties.

Resultaten van zoekacties, en daarmee de performance van IR systemen, worden vaak gekwantificeerd in de maatstaven recall en precision. Recall wordt berekend als het aantal relevante (niet het totale aantal) documenten dat een zoekactie heeft opgeleverd ten opzichte van het totaal aantal relevante documenten in een database, of eenvoudiger gezegd: de mate waarin relevante documenten worden gevonden. Precision wordt dan gedefinieerd als het aantal gevonden relevante documenten ten opzichte van het totaal aantal gevonden documenten, en is daarmee een maatstaf voor de ruis in het resultaat van een zoekactie. Recall en precision worden doorgaans geacht negatief gecorreleerd te zijn. Maatregelen die de recall verhogen, leiden doorgaans tot meer ruis en dus een lagere precision, terwijl omgekeerd het terugbrengen van ruis leidt tot een lagere recall (zie Salton, 1986, V, voor een aantal recall en precision 'enhancing devices').

De maatstaven recall en precision lijken objectiever dan ze zijn, immers evenmin als er overeenstemming behoeft te bestaan tussen documentalisten over toe te kennen descriptoren, hoeft er overeenstemming te bestaan over de mate van relevantie van een bepaald document voor een bepaalde vraag.

Een derde, wellicht nog moeilijker te objectiveren maatstaf, zou de kwaliteit van de informatie kunnen zijn. Met name wanneer searches hoge recall-percentages opleveren, en die waarschijnlijkheid neemt toe naarmate de systemen beter worden maar vooral ook naarmate de systemen meer referenties bevatten (het boven aangestipte probleem van de 'information overload'), zou een dergelijke maatstaf geen overbodige luxe zijn. Voor wetenschappelijke artikelen zou aan tijdschriften een (vaak al bestaande) kwaliteitsmaatstaf kunnen worden verbonden, dan wel koppelingen kunnen worden gelegd met citatie-indexen. Dit werkt echter niet voor relatief jonge tijdschriften en relatief recente artikelen en uiteraard bestaat hier een gevaar dat kwaliteit gemist wordt. Op dit moment kan de gebruiker zich behelpen met vrij ruwe methoden om het aantal gevonden referenties te verkleinen zoals beperking in de tijd, of naar taal. Naarmate steeds meer artikelen vooral in de Engelse taal verschijnen levert deze laatste mogelijkheid echter ook steeds minder op.

Na dit overzicht van de principes van documentaire informatie en information retrieval kan de oversteek gemaakt worden naar een case study van de systemen zoals die aan de KUB functioneren.

3 Case study: bibliotheeksystemen KUB

Dit onderdeel is als volgt opgebouwd: allereerst worden de algemene uitgangspunten achter de (bibliotheek)automatisering aan de KUB behandeld aan de hand van de kernwoorden kennisnavigatie en werkplekintegratie. Deze begrippen vinden hun oorsprong in een onderliggende visie op het wetenschappelijke produktieproces en kunnen daarom verhelderend werken ten opzichte van de andersoortige situatie van kantoorautomatisering. Vervolgens worden een drietal aan de KUB gebruikte bibliotheeksystemen behandeld: Online Publieks Catalogus waarin alle boeken en tijdschriften in de KUB-collectie zijn opgenomen; Excerpta Informatica dat zich toelegt op zogenaamde diepe ontsluiting van literatuur (boeken en artikelen) op het gebied van de toegepaste automatisering en bestuurlijke informatiekunde; en Online Contents gericht op current awareness, het op de hoogte blijven van de laatste ontwikkelingen in wetenschappelijke tijdschriften. Samen vormen deze drie systemen een aardige 'archeologie' van bibliotheekinformatiesystemen en daarmee een beknopte illustratie van de ontwikkelingen en actuele mogelijkheden op het gebied van documentaire informatie. Bij deze bespreking wordt vooral aandacht geschonken aan de gebruikte IR-technieken en de organisatorische aspecten.

3.1 Werkplekintegratie en kennisnavigatie

Het wetenschappelijk bedrijf is per definitie kennisintensief. Wetenschappers zoeken, verzamelen en bewerken informatie tot nieuwe informatieprodukten. Zij zijn producent en eindgebruiker van informatie in een cyclus waarin ook uitgevers en bibliotheken een belangrijke rol spelen. Uitgevers organiseren het proces van beoordeling en publikatie, terwijl bibliotheken uit de aangeboden informatie selecties maken welke ze toegankelijk maken en ter beschikking stellen aan eindgebruikers. Werkplekintegratie beoogt de wetenschappelijke eindgebruiker via een en hetzelfde werkstation al de bovengenoemde functies aan te bieden. Vanaf de werkplek kan informatie worden gezocht en opgevraagd. Tevens zijn de middelen aanwezig om deze informatie te verwerken, al dan niet in groepsverband. Tot slot kunnen nieuwe informatieprodukten worden samengesteld met behulp van tekstverwerking en desktop publishing. Dit artikel is bijvoorbeeld grotendeels met behulp van een geïntegreerde werkplek tot stand gekomen.

Kennisnavigatie beoogt de gebruiker op eenvoudige wijze toegang te verlenen tot online informatiebronnen aan de eigen instelling en daarbuiten, zoveel mogelijk zonder op de hoogte te hoeven zijn van de eigenaardigheden van inlogprocedures en, in de toekomst, ook de eigenaardigheden van de diverse informatiesystemen. Zo kan aan de KUB de gebruiker via zijn geïntegreerde werkplek toegang krijgen tot de KUBgids, een keuzemenu voor de aan de KUB geproduceerde centrale informatiesystemen, maar tevens een toegang tot databases wereldwijd op het Internet beschikbaar. Via KUBgids is onder andere de toegang tot de OPC, Excerpta Informatica en Online Contents geregeld.

3.2. Online Publieks Catalogus (OPC)

In de archeologie van bibliotheeksystemen aan de KUB is de OPC het oudste voorbeeld. De OPC is een produkt van PICA, de Nederlandse organisatie voor bibliotheekautomatisering en een samenwerkingsverband van vooral universiteitsbibliotheken. In wezen is de OPC een geautomatiseerde kaartcatalogus. Er ligt een sterke nadruk op formele catalogiseerregels en ieder record in de database wordt in een en hetzelfde ISBD (International Standard Book Description) format gepresenteerd aan de gebruiker. De informatie is met andere woorden sterk geformatteerd en gestructureerd. In figuur 1 is te zien hoe sterk een record in de OPC lijkt op een fiche uit de ouderwetse kaartcatalogus.

Automatisering van de informatieverzorging / J.A.M. Oonincx, R.A.M. Pruijm, 
A.H.J.B. Schotgerrits. - Alphen aan den Rijn [etc.] : Samsom, 1988-.... - .. 
dl. ; 26 cm
Met suppl.: Automatisering van de informatieverzorging. Actueel. - Voortz. van:
Automatisering van de informatieverzorging. - 4e dr. - ISBN 90-6500-257-X. -
Losbladig. - Met lit. opg.
ISBN 90-6500-041-0 in ringband
Syst. code         : 652.45; 691.2; 692; 042

1   Aanvraagnummer     : ECO AN50.09 25217/1
    AANVRAAGINFORMATIE : Niet uitleenbaar

Figuur 1 Voorbeeld van een record in de Online Publiekscatalogus

Werden van de oude kaartcatalogus doorgaans drie varianten of permutaties gemaakt, een gesorteerd op auteur, een tweede gesorteerd op titel en een derde gesorteerd op onderwerp, het voordeel van een geautomatiseerde catalogus is dat er indexen op nagenoeg alle onderdelen van het format worden aangemaakt. Ook is het nu mogelijk om combinaties te maken die in een kaartcatalogus veel tijd vergden dan wel onmogelijk waren, zoals combineren van auteursnaam en titelwoord, het beperken van de resultaten van zoekacties tot een bepaalde periode. Uiteraard is een groot voordeel van de OPC dat de gebruiker deze vanaf zijn werkplek kan raadplegen en zich niet meer over kaartenbakken hoeft te buigen en daar zeker niet in de rij hoeft te staan. Een groot nadeel van de OPC, en zijn voorgangers, de kaartcatalogi, is de onvriendelijke onderwerps- ontsluiting die gebruikt wordt, de Universele Decimale Classificatie (UDC). Dit zijn boekhoudkundige getallen welke hiërarchisch zijn georganiseerd om het onderwerp van een publikatie aan te duiden, zo staat 3 voor sociale wetenschappen, 33 voor economie, 333 voor bodemeconomie/volkshuisvesting etcetera. De OPC ontsluit vooral boeken en tijdschriften op het niveau van het tijdschrift, artikelen worden doorgaans niet beschreven in een OPC, alhoewel dat in principe wel mogelijk zou zijn. Het gebeurt echter niet vanwege de hoge kosten die daarmee gepaard zouden gaan.

Mag de OPC het qua methode oudste voorbeeld zijn, voor wat betreft de toegepaste technieken is de laatst opgeleverde versie verrassend modern, namelijk een toepassing van client/server. Voorts is de integratie met overige bibliotheekfuncties, zoals een opslag- en uitleensysteem en acquisitiesysteem van groot belang voor het ondersteunen van andere belangrijke bibliotheekfuncties. De functies voor information retrieval en transaction processing zijn in hoge mate geïntegreerd. Zo kan de gebruiker in de catalogus zien of een bepaald werk aanwezig is, dan wel uitgeleend, terwijl hij in de nabije toekomst ook via de OPC kan gaan reserveren en verlengen. Voorts is een interessante ontwikkeling dat nu vanuit lokale OPC's op eenvoudige wijze kan worden doorgeschakeld naar de catalogi van andere bibliotheken in Nederland binnen het PICA verband.

De in de OPC geboden zoekmogelijkheden zijn tegelijkertijd vrij ruim en vrij beperkt. Ruim in de zin dat door de sterke formattering er veel access points bestaan, beperkt in de mogelijkheden tot het combineren van resultaten van verschillende zoekacties. Er zijn weliswaar mogelijkheden tot Booleaanse combinaties maar deze zijn zeer impliciet aanwezig. Ook zijn de Booleaanse mogelijkheden zeer rudimentair, proxi- mity operatoren zijn bijvoorbeeld niet aanwezig. Deze zouden overigens ook nauwelijks een functie hebben, ze zijn immers vooral bij full text searches van belang. Wel zijn er ruime selectie en verkleinmogelijkheden. De OPC is met name geschikt voor zogenaamd known item searching: is in de bibliotheek het laatste boek van Salton aanwezig? Dit is des te schrijnender aangezien er veel tijd is gestoken in het geschikt maken van het systeem voor subject searching. Immers ieder record in de database wordt zorgvuldig beschreven en voorzien van onderwerpscoderingen om het vanuit alle mogelijke relevante gezichtspunten, waaronder vooral ook inhoudelijke, 'terugvindbaar' te maken.

De organisatie rondom de PICA systemen is tegelijkertijd het sterkste en het zwakste punt. Het sterkste punt betreft de zogenaamde shared cataloguing. Binnen PICA verband wordt elke titel die ingevoerd wordt in principe maar een keer formeel beschreven in de GGC, de gemeenschappelijke geautomatiseerde catalogus. Vanuit deze centrale catalogus ontlenen vervolgens andere deelnemende instellingen, indien gewenst, de kerngegevens, waaraan eigen lokale gegevens kunnen worden 'gehangen'. Elke lokale OPC is dus een subset van de GGC, waarbij elk record verrijkt is met puur lokale gegevens, zoals collectie- en plaatsaanduiding. Gegeven het zeer arbeidsintensieve werk door de sterke nadruk op formele catalogiseerregels heeft deze aanpak grote voordelen. Dit vereist wel een zeer strakke organisatie, met gedetailleerde procedures en daarmee is het zwakke punt duidelijk. Eigen wensen van lokale bibliotheken, worden niet of slechts met grote moeite gehonoreerd. De situatie laat zich goed vergelijken met die van het vroegere centrale rekencentrum. Toen de KUB halverwege de jaren tachtig een database wilde opzetten voor de ontsluiting van artikelen op het gebied van de toegepaste informatica en bestuurlijke informatiekunde, met de mogelijkheid voor het opnemen van samenvattingen en een andere wijze van ontsluiting, bleek dit met centrale PICA systemen niet mogelijk, vandaar dat men op zoek ging naar alternatieven.

3.3 Excerpta Informatica

Waar de OPC sterk is in het beschrijven van de boeken in de collectie, richt Excerpta Informatica zich niet alleen op boeken, maar ook en vooral op tijdschriftartikelen. Voorts is de bibliografische beschrijving tegelijkertijd beperkter en ruimer dan in de OPC. Beperkter aangezien er minder nadruk ligt op de formele catalogiseerregels, ruimer aangezien er meer aandacht is voor de beschrijving van het onderwerp van een publikatie. In plaats van UDC codes wordt gebruik gemaakt van een talig systeem voor het ontsluiten op onderwerp, een thesaurus. Voorts worden samenvattingen van artikelen en boeken opgenomen in de database, waardoor een gebruiker beter in staat is de relevantie van een publikatie voor zijn zoekvraag te beoordelen. Uiteraard is dit wederom een arbeidsintensief en dus kostbaar proces. Het is dan ook niet verwonderlijk dat deze database zich richt op de toegepaste informatica, waarvoor immers ook buiten het wetenschappelijke bedrijf belangstelling bestaat.

Bijzondere aandacht verdient de thesaurus. Zoals reeds werd opgemerkt is dit een talig systeem, in tegenstelling tot de UDC welke getallen gebruikt om onderwerpen uit te drukken. Een voordeel van een talig systeem is dat het directer aansluit op de kennis van de eindgebruiker. Nadeel van een talig systeem is dat het kan leiden tot inconsistenties en slordigheden, zeker wanneer het door meerdere mensen wordt gebruikt om publikaties te beschrijven. Dit nadeel wordt ondervangen door gebruik te maken van een gecontroleerd woordsysteem. Voorts worden in dit woordsysteem verbanden tussen de termen, of ruimer, descriptoren, gelegd. Daarmee worden navigatiemogelijkheden geboden die ruimer zijn dan in een UDC, waar vooral sprake is van verbijzondering. Aan de hand van een voorbeeld van een stukje thesaurus kan dit worden verduidelijkt.

BROWSEN VAN THESAURUS-TERMEN

term :      GROUPWARE                                    [121]  titels

1        UF COMPUTER SUPPORTED COOPERATIVE WORK*           [0]  titels
2        UF CSCW (COMPUTER SUPPORTED COOPERATIVE WORK)*    [0]  titels
3        UF WORK-GROUP COMPUTING*                          [0]  titels
4        BT COMMUNICATION SYSTEM                         [364]  titels
5        BT INFORMATION SYSTEM                           [510]  titels
6        NT ELECTRONIC MEETING SYSTEM                     [64]  titels
7        NT GROUP DECISION MAKING                        [161]  titels
8        NT TELECONFERENCING                             [160]  titels
9        RT HUMAN COMMUNICATION                          [509]  titels
10       RT HUMAN COOPERATION                            [315]  titels
11       RT TEAM APPROACH                                [225]  titels

OPTIES: KIES NUMMER   T (=ZOEK MET TERM)   S (=STOP)

Figuur 2 Voorbeeld Thesaurus Excerpta Informatica

Het doel van het gebruik van gecontroleerde termen, is uiteraard om te voorkomen dat documentalisten, op maandag het woord database gebruiken, op dinsdag de woorden data base, en aan het eind van de week het woord databank, terwijl in alle drie de gevallen hetzelfde onderwerp wordt bedoeld. De thesaurus dwingt het gebruik van voorkeurstermen af. Tegelijkertijd moet het uiteraard wel mogelijk zijn dat een gebruiker een van de drie termen kan intikken om zijn vraag mee aan te duiden. De thesaurus zal dan de weg naar de voorkeursterm wijzen. Door meer synoniemen met verwijzingen op te nemen in de thesaurus worden kunstmatig meer access points toegevoegd, zonder dat daarvoor de records aangepast hoeven te worden. Een tweede hulpmiddel dat vaak gebruikt wordt bij thesauri is het opnemen van scope notes, korte teksten om meer precies aan te geven welk onderwerp met een bepaalde descriptor wordt aangeduid.

Naast de verwijzing naar voorkeurstermen kent een thesaurus ook nog hiërarchische en associatieve relaties. Vanuit een term kan naar een conceptueel bredere of engere term worden verwezen. Wanneer geen sprake is van een hiërarchisch verband, maar er wel een ander verband bestaat kan de related term verwijzing worden gebruikt. De thesaurus is daarmee een conceptueel netwerk van descriptoren op een bepaald onderwerpsgebied, waardoor de gebruiker kan navigeren door steeds een term te kiezen die hem dichter bij zijn onderwerp brengt. Groot voordeel is dat deze hulp in de database is opgenomen en er geen hulpmiddelen van buitenaf, zoals bij de UDC, nodig zijn.

De Excerpta databases zijn gebaseerd op MUMPS, een programmeertaal geoptimaliseerd voor databases. Dat levert zeer snelle retrieval op. Toch is de techniek verouderd, er wordt evenals in de OPC gebruik gemaakt van inverted files, waarbij bovendien alleen indexen op gestructureerde velden worden aangemaakt, maar helaas niet op abstract veld, waarop dus geen full text searches mogelijk zijn. Ook hier zijn de Booleaanse mogelijkheden zeer beperkt. Er kunnen achteraf sets gecombineerd en verkleind worden. De vooruitgang t.o.v. de OPC zit vooral in de wijze van ontsluiting en de manier waarop deze volledig in het systeem is ingebouwd en direct toegankelijk voor de eindgebruiker.

Het user interface van de Excerpta databases is bovenal eenvoudig te noemen en is snel aangeleerd. Het belangrijkste is dat de gebruiker zich verdiept in de mogelijkheden van een thesaurus. Voorts dient hier de mogelijkheid van literatuurattendering te worden genoemd. Voor gebruikers is het mogelijk hun interesses vast te leggen in een aantal thesaurustermen, maandelijks kan dit profiel langs het accres van de database worden gelegd en de meest recent ingevoerde literatuur van belang worden verzameld. Op deze wijze blijft men voortdurend op de hoogte van nieuw verschenen literatuur.

De organisatie is minder strak dan in het geval van de OPC maar het onderhoud van de databases blijft een arbeidsintensieve aangelegenheid. Ook kenmerkt de database zich door vertragingen in de invoer, deze zijn gedeeltelijk terug te voeren op exogene factoren, zoals het arriveren van de tijdschriftafleveringen in de bibliotheek, maar anderzijds ook te wijten aan het arbeidsintensieve produktieproces waarbij ieder artikel afzonderlijk dient te worden bekeken, geëxcerpeerd en van trefwoorden voorzien. Vandaar dat deze database zich toespitst op een commercieel aantrekkelijk gebied, de toegepaste informatica. Aan de KUB zijn echter meer wetenschapsgebieden van belang. Zijn er mogelijkheden om ook de artikelen die verschijnen op de commercieel minder interessante gebieden te ontsluiten ?

3.4 Online Contents

Waar Excerpta Informatica uit circa 350 tijdschriften selecties maakt, heeft de KUB een totaal van circa 3000 lopende abonnementen. Van deze 3000 werden er circa 1600 geselecteerd voor opname in de Online Contents (OLC) database. Om tot een economisch verantwoorde oplossing te komen werd gezocht naar een combinatie van goedkope invoer en sterke retrievalcapaciteiten. Goedkope invoer wordt gerealiseerd door het toepassen van scanning en optical character recognition (OCR) op de inhoudsopgaven van de tijdschriften. Dit resultaat wordt handmatig getagd om een veldaanduiding (auteur, titel) te creëren, en via een programmatische slag worden nog enkele formele kenmerken van het tijdschrift toegevoegd. Daarmee is OLC wel heel ver verwijderd van de formele catalogiseerregels die de OPC zo kenmerken. Merk op dat er ook geen UDC codes, trefwoorden of thesaurustermen worden toegevoegd. Een record in de OLC database is derhalve bibliografisch arm te noemen.

Title:
Modellen in Information Retrieval

Authors:
Paijmans,Hans

Journal:
Informatie : maandblad voor informatieverwerking

Year      : 1993
Volume    : 35
Issue     : 3
Page      : 207
T-number  : 0318
Collection: ECO
Date      : 22-mar-93
UDC       : 69; (05); 652.45

(EndOfDocument)

Figuur 3 Voorbeeld van een record in de Online Contents database

Toch is een dergelijke database al heel erg geschikt voor zogenaamde current awareness zoekacties, het 'browsen' door de inhoudsopgaven van de favoriete tijdschriften vanaf de werkplek van de wetenschapper. Echter, wanneer ervan uitgegaan wordt dat titels van wetenschappelijke artikelen doorgaans redelijk expressief zijn, dan behoren ook onderwerpsgerichte searches weer tot de mogelijkheden. Dit stelt echter speciale eisen aan de retrievalmogelijkheden.

Wordt de zaak in een iets breder verband beschouwd dan zijn er nog meer mogelijkheden. In principe is scannen en ocr'en van inhoudsopgaven immers overbodig, aangezien gedrukt materiaal wordt omgezet in machineleesbaar materiaal waar het bij de uitgever waarschijnlijk al ooit in machineleesbare vorm heeft bestaan. Indien records rechtstreeks van uitgevers betrokken zouden kunnen worden, dan wordt een eigen produktieslag overbodig.

Online Contents maakt gebruik van Verity's Topic. Dit full text retrieval systeem is geschikt voor de invoer van materiaal in diverse native formats. Sterker nog, het ingevoerde materiaal wordt niet geconverteerd, maar behoudt dit native format. Dit heeft grote voordelen voor het samenstellen van een database uit diverse bronnen. Zo wordt in de OLC database eigen geproduceerd (ASCII) materiaal gecombineerd met SGML gecodeerde artikelgegevens welke rechtstreeks worden aangeleverd door Elsevier Science Publishers.

De retrieval techniek welke wordt toegepast is in wezen weer gebaseerd op de vertrouwde inverted file techniek, maar Booleaans zoeken heeft hier een nieuwe dimensie gekregen waardoor het systeem praktisch gezien kan werken met kennisrepresentaties. Dit gebeurt langs twee wegen.

Allereerst is het mogelijk om met gebruikmaking van een zeer uitgebreide set Booleaanse operatoren, complexe queries op vrij eenvoudige wijze samen te stellen en deze met een duidelijke naam op te slaan in de database zelf. Deze queries of topics, kunnen zelf weer onderdeel zijn van andere topics, waardoor het evenals in een thesaurus mogelijk wordt door een topics-structuur te navigeren, bijvoorbeeld door vanuit een synoniem te verwijzen naar een geprefereerde topic, welke vervolgens allerlei zoektermen gestructureerd onder zich heeft hangen, waarmee naar literatuur over het onderwerp waarnaar de topicnaam verwijst kan worden gezocht. Een specialist kan zo complexe queries bouwen, deze een betekenisvolle naam geven en opslaan in de database ten behoeve van minder ervaren gebruikers.

Tweede onderscheidende kenmerk is dat aan de zoektermen gewichten kunnen worden toegekend. Voor een zoekvraag belangrijke termen krijgen een hoog gewicht, terwijl zoektermen die zijdelings van belang zouden kunnen zijn een lager gewicht toegekend krijgen. Veel termen van zijdelings belang kunnen echter weer wijzen op relevantie voor een zoekvraag, vandaar dat er een operator aanwezig is die de score van een document met veel zoektermen hoger kan laten uitvallen dan een document dat slechts weinig van de opgegeven zoektermen bevat. Het resultaat van een zoekactie wordt gerangschikt naar de score, waardoor de documenten met waarschijnlijk de meeste relevantie bovenaan komen te staan. Verity duidt dit aan met de termen concept based retrieval en relevance ranking.


                  /- 0.80 _text_retrieval_syn     --
-text_retrieval---+- 0.50 concept_based_retr      --
     Accrue       |- 0.20 _archiver_syn           --
                  |- 0.20 _hypertext_syn          --
                  |- 0.20 _indexer_syn            --
                  |- 0.20 _retrieval_system_syn   --
                  \- 0.20 _signature_file_syn     --

Figuur 4 Voorbeeld van een topic-query m.b.t. het onderwerp text retrieval.De feitelijke zoektermen worden hier niet getoond, wel een aantal subtopics met hun gewichten.

Wat in wezen gebeurt is dat de kennis van de informatiespecialist, welke voorheen werd aangewend om aan afzonderlijke documenten descriptoren toe te kennen, nu als het ware vertaald wordt in topics. Een topic kan gezien worden als een kennisrepresentatie, een descriptor die op zoek gaat naar de documenten die hij ontsluit. Met andere woorden, nadat de kennis eenmaal is vastgelegd is er sprake van automatische trefwoordtoekenning. Dit is een groot voordeel aangezien topics die eenmaal ontwikkeld zijn, ook de dagelijkse stroom van nieuwe documenten ontsluiten.

Topics kunnen, indien gewenst, ook gebruik maken van statistische informatie, zoals relatieve woordfrequentie. Tot slot is van belang op te merken dat topics ook weer een gebruikersprofiel ten behoeve van literatuurattendering op maat mogelijk maken, door het accres van de database te vergelijken met de topics en documenten welke scoren boven een bepaalde drempel in een apart gebruikersgebied te plaatsen. Voor een uitgebreidere bespreking van de mogelijkheden van Topic kan verwezen worden naar de literatuurlijst.

De belasting van de organisatie is uiteraard vrij minimaal. Wel wordt nu een andere claim gelegd op de informatiespecialisten voor de ontwikkeling van topics. Dit proces is aan de KUB nog niet uitgebalanceerd.

4 Trends

De trend is duidelijk. Het accent verschuift in de loop van de tijd van minder nadruk op formele regels naar meer gebruikersvriendelijke onderwerpsontsluiting en meer vastleggen van kennis in de databases zelf. Ook wordt duidelijk waar afwegingen mogelijk zijn tussen investeringen in menskracht en informatietechnologie. Deze afwegingen zijn uiteraard weer afhankelijk van het doel van een documentair informatiesysteem. Een belangrijke beperking in de bespreking tot nu toe is dat er steeds sprake was van secundaire informatie. De databases welke aan de KUB in gebruik zijn bevatten pointers naar primaire informatie, maar de primaire informatie zelf is doorgaans nog op papier opgeslagen in de bibliotheek. Een tweede impliciete beperking is dat het kennisnavigatieprobleem steeds op het niveau van een enkele database is behandeld, maar niet op het hogere niveau waar er sprake is van een keuze tussen meerdere bronnen. Toekomstige ontwikkelingen gaan dan ook duidelijk in de richting van koppelingen tussen de secundaire en de primaire bronnen en in de richting van kennisnavigatie in een wereld met veel documentaire informatiesystemen.

4.1 Van secundaire naar primaire informatie

Kern van het probleem hier is de keuze van het format waarin de primaire informatie wordt opgeslagen. De keuze is tussen papier, de huidige situatie; machine-leesbaar format waarbij nogal wat mogelijkheden bestaan van tekstverwerkingsformats tot compound documents; of als elektronische kopie, image format, waar ook weer verschillende standaards mogelijk zijn. Wanneer het vertrouwde opslagmedium papier wordt losgelaten ontstaat er een verlammend scala aan mogelijkheden. Kernvraag hierbij is de integriteit van documenten. De gebruiker van een documentair informatiesysteem zal absolute duidelijkheid willen hebben over de status van een document. Dit verklaart waarom image formats, ondanks het nadeel van de grote vereiste opslagcapaciteit, op dit moment de voorkeur hebben. Aangezien het elektronische kopieën zijn van een hardcopy is de integriteit boven elke twijfel verheven. Bovendien geldt hier het voordeel dat alle kenmerken van de tekst, inclusief opmaak en grafische voorstellingen behouden blijven. Aan de KUB wordt momenteel, in samenwerking met PICA, een document delivery systeem, Ariadne, ontwikkeld dat de bestaande bibliotheeksystemen, Online Contents en Excerpta Informatica, zal koppelen aan een applicatie gebouwd op een relationele database, welke op zijn beurt weer de pointers naar een image database zal bevatten. Gebruikers zullen in dat systeem online artikelen kunnen opvragen. Wanneer deze reeds aanwezig zijn in de image database dan zullen deze op de werkplek van de gebruiker kunnen worden getoond. Zijn de images van een artikel nog niet aanwezig dan zullen deze gescand en opgeslagen worden. De image database kan zowel aanbodgestuurd als vraaggestuurd worden gevuld.

Belangrijk kenmerk van dit document delivery systeem is dat de architectuur ervan rekening houdt met diverse mogelijke formats. Met name in de uitgeverswereld is het al eerder aangestipte SGML sterk in opkomst, terwijl in de kantoorautomatisering een standaard als ODA een belangrijke rol lijkt te gaan spelen. Voordeel van SGML is dat daarmee niet alleen het document volledig beschikbaar is, maar ook dat de volledige tekst als documentrepresentatie voor een information retrieval systeem kan worden gebruikt.

4.2 Kennisnavigatie

Het probleem van kennisnavigatie speelt op diverse niveaus. Allereerst binnen een informatiesysteem, daarboven op de keuze tussen verschillende informatiesystemen. Zo zijn alleen al aan de KUB diverse systemen ter beschikking met elk hun eigen karakteristieken. Wordt gekeken naar de mogelijkheden op het Internet dan is er nu reeds sprake van duizelingwekkende mogelijkheden terwijl deze bovendien in snel tempo toenemen. Overigens zijn op het Internet niet alleen bibliografische systemen toegankelijk, in toenemende mate zijn ook full text documenten beschikbaar. Een aansprekend voorbeeld is de Los Alamos preprint service, via welke de elektronische versies van working papers op het gebied van high energy physics beschikbaar worden gesteld. Naast full text documenten is ook een wereld aan software beschikbaar op het Internet. Wanneer de blik verbreed wordt en ook de commercieel beschikbare diensten worden meegenomen, dan zijn de mogelijkheden voor networked information retrieval werkelijk gigantisch te noemen. Een tweetal problemen spelen hier een rol. In de eerste plaats is met name op het publieke deel van het Internet nauwelijks sprake van enige kwaliteitscontrole. In wezen kan iedereen die dat wil, informatie op het net toegankelijk maken. Het tweede probleem is dat de kennis die op het net is opgeslagen nauwelijks ontsloten is en derhalve voor veel gebruikers onvindbaar blijft. Langs een aantal wegen wordt geprobeerd greep te krijgen op deze ontwikkelingen.

Voor bibliografische databases zijn de ANSI standaard Z39.50 en de ISO standaarden Search en Retrieve van belang. Deze standaarden, die elkaar weinig ontlopen (Lynch, 1991, XI), specificeren het protocol tussen een databaseserver en een retrieval client. Niet alleen wordt het zo mogelijk om vanuit een uniform interface, verschillende databases te benaderen, uiteraard is het ook mogelijk om een query tegelijkertijd op verschillende databases af te vuren. Wanneer deze mogelijkheid gekoppeld wordt aan metakennis over de bereikbare databases, dan krijgt de term networked information retrieval een geheel nieuwe betekenis.

Ten behoeve van navigatie op het Internet zijn in de afgelopen jaren diverse public domain tools ontwikkeld. Een overzicht van deze tools is te vinden in een via het netwerk verkrijgbaar document (December, 1993, X). Een van de meest genoemde in de afgelopen periode is Gopher, dat menugestuurd koppelingen kan leggen met andere Gophers dan wel bestanden waar dan ook het Internet. Minder bekend, maar meer spectaculair is XMosaic. Dit combineert op een hypertext-achtige manier zeer veel bestaande netwerk navigatie tools. Daarbovenop bestaat de mogelijkheid om via hypertext-links documenten, grafische files in allerlei formats, video (MPEG) en audio-informatie op te halen en af te spelen op een XWindows station. XMosaic is een hypertext systeem dat het gehele Internet omspant.

5 Parallellen met kantoorautomatisering

Naarmate organisaties steeds kennisintensiever gaan opereren, wordt documentaire informatie ook hier van steeds groter belang. Vaak wordt nog gekozen voor een gegevensgerichte benadering zoals die bekend is van de toepassing van relationele systemen. Deze benadering doet de inhoudelijke kenmerken van documentaire informatie tekort. MacKenzie Owen benadrukt de strategische waarde van kennis van zowel interne als externe gegevens en signaleert hier een duidelijk probleem voor de informatica (MacKenzie Owen, 1993, I). Het ontsluiten van kennis vereist speciale vaardigheden welke in toenemende mate hun neerslag vinden in nieuwe informatietechnologie. Aan de KUB is gebleken dat een samenwerking van mensen uit de bibliotheek- en automatiseringswereld in dit geval zeer vruchtbaar kan zijn.

Gebruik maken van kennis opgedaan bij eerdere fasen in de automatisering is van groot belang. Canning McNurlin wijst erop electronic document management applicaties vooral te bezien vanuit het gezichtspunt van de eindgebruikers en signaleert dat op dit gebied de eilandautomatisering weer de kop opsteekt, waar organisatie onderdelen hun eigen oplossingen gaan zoeken (Canning McNurlin, 1989, I).

Een belangrijke les uit het verleden is dat het ontwerp van informatiesystemen dient te worden afgestemd op het te verwachten gebruik, dit geldt ook voor documentaire informatiesystemen. Daarbij zijn afwegingen duidelijk mogelijk zoals de ervaringen aan de KUB laten zien.

Een bezinning op bestaande en in ontwikkeling zijnde standaards is van groot belang met het oog op de portabiliteit van de systemen. Met name standaarden op het gebied van documentbeschrijving zoals SGML en ODA verdienen hier sterk de aandacht.

Een laatste belangrijke factor is de koppeling met de bestaande automatisering en de mogelijkheid om vanuit documentaire informatiesystemen deze koppelingen zonder al te veel moeite te kunnen leggen. Dit speelt in kantoorautomatisering, met de nadruk op workflow een veel belangrijker rol dan in een bibliotheek waar met name met statische documenten wordt gewerkt.

6 Literatuur

De gepresenteerde lijst van publikaties is een selectieve, en gedeeltelijk geannoteerde, bibliografie. De bibliografie is voornamelijk geproduceerd met behulp van de Excerpta Informatica Online Database, die aan de bibliotheek van de Katholieke Universiteit Brabant wordt vervaardigd. Dit betekent eveneens dat het overgrote deel van deze literatuur aanwezig is in de bibliotheek van de KUB. Voor inlichtingen over het verkrijgen van fotokopieën, dan wel het lenen van boeken, kunt u bellen naar onze afdeling document delivery (013) 663317.

I Algemene literatuur; documentaire informatiekunde

Blair, D.C. en M.D. Gordon, 'The Management and Control of Written Information : Growing Concern Amid the Failure of Traditional Methods', Information & Management, jrg. 20, april 1991, nr. 4, pag. 239-246.
Bruijn, L. de en H.J.M. Wasser, 'Neem eens een documentair informatiesysteem : Vergelijking', Computable, jrg. 24, 13 september 1991, nr. 37, sectie 'Produkt-info', pag. 4-6.
Canning McNurlin, B. (ed.), 'Electronic Document Management; Part 1', I/S Analyzer, jrg. 27, mei 1989, nr. 5, pag. 1-12, 16 (with refs.)
Canning McNurlin, B. (ed.), 'Electronic Document Management; Part 2', I/S Analyzer, jrg. 27, juni 1989, nr. 6, pag. 1-12, 16.
Verschillende punten die MIS managers moeten overwegen bij de bepaling van een strategie met betrekking tot electronic document management, worden besproken. Twee case studies worden gepresenteerd van organisaties die elektronisch printen en uitgeven hebben toegepast: een verzekeringsmaatschappij en een fabrikant van geluidssystemen.
Frakes, W.B. en R. Baeza-Yates (eds.), 'Information Retrieval : Data Structures and Algorithms' Prentice Hall, Englewood Cliffs, NJ 1992.
Frappaolo, C., 'The Promise of Electronic Document Management', Modern Office Technology, oktober 1992, pag. 58- 66.
Een elektronisch document management systeem wordt gedefinieerd als een combinatie van document management, tekst retrieval, imaging, multimedia en workflow. Deze systemen kunnen elk soort document beheersen en snelle toegang tot hun inhoud geven. Ver- schillende toepassingsgebieden worden aangegeven en er wordt uitleg gegeven over de technologieën die onderdeel uitmaken van een elektronisch document management systeem. Tevens is een korte lijst met praktische tips die het overwegen waard zijn bij het plannen van dit soort systemen, opgenomen.
Heimbürger, A., 'Electronic Images', Technical Research Centre of Finland, Espoo 1990.
State-of-the-art rapport over elektronische images en image database systemen, gebaseerd op de internationale literatuur. Aandacht wordt besteed aan elektronische images, invoeraparatuur, opslagmedia, beeldverwerking, beeldtransmissie, uitvoeraparatuur, en image retrieval methoden. Tenslotte worden enkele voorbeelden van image databases gegeven. In de appendices overzichten van online databases en CD- ROMs die ofwel verwijzen naar audiovisueel materiaal, of wel zelf grafische afbeeldingen bevatten.
Kobielus, J., 'The Rise of Document Management', Network World, jrg. 9, 22 juni 1992, nr. 25 p. 50-56.
MacKenzie Owen, J.S., 'Documentaire informatie treft het denken van informatici', Automatisering Gids, 22 januari 1993, pag. 11.
Skelton, M., 'What You Should Know Before Purchasing an Electronic Document Management System', Optical Information Systems, jrg. 10, maart/april 1990, nr. 2, pag. 104-105.
Aandachtspunten bij de selectie van elektronische document management systemen worden besproken: rechtvaardiging van de kosten, goedkeuring van het management, pilot project, selectie van de leverancier, implementatie en conversie.
Water, I.E. van de en P.A.H.M. Mantelaers, 'Wat documentaire informatievoorziening is!', Informatie, jrg. 32, februari 1990, nr. 2, pag. 210-218 (11 refs.).

II Catalogi

Hancock-Beaulieu, M., 'Evaluating the Impact of an Online Library Catalogue on Subject Searching Behaviour at the Catalogue and at the Shelves', Journal of Documentation, jrg. 46, december 1990, nr. 4, pag. 318-338 (25 refs.).
Binnen een jaar na de introductie van een online publieks catalogus in de bibliotheek van de London City University, werd een onderzoek gedaan naar het zoekgedrag van gebruikers en niet-gebruikers in de catalogus en in de kasten. Geconcludeerd wordt dat ondanks de komst van de online catalogus, onderwerpssearches voornamelijk in de kasten gebeuren.
Ra, M. (ed.), 'Advances in Online Public Access Catalogs; Volume 1', Meckler, Westport, CT [etc.] 1992.
Schulz, U., 'Einige Aspekte zukuenftiger Inhaltserschliessung und Online-Benutzerkataloge', Bibliothek : Forschung und Praxis, jrg. 14, 1990, nr. 3, pag. 226-234 (with refs.).
Trinkhaus, M., 'Moeglichkeiten und Aspekte des sachlichen Zugriffs in Online-Katalogen', Bibliothek : Forschung und Praxis, jrg. 14, 1990, nr. 3, pag. 193-225 (85 refs.).

III Onderwerpsontsluiting en thesauri

Aitchison, J., en A. Gilchrist, 'Thesaurus construction : a practical manual', 2nd [rev. and expanded] edition, Aslib, London 1987.
Doel van de handleiding is een praktische gids te zijn voor de constructie van thesauri voor gebruik bij information retrieval. Aandacht wordt besteed aan: planning en ontwerp, standaarden, controle op de vocabulaire, specificiteit en samengestelde termen, structuur van de thesaurus, hulpmiddelen bij de retrieval, display van de thesaurus, speciale typen thesauri, constructietechnieken, onderhoud en update van thesauri, geautomatiseerde hulpmiddelen, en service bureaus.
Batty, D., 'Thesaurus Construction and Maintenance : A Survival Kit', Database, jrg. 12, februari 1989, nr. 1, pag. 13-20.
Foskett, A.C., 'The Subject Approach to Information', Bingley, London 1982 (4th ed.).
Milstead, J.L., 'Methodologies for Subject Analysis in Bibliographic Databases', Information Processing and Management, jrg. 28, 1992, nr. 3, pag. 407-431 (58 refs.).

IV Information retrieval

Hartley, R.J., , E.M. Keen, J.A. Large en L.A. Tedd, 'Online searching : Principles and Practice', Bowker-Saur, London [etc.] 1990.
Na een algemene introductie over online zoeken, wordt een blik geworpen op de historische ontwikkelingen en de huidige status van de online industry. Retrieval faciliteiten en zoekstrategieën worden bekeken. Een overzicht wordt gegeven van belangrijke databases op een aantal onderwerpsgebieden, het zoekproces wordt uitgelegd en de implicaties die de invoering van een online informatiedienst kan hebben worden onder de aandacht gebracht. Aandacht wordt ook besteed aan lokale databases, aan videotex en teletext, en aan online publiekscatalogi. Mechanismen die verder gaan dan Booleaans zoeken worden bekeken en afgesloten wordt met enkele case studies.
Hawkins, D.T., 'Online Information Retrieval Bibliography : 13th Update [late-1988 through mid-1990]', Learned Information, Oxford [etc.] 1990 (speciaal nummer van 'Online Review').
Paijmans, H., 'Information Retrieval; Part 1 : Introduction', Tilburg University, Tilburg 1992.
De terminologie en technieken van information retrieval worden besproken. Een historisch overzicht wordt gevolgd door een beschrijving van informatiesystemen in het algemeen en information retrieval in het bijzonder. Het belang van documentrepresentaties wordt benadrukt. Ook wordt aandacht besteed aan toegang tot documentrepresentaties. Een aantal toegangsmethoden worden besproken en een overzicht wordt gegeven van traditionele index-gebaseerde retrievalmodellen. Afgesloten wordt met een kort hoofdstuk over verschillende soorten documenten en documentverzamelingen.
Paijmans, H., 'Information Retrieval; Part 2 : Document Representations', Tilburg University, Tilburg 1992.
Dit tweede deel concentreert zich op de eigenschappen van documenten die relevant zijn voor information retrieval, gevolgd door een poging om de bestaande documentrepresentaties op te sommen. Een hoofdstuk besteedt aandacht aan de verschillende soorten indexe- ring, bundeling en automatische generatie van klassen, enkele wegingstechnieken, het wegen van woorden en zinnen, retrieval met gewogen termen, indexering van zinnen, representatie door uittreksels, etc. De systemen die worden besproken zijn: TOPIC, CLARIT, TINA en The Semantic Enhancement Experiment. Het volgende hoofdstuk richt zich op document kennisrepresentatie. Besproken worden: RESEARCHER, SCISOR, en de Duitse TOPIC. Afgesloten wordt met een bibliografie van vijf pagina's.
Paijmans, H., 'Modellen in information retrieval', Informatie, jrg. 35, maart 1993, nr. 3 pag. 207-213 (12 refs.) .
Salton, G., en M.J. McGill, 'Introduction to modern information retrieval', McGraw-Hill, New York [etc.] 1983.

V Text retrieval

Pagell, R.A., 'Primary FTDs for the End User : New Roles for the Information Professional', Online Review, jrg. 13, april 1989, nr. 2, pag. 143-154 (30 refs.).
Full text databases in het algemeen worden bekeken en de relatie tussen de eindgebruiker en deze databases. De rol die informatiespecialisten kunnen spelen om de voordelen van deze databases voor eindgebruikers the optimaliseren wordt besproken.
Putten, G.W. van, en R. Smedinga, 'The Possibilities and Limitations of Document Information Systems and Text Management Systems in Organisations', The Electronic Library, jrg. 10, februari 1992, nr. 1, pag. 33-39 (11 refs.).
Document informatiesystemen worden gedefinieerd als referentiedatabases, eventueel aangevuld met images van documenten. Hun voor- en nadelen worden bekeken. Tekst managementsystemen daarentegen, bevatten de volledige elektronische teksten van documenten, die full text afzoekbaar zijn. De mogelijkheden, voor- en nadelen van deze systemen worden op een rijtje gezet. Er worden enkele voorbeelden van toepassingen gegeven, alsmede enkele praktische tips.
Rowley, J.E., 'A Comparison Between Free Language and Controlled Language Indexing and Searching', Information Services and Use, jrg. 10, 1990, nr. 3, pag. 147-155 (6 refs.).
Salton, G., 'Another Look at Automatic Text-Retrieval Systems', Communications of the ACM, jrg. 29, juli 1986, nr. 7, pag. 648- 656 (21 refs.).
Svenonius, E., 'Unanswered Questions in the Design of Controlled Vocabularies', Journal of the ASIS, jrg. 37, september 1986, nr. 5, pag. 331-340 (35 refs.).
Tenopir, C., en M.E. Shu, 'Magazines in Full Text : Uses and Search Strategies', Online Review, jrg. 13, april 1989, nr. 2, pag. 107-118 (12 refs.).

VI Concept based retrieval

Appleton, E.L., 'Smart Document Retrieval', Datamation, jrg. 38, 15 januari 1992, nr. 2, pag. 20-23.
Er wordt verslag gedaan van Verity's concept retrieval softwarepakket Topic, en de toepassing van dit pakket bij de farmaceutische fabrikant Syntex Corporation. Het pakket maakt het mogelijk om naar ideeën te zoeken in plaats van naar trefwoorden. De filosofie achter Topic wordt beschreven, alsmede relevance ranking.
Heise, P., 'Technieken voor ontsluiten van ongestructureerde data: Van sleutelwoord- via booleaanse en statistische naar concept-gebaseerde systemen', Computable, jrg. 24, 20 september 1991, nr. 38, pag. 41-43.
Na een beschrijving van de ontwikkeling van text retrieval technieken, wordt aandacht besteed aan concept of topic based retrieval, gebaseerd op vage logica. Deze technologie maakt het mogelijk de resultaten van een search te ordenen naar relevantie. Recall en precision zijn 80-90%. De techniek maakt het ook mogelijk om kennis van experts vast te leggen in vooraf gedefinieerde vragen.
Mauldin, M.L., 'Conceptual Information Retrieval : A Case Study in Adaptive Partial Parsing' Kluwer Academic Publishers, Boston [etc.] 1991.
Zaal, R., 'Terugvinden..., dat is de kunst: Documentaire informatiesystemen floreren op de desktop', Informatie Management: Tijdschrift voor EDP-Management, juni 1991, nr. 6, pag. 24-28.

VII Automatisch indexeren

Burgin, R. en M. Dillon, 'Improving Disambiguation in FASIT, Journal of the ASIS, jrg. 43, maart 1992, nr. 2, pag. 101-114 (26 refs.).
Het automatisch indexeersysteem FASIT wordt beschreven, met speciale aandacht voor het indexeerproces. Een experiment wordt uitgevoerd om de retrieval performance van het systeem te verbeteren.
Driscoll, J.R., D.A. Rajala, W.H. Shaffer en D.W. Thomas, 'The Operation and Performance of an Artificially Intelligent Keywording System', Information Processing and Management, jrg. 27, 1991, nr. 1, pag. 43-54 (32 refs.).
Humphrey, S.M., 'A Knowledge-Based Expert System for Computer-Assisted Indexing', IEEE Expert, jrg. 4, Fall 1989, nr. 3, pag. 25-38 (9 refs.).
Speel, P.H., N.J.I. Mars, P.E. van der Vet... [et al.], 'SAPIENS: Een op kennis gebaseerde indexeermethode, 'Kennissystemen' jrg. 6, 1992, nr. 1/2, pag. 3-7 .
Het Nederlandse SAPIENS project wordt besproken. Het project had als doel een semi-automatisch indexeerproces te ontwikkelen voor de medische literatuur in de bibliografische database EMBASE van Elsevier. Het indexeerproces, dat gebruik maakt van kennistechnologie, wordt uitgelegd.

VIII Documentaire informatiesystemen in bibliotheken

Arms, W.Y., D. DeJulio, G.M. Diskin ... [et al.], 'Bibliotheken zonder muren : Drie jaar project Mercury, Informatie, jrg. 35, maart 1993, nr. 3, pag. 224-231 (7 refs.).
Fulton, A.R., 'The Use of WORM Optical Disc Storage for Newspaper Cuttings in a Public Library', Electronic Library, jrg. 9, juni 1990, nr. 3, pag. 167-171.
Glinski, M., 'Past is Present on Optical Disk', Systems 3X/400, jrg. 21, januari 1993, nr. 1, pag. 64-68 (3 pp.).
De Spaanse Archivo General de Indias herbergt ongeveer 86 miljoen documenten over de ontdekking van Amerika door Columbus. Een project waarin deze 500 jaar oude documenten elektronisch gearchiveerd worden, wordt beschreven.
Raggett, P., 'SCANFAX : HMSO's EC Document Delivery Service', Electronic Library, jrg. 9, december 1991, nr. 6, pag. 335-336.
Story, G.A., L. O'Gorman, D. Fox ... [et al.], 'The RightPages Image-Based Electronic Library for Alerting and Browsing', Computer, jrg. 25, september 1992, nr. 9, pag. 17-26 (5 refs.).
RightPages is een prototype van een elektronische bibliotheek dat wetenschappelijk-technische tijdschriften verwerkt voor gebruikers bij AT&T Bell Laboratories. Gebruikers worden automatisch gewezen op nieuwe tijdschriftartikelen die overeenkomen met hun interesseprofiel. Zij kunnen images van deze artikelen bekijken, of de artikelen afdrukken.

IX Documentaire informatiesystemen in kantoren

Kind, J. en F. Eppendahl, 'The Need for Office Analysis in the Introduction of Electronic Document Management Systems', Document Image Automation, jrg. 12, Zomer 1992, nr. 2, pag. 31- 35 (3 refs.).
Korringa, J., S. McCready, N. Naffah ... [et al.], 'Informatie in beeld: Lezingen en deelnemers: 12 en 13 september 1990, Nederlands Congresgebouw Den Haag' NGI, Amsterdam 1990.
Onderwerp van de dertien lezingen waren: documentsystemen bij Coopers & Lybrand; de mogelijkheden van imaging; Bull IMAGEWorks; informatiedragers bij de KLM; de geschiedenis en toekomst van document image processing; documentaire informatiesystemen; een elektronisch tekeningen managementsysteem bij Rolls-Royce; een overzicht van imaging en imaging management toepassingen en gebruikers in de Verenigde Staten; optisch document management bij de Nederlandse BTW inspectie; de DocMan en DocLAN systemen; en juridische aspecten van documentautomatisering.
Roth, J.P. (ed.), 'Case Studies of Optical Storage Applications', Meckler, Westport [etc.] 1990.
Dit verzamelwerk bevat verslagen van acht case studies over het gebruik van optische opslagmedia, en wel bij een luchtvaartmaatschappij, een verzekeringsmaatschappij, de Amerikaans marine, een bibliotheek, een personeelsafdeling, bij de opslag van microscoopbeelden, en in de astronomie.
Thys, T., M. in 't Veld, O.Kneppers ... [et al.], 'Imaging' [10 articles], Computerworld Nederland, jrg. 9, 12 februari 1992, nr. 7, pag. 11-17.
Verkaik Smeets, D., 'Een pakhuis vol papier : Gebruikers', Computable, jrg. 24, 13 september 1991, nr. 37, sectie 'Produkt- info', pag. 1-3.

X Overzichten van online databases en Internet

Basch, R., 'Dedicated to Doggedly Determined Database Delving: Database Directories and Database Directory Databases', Database, jrg. 14, augustus 1991, nr. 4, pag. 50-58 (1 ref.).
December, J., 'Internet Tools Summary' verkrijgbaar via anonymous ftp host: ftp.rpi.edu, file: /pub/communications/internet-tools.
'Directory of online databases', Cuadra Associates, Santa Monica, CA 1979-....
Drenth, H., G. Tseng en A. Morris, 'Tracking British and European Online Business Information : A Guide to the Guides', Online Review, jrg. 15, december 1991, nr. 6, pag. 355-366 (23 refs.).
'Gale directory of databases', Gale Research, Detroit, MI [etc.] 1993-....
Krol, E., 'The Whole Internet : User's Guide and Catalog', O'Reilly & Associates Inc., Sebastopol, CA 1992.
Marketing Data, 'Produktoverzicht: On line databanken', PC +, jrg. 8, 23 juli 1992, nr. 13 p. 20-23.
Tennant, R., J. Ober en A.G. Lipow, 'Crossing the Internet Threshold : An Instructional Handbook', Library Solutions Press, Berkeley, CA 1993.

XI Standaardisatie

Breuer, M., 'Rechner mit fuenf Sinnen', Online, juni 1991, nr. 6, pag. 18-21.
Bryan, M., 'SGML : An Author's Guide to the Standard Generalized Markup Language', Addison-Wesley, Wokingham [etc.] 1988.
Hung, A.C., 'Image Compression : The Emerging Standard for Color Images', Computer, jrg. 22, supplement 'IEEE Computing Futures', pag. 20-29 (21 refs.).
International Standards Organisation (ISO), 'Documentation: Search and Retrieve Protocol Specification', ISO, Zuerich 1990.
International Standards Organisation (ISO), 'Documentation: Search and Retrieve Service Definition', ISO, Zuerich 1990.
International Standards Organisation (ISO), 'Information Processing, SGML Support Facilities, SGML Document Interchange Format (SDIF), ISO, Geneve 1988.
International Standards Organisation (ISO). Technical Committee, 'International Standard ISO 8879 : Information Processing - Text and Office Systems - Standard Generalized Markup Language (SGML)', ISO, Zuerich 1986.
Lynch, C.A., 'The Z39.50 Information Retrieval Protocol : An Overview and Status Report', Computer Communication Review', jrg. 21, januari 1991, nr. 1, pag. 58-70 (16 refs.).
Nicholas, C.K., en L.A. Welsch, 'On the Interchangeability of SGML and ODA', Electronic Publishing, jrg. 5, september 1992, nr. 3, pag. 105-130 (15 refs.).
Otten, L. en A.J.G. van Rijen, 'Office Document Architecture : De standaard voor elektronische documenten', Informatie, jrg. 33, juli/augustus 1991, nr. 7/8, pag. 521-529 (19 refs.).
Pohl, M., 'Grafikstandards unter Windows; Teil 2: Durchleuchtet: Das TIF-Format', Win : Alles ueber Windows, maart 1992, nr. 3, pag. 50-56 (5 pp.).
Schoffstall, M.L., en W. Yeong, 'A Critique of Z39.50 Based on Implementation Experience', Computer Communication Review, jrg. 20, april 1990, nr. 2, pag. 22-29 (15 refs.).
Thiel, J.M. van, 'Inhoud krijgt vorm in ODA: Office Document Architecture voor documentuitwisseling', Elektronica / Databus, jrg. 38, 22 juni 1990, nr. 12, pag. 46-57 (8 pp.) (8 refs.).
Wallace, G.K., 'The JPEG Still Picture Compression Standard', Communications of the ACM, jrg. 34, april 1991, nr. 4, pag. 33-44 (18 refs.).
Le Gall, D., 'MPEG : A Video Compression Standard for Multimedia Applications', Communications of the ACM, jrg. 34, april 1991, nr. 4, pag. 46-58 (10 refs.).

XII Toepassingen aan de KUB

Kort, J. de, en E. Vermeer, 'Telephassa Seminar on Innovative Information Services and Information Handling : Proceedings', Tilburg University Library, Tilburg 1992.
Kort, J. de, en E. Vermeer (ed.), 'Telephassa Workshop on Databases : Proceedings', Tilburg University Library, Tilburg 1992.
Kort, J. de, en E. Vermeer (ed.), 'Telephassa Seminar on Information, Communication and Networking : How to Make Full Use of Available Information Resources : Proceedings', Tilburg University Library, Tilburg 1993.
Luyt-Prinsen, J.G.B. van (ed.), 'Ervaringen bij het opzetten van een hi-tech bibliotheek', Informatie, jrg. 35, maart 1993, nr. 3, pag. 178-188 (11 refs.).
Op 9 maart 1992 werd een nieuwe bibliotheek geopend aan de Katholieke Universiteit Brabant. Werkplekintegratie en kennisnavigatie zijn de voornaamste thema's binnen de informatisering van de universiteitsbibliotheek. Aandacht wordt besteed aan de Geïntegreerde Werkplek, netwerk navigatie, de Lendomaat, scanning en de Online Contents database en het netwerk aan de universiteit. Toekomstige ontwikkelingen bewegen zich op het vlak van kennisnavigatie en elektronische documentleverantie.
Ongering, M., en M. Wesseling, 'Producing a Bibliographic Database Through Scanning and OCR : The Online Contents Project in the Royal Library of the Netherlands', Program, jrg. 26, oktober 1992, nr. 4, pag. 393-399.
Roes, H., 'Current Awareness Services at Tilburg University', Electronic Library, jrg. 11, april 1993, nr. 2, pag. 99-103 (5 refs.).
Het Online Contents project van de bibliotheek van de Katholieke Universiteit Brabant wordt besproken, en vergeleken met andere abstracting en indexing services op de markt. Getoond wordt hoe de Online Contents database in Tilburg een attenderingsservice kan bieden voor de universiteitsgemeenschap. Tenslotte wordt het text retrieval pakket Topic van Verity en de toepassing van het pakket aan de KUB kort besproken.
Roes, H., 'TOPIC-toepassingen aan de KUB', DB/M Database Magazine, jrg. 3, juli/augustus 1992, nr. 4, pag. 30-36 (4 refs.).
'The New Library and the Development of Innovative Information Services at Tilburg University' Tilburg University Press, Tilburg 1989.
Weigand, H., en H. Paijmans (ed.), 'Workshop Artificial Intelligence en Information Retrieval', Tilburg University, Tilburg 1992.
Proceedings van een workshop gehouden aan de Tilburgse universiteit. De lezingen waren: information retrieval uit taal- en kennistechnologisch perspectief; een inventarisatie van modellen voor information retrieval; documentstructuur als zoeksleutel; het CLARIT systeem; Topic toepassingen aan de KUB; ontwikkeling van en hypertext toepassingen in LEDA; de bruikbaarheid van online helpstructuren in hypertexttoepassingen; implementatie van een document managementsysteem; en kennisrepresentaties en information retrieval.
Wieërs, L. (ed.), 'Documentation, Information and Communication at Tilburg University : Plan of Action - Research - Services' Tilburg University Library, Tilburg 1990.

XIII Marktoverzichten

Bulkeley, D., 'Managing the Document Mess : Document- Management Software', Systems Integration Business, jrg. 25, juni 1992, nr. 6, pag. 51-54.
Davis, L., 'A Window into Document Management', Datamation, jrg. 38, 15 april 1992, nr. 9, pag. 90-92.
'Leveranciers van documentaire informatiesystemen', Computable, jrg. 24, 13 september 1991, nr. 37, sectie 'Produkt- info', pag. 13-15.
Tabel met daarin op een rijtje gezet de leveranciers van documentaire informatiesystemen in Nederland. Van in totaal 43 produkten worden gegevens gepresenteerd met betrekking tot archiveringsmogelijkheden, configuratie, opslag, printen en software. De systemen draaien op microcomputers, mini's en mainframes.
Mann, J., 'Software to Manage the Paper Mountain', Datamation, jrg. 37, 15 juli 1991, nr. 14, pag. 79-80.
Molen, F. van der, 'Waar is ....? : De vele wegen van informatieontsluiting', Software Magazine, jrg. 8, februari 1991, nr. 2, pag. 6-14.
Full text retrieval wordt besproken, en tien full text retrieval pakketten worden vergeleken op basis van een aantal criteria. De pakketten zijn: Lotus Magellan, Marco Polo, Reference Set, Corporate Retriever, KRS, Textware, Sonar Prof, Coins, Freebase Prof, en Freebase Personal.
'Produktoverzicht : Documentaire informatiesystemen', PC +, jrg. 8, 13 augustus 1992, nr. 14, pag. 21.
Marktoverzicht van documentaire informatiesystemen, draaiend onder MS-DOS, OS/2, Windows, Unix, en Macintosh System 7.
Saffady, W., 'Text Storage and Retrieval Systems : A Technology Survey and Product Directory', Meckler, Westport, CT 1989.
Sieverts, E.G., C. Groeneveld en M. Hofstede (red.), 'Microcomputerprogrammatuur voor documentatie en bibliotheek : 1992 update : Vergelijking van software voor conversie, opslag & ontsluiting en thesaurusgebruik', VOGIN, 's-Gravenhage 1992.
Testen en vergelijkingen van 32 softwarepakketten voor conversie, opslag en ontsluiting en thesaurusgebruik. Alle pakketten zijn geschikt voor gebruik op microcomputers en verkrijgbaar in Nederland. Ook worden aanwijzigingen gegeven voor de selectie en evaluatie van software.
Sieverts, E.G., en M. Hofstede, 'Software for Information Storage and Retrieval Tested, Evaluated and Compared; Part 1 : General Introduction', Electronic Library, jrg. 9, juni 1991, nr. 3, pag. 145-154 (24 refs.).
Sieverts, E.G., M. Hofstede, P. Haak, ... [et al.], 'Software for Information Storage and Retrieval Tested, Evaluated and Compared; Part 2 : Classical Retrieval Systems', Electronic Library, jrg. 9, december 1991, nr. 6, pag. 301-318 (26 refs.).
Sieverts, E.G., J. Figdor, S. Bakker en M. Hofstede, 'Software for Information Storage and Retrieval Tested, Evaluated and Compared; Part 3 : End-user Software', Electronic Library, jrg. 10, februari 1992, nr. 1, pag. 5-19 (22 refs.).
Sieverts, E.G., M. Hofstede en B. Oude Groeniger, 'Software for Information Storage and Retrieval Tested, Evaluated and Compared; Part 4 : Indexing and Full-Text Retrieval Programs', Electronic Library, jrg. 10, augustus 1992, nr. 4, pag. 195-208 (13 refs.) .
Sieverts, E.G., M. Hofstede, G. Lobbestael ... [et al.], 'Software for Information Storage and Retrieval Tested, Evaluated and Compared; Part 5 : Personal Information Managers, Hypertext and Relevance', Electronic Library, jrg. 10, december 1992, nr. 6, pag. 339-357 (32 refs.).
Sieverts, E.G., M. Hofstede, A. Nieuwland ... [et al.], 'Software for Information Storage and Retrieval Tested, Evaluated and Compared; Part 6 : Various Additional Programs', Electronic Library, jrg. 11, april 1993, nr. 2, pag. 73-91 (26 refs.).
'Tekstdatabases en documentaire systemen', Computable, jrg. 26, 7 mei 1993, nr. 18, bijlage 'Produktinfo', pag. 16-18.
Ton, Y., 'DIS als pilot-markt : Markt', Computable, jrg. 24, 13 september 1991, nr. 37, sectie 'Produkt-info,' pag. 7-8.
Vier marktonderzoekbureaus presenteren hun mening over de markt voor documentaire informatiesystemen in Amerika, Europa en Nederland: EMCI associates, Gartner Group, Diebold Nederland, en IDC.