Resultaten workshop inhoudelijke ontsluiting

In een eerdere fase van het project Cata 2020 deden we een gebruikersonderzoek rond inhoudelijke ontsluiting. Om oplossingen te vinden voor problemen gesignaleerd in dit gebruikersonderzoek, organiseerde het projectteam Cata 2020 samen met het Bibliografisch Centrum op 14 mei een workshop rond inhoudelijke ontsluiting.

Een diverse groep uit de bibliotheeksector stak die maandag de koppen bijeen: naast het projectteam en het Bibliografisch Centrum, waren er Open Vlacc-invoerders, vertegenwoordigers uit bibliotheken die Vlacc-data gebruiken of zelf lokaal invoeren en mensen van de publieksdienst. De conclusies van deze workshop lijsten we hieronder voor je op.

Eengemaakte genrelijst

Genres in Open Vlacc

Op dit moment bestaan er in Open Vlacc tal van genres.
Oorzaken:

de genres zitten in twee verschillende indexen (jeugd en volwassen)
er zijn genres over de vorm en genres over de inhoud
de genrelijsten worden beheerd door verschillende werkgroepen (Jeugd, Fictie, Trefwoorden) waardoor ze in de loop der jaren uit elkaar groeiden

Eenzelfde genre kan daardoor in tig vormen bestaan. Neem bijvoorbeeld het concept ‘avontuur’: daarvoor bestaan de volgende genre-aanduidingen, die elk bij een eigen materiaal en doelgroep horen:

Adventurespel vge (games volwassenen)
Adventurespel jge (games jeugd)
Avonturenfilms vge (films volwassenen)
Avonturenfilms jge (films jeugd)
Avonturenromans vge (literatuur volwassenen)
Avonturenverhalen jge (literatuur jeugd)

Genretermen die gebruikt worden voor non-fictiepublicaties - bijvoorbeeld een non-fictieboek in de Wablieft-reeks - krijgen dan weer het genre mét tussen haakjes geëxpliciteerd dat deze term een genreterm is :

illustratie vormgenre

Waarom is dat een probleem?

De gebruiker van de webcatalogus die gebruik maakt van verfijningen en/of doorklikt op een term, weet niet dat hij/zij hierdoor onbewust ook verfijnt op een doelgroep of materiaal.

Wie in de autocomplete een genreterm met daarachter (genre) ziet staan, weet niet dat hij/zij bij klikken alleen non-fictieboeken zal vinden.

Bovendien is dit kluwen van genre-aanduidingen, die elk dan nog een eigen verwijzingsstructuur hebben, moeilijk onderhoudbaar in Open Vlacc.

Hoe willen we dat oplossen?

Ons voorstel aan de groep was om te evolueren naar een eengemaakte genrelijst: één lijst voor jeugd en volwassenen, geen materiaalaanduidingen in de genreterm.

Op die manier zorgen we dat de informatie weer eenduidiger wordt: een onderwerp zegt iets over de inhoud, niet over het type materiaal of de doelgroep. Die informatie zit elders.

Op de workshop was iedereen het snel eens over dit principe van een eengemaakte lijst. Iedereen was van mening dat waar de termen verschillen, we in principe de verwoording uit de jeugdindex gebruiken. Hierbij moeten we wel bewaken dat waar nu verschillende termen worden gebruikt, en de term danig verschilt afhankelijk van doelgroep of materiaal, er niet “geforceerd” wordt naar één term.
Er is bijvoorbeeld weinig discussie over “avonturenromans/ avonturenverhalen/ avonturenfilms”: al deze genres kunnen we door de term “avontuur” vervangen. Dat ligt anders bij “adventurespel” dat ingeburgerd is als term voor de games. Een ander voorbeeld zijn liefdesverhalen/romantische literatuur: dit zijn de geijkte termen voor respectievelijk jeugd en volwassenen, en dus laten we beide termen bestaan.
Het feit dat sommige genres op de eengemaakte lijst in de feiten maar voor één type materiaal of één doelgroep gebruikt zullen worden, is geen probleem.

Hoe gaat het nu verder ?

De meeste termen zijn nu al min of meer op elkaar afgestemd.

We werken met het Bibliografisch Centrum aan een voorstel voor een eengemaakte genrelijst. Dat leggen we in het najaar voor aan de groep aanwezig op de workshop en aan de Open Vlacc-werkgroepen. Nadat hun feedback verwerkt is, voeren we dit uit. We hopen hier werk van te kunnen maken in het voorjaar van 2019.

Unieke onderwerpen

In Open Vlacc zijn er ongeveer 150.000 onderwerpen, waarvan 130.000 trefwoorden. Iets meer dan de helft van die onderwerpen is maar aan één record toegekend. 95% van alle onderwerpen die maar aan één record werden toegekend, zijn trefwoorden. De helft van de unieke onderwerpen, zijn onderwerpen met een persoonsnaam in. De meeste unieke onderwerpen, zijn gelede trefwoorden (Groot-Brittannië ; politiek ; 19de eeuw).

Welke problemen worden hierdoor veroorzaakt?

Persoonsnamen zitten op dit moment in twee indexen: de ‘auteursindex’ en de index voor ‘personele onderwerpen’. Als er aan de ene index iets verandert, moet dat ook in de andere gebeuren. Het synchroon houden van beide indexen zorgt dus voor veel werk.
Gelede trefwoorden (en thema’s) aanmaken is complex, en nieuwe catalografen begrijpen het systeem niet altijd. Hierdoor worden trefwoorden vaak naar analogie gemaakt, onstaan er dubbels met een andere volgorde in de geledingen. Een en ander wordt ook bemoeilijkt doordat ook hier de indexen voor jeugd en volwassenen en voor fictie en non-fictie apart beheerd worden, en de onderlinge consistentie hieronder te lijden heeft gehad.
Dat maakt dan weer dat het Bibliografisch Centrum veel tijd moet investeren in het controleren van de nieuwe en gewijzigde termen. Het mag duidelijk zijn dat een ‘gecontroleerd’ vocabularium met 150.000 termen, zelfs met de beste wil niet beheersbaar is.
Een doelstelling van Cata 2020 is dat we onze data veel meer dan nu kunnen ‘linken’ met entiteiten die in de rest van het web bestaan (zodat we de info die daarin opgeslagen zit, kunnen gebruiken zonder ze zelf te moeten invoeren). Kijk maar naar wat wikidata allemaal over Hugo Claus te zeggen heeft. Met dergelijke gestructureerde data kan je alle werken van vrouwelijke auteurs geboren in Gent met exemplaren in een Vlaamse bibliotheek digitaal etaleren, of is die etalage met nobelprijswinnaars in een wip gemaakt.
Zolang we echter met samengestelde termen werken, is daar geen sprake van.

Hoe willen we dat oplossen?

Als we de gelede trefwoorden opsplitsen in losse termen, dan hebben we in één klap veel minder trefwoorden (omdat de woorden waaruit de gelede trefwoorden zijn samengesteld, wel vaak meerdere keren voorkomen).

Dit maakt dat we in Cata 2020 de personen en corporaties (goed voor ongeveer 40.000 termen) kunnen beheren in een ‘personen en corporaties’-index waar ook de auteursvelden mee gevuld kunnen worden.

Ook titels (goed voor ongeveer 15.000 termen) behandelen we in Cata 2020 als apart 'type' onderwerp, waar specifieke functionaliteiten op gebouwd kunnen worden.

Uit de overgebleven termen proberen we nog de geografische aanduidingen te halen - zodat deze als apart type opgeslagen kunnen worden. Deze geografische termen zijn uitermate geschikt om te linken met andere open data op het web.

Als het zo’n goed idee is, waarop wachten jullie dan nog?

Gebruikers die op de website doorklikken op een geleed trefwoord, zoeken heel exact. Dat is niet mogelijk als je op een losse term doorklikt.

De conclusie van de workshop over dit punt: gebruikers moeten in staat blijven zeer gericht door te zoeken. Als dat op een andere manier gerealiseerd kan worden, kan bovenstaande zeker verder overwogen worden.

En nu?

Samen met de collega’s van het Bibliografisch Centrum en het team Bibliotheekwebsites onderzoeken we de mogelijkheden. We verwachten ook hierover in het najaar een voorstel te bezorgen, dat we dan op een volgende workshop bespreken.

Vragen?

Lisbeth.vandoorne@cultuurconnect.be