Een virtuele personenthesaurus door Podiumkunst.net
Op 22 april 2025 waren we aanwezig op een studiedag over gecontroleerde persoonsnaamlijsten, georganiseerd door meemoo. Dergelijke lijsten laten toe om personen eenduidig te identificeren, verhogen de doorzoekbaarheid, en kunnen collecties met elkaar verbinden. De studiedag kaderde in het project Visual Name Authority, dat bestaande persoonsnaamlijsten wil samenbrengen en koppelen aan een referentieset met portretfoto’s voor gezichtsherkenning. Tijdens de dag kwamen een aantal projecten aan het woord die gegevens uit verschillende bronnen samenbrengen, waaronder een project van Podiumkunst.net, het Nederlandse netwerk voor podiumkunstenerfgoed.
Podiumkunst.net hecht veel belang aan het digitaal registreren van archieven, objecten en events. Daarbij hebben ze gemerkt dat er veel verschillen zijn in voorkennis hoe je zo’n registratie best aanpakt. Zo is er in Nederland het Termennetwerk, waarmee je centraal verschillende terminologiebronnen kunt doorzoeken, maar veel mensen vinden het moeilijk om te weten welke terminologiebron ze moeten kiezen. Daarom zette Podiumkunst.net een project op dat gebruikers zou helpen, door verschillende terminologiebronnen te koppelen. Op die manier moet de eindgebruiker niet meer kiezen welke terminologiebron het meest relevant is, maar krijg je met één zoekopdracht een cluster van relevante bronnen als resultaat.
In 2024 voltooide Podiumkunst.net een proof of concept voor een virtuele thesaurus met persoonsnamen. Hun doel was om een werkwijze en hulpmiddelen te ontwikkelen, waarmee ze in de toekomst tot een bruikbare variant kunnen komen. Voor dit eerste experimentele project brachten ze relevante persoonsgegevens uit drie autoriteitsbronnen voor muziek samen: Muziekschatten, Muziekweb en de Gemeenschappelijke Thesaurus voor Audiovisuele Archieven. Daarbij hadden ze twee grote vragen:
- Hoe kunnen we de verschillende bronnen efficiënt en uniform aan elkaar koppelen?
- Wat is er technisch nodig om dat te doen?
Het project bestond uit drie fases. Alle stappen werden uitgevoerd met behulp van SPARQL-query’s, een zoektaal voor databanken. In een eerste stap werd de data opgekuist (genormaliseerd) en verrijkt. Zo kwamen ze tot een dataset waarin alle links en persoonsnamen in dezelfde format stonden. Daarna voegden ze relaties tussen de bronnen toe. Dit kan zowel door bronnen die expliciet naar elkaar verwijzen als door bronnen die naar dezelfde persoonsentiteit in bijvoorbeeld Wikidata verwijzen of bronnen met identieke autoriteitsgegevens. Om technische redenen kreeg elke persoon ook een relatie met zichzelf. In een derde en laatste stap werden dan de clusters voor de thesaurus gevormd. Daarbij werd gecontroleerd of er geen tegenstrijdige geboortejaren in een cluster zitten en werd visueel aangeduid uit welke bronnen de informatie in de thesaurus komt.
Uit dit project kwamen enkele belangrijke lessen naar voren:
- Een persoonsnaam is niet genoeg om iemand uniek te identificeren. Vaak zijn er bijkomende gegevens nodig, zoals een geboortedatum.
- Om een meerwaarde te vormen is de kwaliteit van de data belangrijker dan de kwantiteit (d.w.z. zoveel mogelijk data uit verschillende bronnen samenbrengen). Als er twijfel was of gegevens dezelfde persoon betroffen, werden ze niet opgenomen.
- Pseudoniemen behoorden niet tot de scope van het project, maar wie op een pseudoniem zoekt, vindt vaak toch de juiste persoon, omdat de pseudoniemen zijn opgenomen in de bronnen.
Daarnaast zitten ze nog met een aantal vragen:
- Wie is de eigenaar van de thesaurus? Podiumkunst.net? De instellingen die de data leverden?
- Zijn de persistente identifiers die ze aan elke cluster toekenden echt duurzaam?
- Moet de thesaurus domeinspecifiek zijn (bijvoorbeeld enkel voor muziek) of kan het breder?
- Hoe ver gaan we in onze inspanningen om de externe informatie te verrijken?
- Wie doet het beheer van de thesaurus? Onderhoud, updates en kwaliteitsbewaking zullen nodig blijven.
Het eindproduct is nog niet vrij te gebruiken, maar de voorlopige resultaten zijn alvast veelbelovend. In de toekomst wil Podiumkunst.net de thesaurus beschikbaar maken via het Termennetwerk. Ze overwegen ook om op lange termijn, naast persoonsgegevens, authorities voor werken en events te clusteren op dezelfde wijze.
Vervolgstappen
In april en mei 2025 verkende Podiumkunst.net in een werkgroep verschillende scenario’s om een centrale bron over personen in de podiumkunsten te beheren. Wat zijn de technische mogelijkheden van elke software? Hoe gebruiksvriendelijk zijn de verschillende alternatieven? Wat zijn de kosten? Ze bestudeerden hiervoor de voor- en nadelen van 5 scenario’s:
- Volledige integratie in het Nederlandse Termennetwerk: Op deze manier zouden ze gebruik kunnen maken van bestaande infrastructuur, maar het Termennetwerk biedt geen beheersfunctionaliteiten. Het is immers enkel een zoekinterface voor bestaande bronnen.
- Aansluiten bij Wikidata: De infrastructuur, handleidingen en community van Wikidata zijn een troef, maar de controle en keuzes (voor bijvoorbeeld een datamodel) liggen niet meer volledig bij Podiumkunst.net of haar partners.
- Een eigen Wikibase-instantie opzetten: Het beheer blijft in handen van Podiumkunst.net en er kan een verbinding gelegd worden met het Termennetwerk. Deze optie is technisch complexer en vraagt een significante investering.
- Een instantie opzetten met Omeka S: Omeka S is gebruiksvriendelijker dan Wikibase en het beheer kan eveneens in eigen handen blijven, maar net zoals een eigen Wikibase-instantie vereist dit de nodige tijdsinvesteringen, onder andere om de data voor te bereiden voor import.
- Doorontwikkeling van de virtuele thesaurus: Het proof of concept toonde aan dat persoonsgegevens uit verschillende bronnen volledig automatisch kunnen gekoppeld worden. Dit is echter enkel mogelijk als de bronnen beschikbaar zijn als linked data. Bovendien zijn er nog veel onbeantwoorde vragen, zoals hierboven aangehaald.
Om keuzes te kunnen maken voor de verdere inhoudelijke en technische uitwerking van de personenthesaurus wil Podiumkunst.net hun doelen scherpstellen en de behoeftes van de potentiële gebruikers bevragen. Zo hopen ze draagvlak te creëren om bij te dragen aan het project.
Ook interessant
Bharatanatyam in Vlaanderen: een levende traditie van flexibiliteit en respect
“Ik kijk op een nieuwe manier naar onze boeken!” - Sigrid T’Hooft van het Orpheus Instituut over het VIBE-project
Son Jarocho en fandango in Brussel: Muzikaal erfgoed doorgeven