BBMRI-NL Catalogue Working Group 2012/04/02
Table of Contents
Att: Morris Swertz, Willem de Bruijn, Teun Oosterbaan, David van Enckevort, Gerard van Grootheest, Eric Vermeulen, Annet Sollie
Annet & Teun presenteren use case studie:
- In opdracht van BBMRI-NL stuurgroep
- Inventarisatie voor Catalogus / Biobank hub
- 10 interviews: LL, NESDA, VU, etc
- vandaag werkbespreking
Vragen gesteld:
- behoefte, belangen, voordelen nationale catalogus
- wat kan je bieden
- wat zou je vragen (use cases)
- eigen initiatieven
- best practices (weinig resultaten)
Intro
- belang van catalogus vooral voor grote studies (verder dan 1 cohort)
- sommige heel sceptisch want kost zoveel energie om catalogus te vullen (vaak als zelf groot cohort)
- knelpunten:
- niet meer administratieve last (up to date zonder enorm veel energie)
- daarom ingezoomed op gebruik (use cases) van nationale catalogus (vraagkant)
Resultaten
- gematched met de 5 catalogus nivo's
- type variabelen waarover info nodig is (bijv: ziekte=ALS, risico factor=roken)
- opvallend:
- er is een kernset van variabelen die altijd terug komt
- catalogus van nivo 1 (huidige catalogus) niet bruikbaar
- met wil al snel geaggregeerde data
- metadata is al direct nodig
- 'hoe is de data verzameld?'= protocollen/vragenlijsten, volledigheid, beschikbaarheid samples
Refinement van nivo's
Zie sheets: counts over use cases.
- level 1: list_coh = list of cohorts
- level 2: var_coh = list of cohorts incl variables / metadata
- level 3: agg_data = list of cohort incl aggr data per variable (e.g. num samples having ALS diagnosis)
- level 3b: agg_dat_combinable = option to ask combinations (e.g. num samples having [ALS and <21y])
- level 4: ind_data = list of individuals incl values per variable
- level 5: linked_data = all of above incl references (ttp?) to other data sets
Refinement van variables
Zie sheets. Geteld per use case.
Bijv:
- diagnosis (26x)
- data_birth
- date of dignosis
- medication
- genes measured
- genotype data (=gwas)
Conclusion
Start with level 2/3 at national catalogi Start with level 3-5 for local catalogi
- als BBMRI service?
- ondersteuning van eigen geaggregeerde tools
- pseudonimisatie service
- organisatie
Discussion
Kritiek over nut?
Die scepsis is terecht voor de grote biobanken totdat weer wens is voor integratie. Daarnaast verwachten we dat behoefte gaat groeien zodra catalogus er is.
Angst meer werk opleveren?
Onterecht omdat veel van de vragen nu door het systeem beantwoord kunnen worden ipv heel breed alle cohorten aanschrijven.
Waar komt angst vandaan voor vele werken?
Veel mensen nu in hoofd lijst 1. Die vragen betekenen werk. Als je naar nivo 2 gaat dan ga je data dictionaries uploaden.
Level 3 vraagt heel erg veel van de organisatie?
Want impliceert dat men intern een level 4 catalogus heeft. Maar in de praktijk hoeft dat niet natuurlijk op alle variabelen, of in complete detail (bijv: alleen geboortejaar). En dan zou het misschien wel kunnen om die centraal te zetten?
We willen niet dat iedereen erbij kunt
Kun je deels technisch of procedureel afvangen.
herklassificeren hangt op goed klassen
Bijvoorbeeld ziekte klassen zijn niet altijd goed (soms te fijn, soms te grof).
kunnen we deze gegevens eigenlijk delen
wat wel altijd kan is: we hebben zoveel patienten, en van iedereen weten we welke diagnosen zijn gesteld, en hoeveel. Dat levert level 3 catalogus maar alleen per variabele. In hoeverre is er consent om te delen? (soms kan dat alleen per subcohort, bijv NESDA). Daarnaast dus ook aangeven in hoeverre dit onbekend is.
Wat zouden we moeten doen voor level 3
privacy van patienten en zorgverleners is gewaarborgd
Kan door middel van het verbergen van te fijnmazige getallen (dwz 'getrunkeerde data')
niet iedereen kan erbij (per variabele)
verschillende catalogue naast elkaar?
Bijvoorbeeld voor bepaalde ziekten. Dan hoef je niet alle variablen op te hoesten.
samenwerking internationaal
Specifiek per ziekten, vooral als de populatie cases klein is.
synchronisatie? Hoe zorgen we dat data gaat vloeien tussen verschillende lokale en nationale catalogie
hier lopen we direct tegenaan, bijvoorbeeld LifeLines?, Credo: 'een keer goed verzamelen en dan vaak gebruiken'
Actieplan (wat deels ook in eindrapport kan komen?)
- Roadmap afschrijven (annet en teun)
- Eerste stap: data dictionaries mappen op variabelen
- Bijv: Date of Birth
- Dit impliceert een simpel data uitwissel format
- Pilot studie definieren met
- Een paar biobanken (LifeLines?, Mondriaan, PSI, Twin registry)
- Een paar use cases (liefst gedreven door BBMRI-NL use cases)
- In parallel een demo systeem opzetten
- selectie van use cases maken om te demonstreren
- Gesimuleerde data om te testen
- Basis user interface om inzichtelijk te maken waar we op mikken
- Een wiki met wireframes
- Overzicht maken van bestaande systemen
- Bijv pseudonimisatie bij Mondriaan
- Governance
- Hoe organiseren we dat netjes?
- Hoe gaan we dit betalen (kan het uit bestaande fondsen? Wat moet er nog bij?)
- Zijn er ook use cases die geld gaan genereren van BBMRI-NL (meaningful use)?
- Poolings vraag
- combineren en ontdubbelen van individuen in grote cohort
- Verrijkings vraag
- kunnen koppelen van individuen zodat je complementaire info aan elkaar kan knopen
- Technische afspraak maken met participerende biobanken.
- Dwz simpele technische interfaces voor
- metadata
- getrunkeerde data uitwisselen / federatief bevragen
- Dwz simpele technische interfaces voor
(nagekomen: weer een voorbeeld van cataloguing efforts @ http://epi.grants.cancer.gov/biospecimens.html)