Een beperkte dataset, zoals gedefinieerd onder regelgeving zoals HIPAA in de VS of GDPR in Europa, staat alleen gegevens toe die tot op een bepaald niveau zijn geanonimiseerd. Dit betekent dat informatie die een persoon rechtstreeks identificeert, is verwijderd of gewijzigd. De details van wat is toegestaan, zijn echter sterk afhankelijk van de toepasselijke regelgeving en de specifieke context (bijvoorbeeld onderzoek, bedrijfsanalyses). Over het algemeen kan een beperkte dataset het volgende omvatten:
Mogelijk toegestaan (met passende waarborgen en afhankelijk van de context):
* Geaggregeerde gegevens: Gegevens gecombineerd van meerdere individuen, waardoor identificatie van één persoon onmogelijk wordt (bijvoorbeeld de gemiddelde leeftijd van patiënten met een bepaalde aandoening).
* Geanonimiseerde gegevens met beperkte identificatiegegevens: Gegevens waarbij bepaalde identificatiegegevens worden bewaard, maar de koppeling ervan aan een specifiek individu uiterst moeilijk is. Dit is een grijs gebied en vereist zorgvuldige afweging. Voorbeelden kunnen zijn:
* Datums (maar vaak beperkt, bijvoorbeeld alleen het jaartal, niet de exacte datum): Geboortejaar kan acceptabel zijn, maar niet geboortedatum.
* Geografische informatie (in grote lijnen gedefinieerd): Woonstaat is mogelijk toegestaan, postcode waarschijnlijk niet.
* Leeftijdsbereik (breed bereik): '65-74 jaar oud' in plaats van '68 jaar oud'.
* Gepseudonimiseerde gegevens: Gegevens waarbij identificatiegegevens worden vervangen door pseudoniemen. Normaal gesproken wordt er een sleutel bijgehouden om personen opnieuw te identificeren, maar deze sleutel wordt veilig gescheiden bewaard en de toegang is beperkt.
* Gegevens afgeleid van andere gegevens: Informatie die statistisch is afgeleid van de oorspronkelijke gegevens, maar die individuen niet rechtstreeks identificeert (bijvoorbeeld correlaties tussen variabelen).
Over het algemeen niet toegestaan:
* Directe identificatiegegevens: Dit zijn zaken die een individu rechtstreeks identificeren, zoals:
* Volledige naam
* Burgerservicenummer
* Medisch dossiernummer
* Nauwkeurige geolocatiegegevens
* E-mailadres
* Telefoonnummer
* IP-adres (tenzij zwaar geanonimiseerd)
* Biometrische identificatiegegevens (vingerafdrukken, gezichtsscans)
* Quasi-ID's: Informatie die, in combinatie met andere informatie, kan worden gebruikt om een individu te identificeren. Hoewel individueel onschadelijk, kan een combinatie een risico vormen (bijvoorbeeld leeftijd, geslacht, postcode, specifieke aandoening). Het risico wordt beoordeeld op basis van het potentieel voor heridentificatie.
Belangrijke overwegingen:
* Heridentificatierisico: Het meest cruciale aspect is de mogelijkheid om individuen opnieuw te identificeren op basis van de gegevens. Regelgeving vereist vaak beoordelingen van dit risico.
* Contextuele factoren: Het aanvaardbare niveau van de-identificatie kan variëren afhankelijk van het doel van het gegevensgebruik en de toepasselijke regelgeving. Onderzoek zou meer ontspannen standaarden mogelijk kunnen maken dan marketinganalyses.
* Gegevensminimalisatie: Alleen de noodzakelijke gegevens mogen in de beperkte dataset worden opgenomen.
* Gegevensbeveiliging: Robuuste beveiligingsmaatregelen zijn essentieel om beperkte datasets te beschermen tegen ongeoorloofde toegang.
Het is van cruciaal belang om relevante wettelijke en regelgevende richtlijnen voor specifieke vereisten te raadplegen voordat u een beperkte dataset aanmaakt en gebruikt. Verkeerde interpretatie kan tot aanzienlijke juridische en ethische problemen leiden. |