Gegevensredundantie is het dupliceren van gegevens binnen een database of gegevensopslagsysteem. Dit betekent dat hetzelfde stukje informatie op meerdere plaatsen wordt opgeslagen. Hoewel het misschien onschuldig lijkt, of in sommige gevallen zelfs gunstig is voor snelle toegang, leidt redundantie vaak tot verschillende aanzienlijke problemen:
* Verhoogde opslagkosten: Door dezelfde gegevens meerdere keren op te slaan, wordt waardevolle opslagruimte verspild. Dit is vooral problematisch bij grote datasets.
* Gegevensinconsistentie: Als dezelfde gegevens op verschillende locaties worden opgeslagen, worden updates van één exemplaar mogelijk niet weerspiegeld in andere. Dit leidt tot inconsistenties en onnauwkeurigheden in de gegevens. Als het adres van een klant bijvoorbeeld op de ene plaats wordt bijgewerkt, maar niet op de andere, zullen rapporten die op basis van de verschillende gegevensbronnen zijn gegenereerd, tegenstrijdige informatie tonen.
* Problemen met gegevensintegriteit: Inconsistenties maken het moeilijk om de nauwkeurigheid en betrouwbaarheid van de gegevens te garanderen. Dit kan leiden tot slechte besluitvorming op basis van gebrekkige informatie.
* Verhoogde onderhoudscomplexiteit: Het beheren van overtollige gegevens vergt meer inspanning om de consistentie en nauwkeurigheid van alle kopieën te garanderen. Updates, verwijderingen en back-ups worden allemaal ingewikkelder en tijdrovender.
* Verspilde verwerkingskracht: Query's en andere gegevensverwerkingsbewerkingen moeten mogelijk toegang krijgen tot meerdere gegevensbronnen, waardoor de verwerkingstijd en het gebruik van hulpbronnen toenemen.
Hoewel enige redundantie opzettelijk kan worden geïntroduceerd om prestatieredenen (bijvoorbeeld caching), wordt ongecontroleerde redundantie over het algemeen als ongewenst beschouwd en moet deze worden geminimaliseerd door middel van een goed databaseontwerp en gegevensbeheertechnieken zoals databasenormalisatie. |