De fase van gegevensverwerking is een cruciaal onderdeel van elk datagestuurd proces. Het is de fase waarin ruwe gegevens worden omgezet in een bruikbaar en betekenisvol formaat voor analyse, rapportage of andere toepassingen. Dit omvat een reeks stappen die kunnen variëren afhankelijk van de context, maar die doorgaans het volgende omvatten:
Belangrijkste activiteiten binnen de gegevensverwerkingsfase:
* Gegevensopschoning: Dit is vaak het meest tijdrovende onderdeel. Het gaat om het identificeren en corrigeren of verwijderen van onnauwkeurige, onvolledige, irrelevante, dubbele of inconsistente gegevens. Technieken omvatten het omgaan met ontbrekende waarden (imputatie of verwijdering), het gladstrijken van gegevens met ruis en het oplossen van inconsistenties.
* Gegevenstransformatie: Deze fase richt zich op het converteren van gegevens naar een geschikter formaat voor analyse. Veel voorkomende transformaties zijn onder meer:
* Conversie van gegevenstype: Gegevens wijzigen van het ene type naar het andere (bijvoorbeeld string naar numeriek).
* Gegevensaggregatie: Het combineren van gegevens uit meerdere bronnen tot samenvattende statistieken (bijvoorbeeld het berekenen van gemiddelden, sommen, tellingen).
* Gegevensnormalisatie: Het schalen van gegevens naar een specifiek bereik om te voorkomen dat functies met grotere waarden de analyse domineren.
* Functietechniek: Het creëren van nieuwe features op basis van bestaande om de nauwkeurigheid van het model te verbeteren (bijvoorbeeld het combineren van datum- en tijdfuncties om een dag van de week-functie te creëren).
* Gegevensreductie: Dit heeft tot doel de omvang van de dataset te verkleinen en tegelijkertijd belangrijke informatie te behouden. Technieken omvatten:
* Dimensionaliteitsreductie: Het verminderen van het aantal variabelen (kenmerken) terwijl de meeste relevante informatie behouden blijft. Principal Component Analysis (PCA) is een veelgebruikte methode.
* Numerositeitsreductie: Gegevens vervangen door kleinere representaties (bijvoorbeeld met behulp van parametrische modellen of histogrammen).
* Gegevenscompressie: Het verminderen van de opslagruimte die nodig is voor de gegevens.
* Gegevensintegratie: Het combineren van gegevens uit meerdere bronnen in een uniform overzicht. Dit vereist een zorgvuldige omgang met inconsistenties en mogelijke ontslagen.
* Gegevensvalidatie: Het controleren van de nauwkeurigheid en consistentie van de verwerkte gegevens om ervoor te zorgen dat deze aan de kwaliteitsnormen voldoen. Hierbij kan het gaan om het vergelijken van verwerkte gegevens met brongegevens of het gebruik van validatieregels.
De uitvoer van de gegevensverwerkingsfase:
Het resultaat is een schone, consistente en getransformeerde dataset die klaar is voor verdere analyse, modellering of visualisatie. Deze verwerkte gegevens worden doorgaans opgeslagen in een datawarehouse of datameer, zodat ze gemakkelijk toegankelijk zijn en kunnen worden opgehaald.
De specifieke stappen en technieken die in de gegevensverwerkingsfase worden gebruikt, zijn sterk afhankelijk van het type gegevens, de doelstellingen van de analyse en de beschikbare hulpmiddelen en bronnen. Het is vaak een iteratief proces, waarbij meerdere stappen door de verschillende stappen nodig zijn om het gewenste niveau van datakwaliteit en geschiktheid te bereiken. |