Data warehouse en data mining tools maken het gemakkelijk om uit te pakken en te analyseren enorme hoeveelheden informatie , maar de kwaliteit van de analyse is slechts zo goed als de kwaliteit van de gegevens . De eerste stap in een onderzoek of data warehousing project moet een beoordeling van de kwaliteit van de data in te gaan op het project . Maatregelen voor de volledigheid , geldigheid en consistentie alle factor in deze beoordeling. Om datakwaliteitscriteria ontwikkelen , moet u bepaalde stappen . Instructies 1 Ontwikkelen van een raamwerk voor het meten van de kwaliteit van gegevens . Maak ruimte in elke database waar de resultaten van de kwaliteitscontroles kunnen worden opgeslagen . Ontwikkelen van rapporten of dashboards van deze gegevens . Kopen van 2 Meet data volledigheid . Kies belangrijkste elementen in elke database en tel het percentage nullen , lege velden of waarden vertegenwoordigen beschikbaar of onbekende gegevens . 3 Meet percentages van toegestane waarden . Wanneer een veld heeft een aantal vooraf gedefinieerde code waarden , het meten van de verdeling van deze waarden tegen het aantal onjuiste en ontbrekende waarden . Analyseer deze distributies te bepalen of bepaalde codes lijken te vaak . Zo ja , deze waarde moet kunnen worden onderverdeeld naar betere beschrijving geven . Bijvoorbeeld, als de reacties zijn zwart , wit en kleur en 98 % van de reacties zijn kleur , is het misschien zinvol om de kleur te vervangen door rood , blauw of groen . Controleer 4 voor redelijke waarden . Numerieke metingen verschijnen meestal binnen een toegestane bereik . Zo zal een dagelijkse weer temperatuur Fahrenheit meten meestal getoond als een waarde van ongeveer -40 tot 120 . Elke waarde buiten dat bereik is waarschijnlijk niet geldig . 5 Vergelijk waarden binnen hetzelfde record voor consistentie . Als de temperatuur was 90 Fahrenheit en de precipitatie waarde is sneeuw , een van de twee waarden is waarschijnlijk onjuist . Controleer de samenhang tussen 6 gerelateerde records . Gebruik soortgelijke consistentie controles tussen records in ouder-kind relaties en binnen meerdere kind inzendingen . Ouder en kind relaties zijn verbindingen tussen database- elementen . Bijvoorbeeld , in een aantal tijd - gerelateerde items , als een set van uurlijkse temperatuurmetingen lijst temperaturen gestaag toegenomen van 50 naar 70 graden in de ochtend, maar de 10:00 te lezen is -20 , deze waarde is waarschijnlijk in de fout . 7 Maak rapporten , dashboards of meldingen op basis van de verzamelde gegevens . Samenvatten door organisatorische groep , leverancier of klant soort met capaciteiten tot inzoomen op specifieke gegevenselementen . Analyseren van de gegevens om te bepalen waar de fouten zich voordoen en wat kan worden gedaan om de kwaliteit van de gegevens te verbeteren . 8 Verbeter de kwaliteit van gegevens . Herziening van business rules , reparatie- software om slechte data af te wijzen , melden klanten van gegevens problemen en manieren om de kwaliteit van initiatieven te belonen vinden . Monitor deze metingen over de tijd .
|