Bij het analyseren van gegevens , is het niet alleen noodzakelijk om een voldoende grote hoeveelheid , maar het is ook belangrijk dat de kwaliteit van de gegevens van een hoge standaard . Gegevens kunnen " dirty " worden gemaakt in een aantal manieren - fouten tijdens het verzamelen , fouten gemaakt bij de integratie van meerdere datasets en toevallige schrapping zijn slechts een paar van zulke manieren . Hierdoor is het belangrijk dat data wordt gereinigd vóór gebruik . Ontbrekende gegevens Geautomatiseerde procedures worden vaak gebruikt om ontbrekende gegevens te vinden . Dit kunnen SQL-query's in een database , of statistische analyses . Als analist je kijkt naar patronen in de verspreiding van de ontbrekende gegevens . Je maakt dan beslissingen over wat te doen , die kunnen worden exclusief bepaalde variabelen geheel , of het vervangen van hun waarden met gemiddelden . Soms ontbrekende gegevens kunnen fouten aan te geven bij de integratie van meerdere datasets en in een worst-case scenario het hele proces kan worden herhaald tot alle gegevens te verkrijgen . Uitschieters een uitschieter is een data- waarde die manier buiten het algemene patroon van de gegevens . Ze kunnen worden geïdentificeerd met afbeeldingen, zoals box plots of door te zoeken naar waarden een aantal standaardafwijkingen van het gemiddelde . Eenmaal geïdentificeerd , moet u beslissen of om ze te verwijderen of niet - die gaat beslissen of ze fouten in het verzamelen van gegevens , of de werkelijke waarden waren . Soms , kunt u ervoor kiezen om bepaalde procedures lopen met en zonder uitschieters , om de resultaten te vergelijken . Formatting Fouten Meer alledaagse fouten in een data set zou zijn spelfouten of andere soortgelijke fouten . Queries kunnen worden gebruikt voor zoeken en vervangen duidelijke fouten zoals verkeerde spelling van merknamen of locaties , maar kunnen ook worden gebruikt om gegevenspunten die reiniging nodig markeren . Bijvoorbeeld , zou u een zoekopdracht van achternamen of telefoonnummers boven en onder een bepaalde lengte lopen , om fouten die ergens voorgedaan langs de dataverzameling en integratieproces te lokaliseren . Gegevens Coding < br > p Het is gebruikelijk dat gegevens aanvankelijk in een formaat dat geschikt is voor analyse . Bijvoorbeeld kan onderzoeksreacties moeten worden omgezet in een numerieke tegenhanger , bijvoorbeeld van " zeer eens " naar " 7 " of categorische variabelen zoals geslacht moet worden omgezet in binaire indicator variabelen . Dit heet codering of hercoderen , en het is een goede gewoonte om nieuwe variabelen te maken met de nieuw gecodeerde gegevens in plaats van de oude overschrijven , zodat fouten kunnen worden terug - gecontroleerd . < br > |