Broninvoergegevens (SID) zijn de gegevens die u wilt gebruiken als invoer voor uw model. Dit kan elk type gegevens zijn, waaronder:
* Gestructureerde gegevens: Dit type gegevens wordt opgeslagen in een gestructureerd formaat, zoals een spreadsheet of database.
* Ongestructureerde gegevens: Dit soort gegevens worden niet in een gestructureerd formaat, zoals tekst of afbeeldingen, opgeslagen.
SID kan afkomstig zijn uit verschillende bronnen, waaronder:
* Interne gegevens: Deze gegevens worden binnen uw organisatie gegenereerd en doorgaans opgeslagen in een database of ERP-systeem (Enterprise Resource Planning).
* Externe gegevens: Deze gegevens worden buiten uw organisatie gegenereerd en zijn te vinden op internet, op sociale media of in overheidsdatabases.
De kwaliteit van uw SID is van cruciaal belang voor het succes van uw model. Slechte data leiden tot slechte resultaten. Daarom is het belangrijk dat u de tijd neemt om uw SID schoon te maken en voor te bereiden voordat u deze voor modellering gebruikt.
Hier volgen enkele tips voor het voorbereiden van uw SID:
* Uw gegevens opschonen: Dit houdt in dat eventuele dubbele of foutieve gegevens worden verwijderd.
* Standaardiseer uw gegevens: Hierbij worden al uw gegevens naar een consistent formaat geconverteerd.
* Verrijk uw gegevens: Hierbij worden extra gegevens aan uw SID toegevoegd, zoals demografische informatie of weergegevens.
Zodra u uw SID heeft voorbereid, kunt u deze gaan gebruiken om uw model te bouwen. |