De gegevensbestanden die als invoer voor een informatiesysteem worden gebruikt, variëren enorm, afhankelijk van het doel van het systeem. Er is geen eenduidig antwoord, maar hier zijn enkele veelvoorkomende typen:
Gestructureerde gegevens: Deze gegevens zijn georganiseerd in een vooraf gedefinieerd formaat, vaak relationele databases of spreadsheets. Voorbeelden zijn onder meer:
* CSV (door komma's gescheiden waarden): Een eenvoudig tekstbestand waarin waarden worden gescheiden door komma's. Heel gebruikelijk voor het importeren en exporteren van gegevens.
* TSV (door tabs gescheiden waarden): Vergelijkbaar met CSV, maar gebruikt tabbladen als scheidingstekens.
* JSON (JavaScript-objectnotatie): Een voor mensen leesbaar tekstformaat voor het weergeven van gestructureerde gegevens. Op grote schaal gebruikt voor web-API's en gegevensuitwisseling.
* XML (Extensible Markup Language): Een opmaaktaal die een reeks regels definieert voor het coderen van documenten in een indeling die zowel door mensen als door machines leesbaar is.
* SQL-databases (bijvoorbeeld MySQL, PostgreSQL, Oracle, SQL Server): Deze slaan gegevens op in relationele tabellen, toegankelijk via SQL-query's. De database zelf is de invoer, niet een enkel bestand.
* Spreadsheetbestanden (bijvoorbeeld XLSX, XLS): Bestanden gemaakt door programma's zoals Microsoft Excel of Google Spreadsheets.
Semi-gestructureerde gegevens: Gegevens die niet strikt voldoen aan een vooraf gedefinieerd model, maar toch enkele organisatorische eigenschappen bezitten. Voorbeelden:
* Logbestanden: Tekstbestanden waarin gebeurtenissen en acties binnen een systeem worden vastgelegd.
* JSON met schemavariaties: JSON-gegevens waarbij de structuur enigszins kan variëren tussen records.
* XML-bestanden zonder strikt schema: XML-gegevens waarvan de structuur niet strikt wordt gehandhaafd.
Ongestructureerde gegevens: Gegevens zonder vooraf gedefinieerd formaat of organisatie. Voorbeelden zijn onder meer:
* Tekstdocumenten (.txt, .doc, .pdf): Tekstverwerkingsdocumenten, PDF's, enz. vereisen vaak Natural Language Processing (NLP)-technieken voor analyse.
* Afbeeldingen (.jpg, .png, .gif): Afbeeldingsbestanden die worden gebruikt voor beeldherkenning en -analyse.
* Audiobestanden (.mp3, .wav): Audiobestanden voor spraakherkenning en audioanalyse.
* Videobestanden (.mp4, .avi): Videobestanden voor videoanalyse.
Andere gegevensbronnen: Invoer komt niet altijd uit bestanden. Een informatiesysteem kan ook input ontvangen van:
* API's (Application Programming Interfaces): Maak communicatie tussen verschillende softwaresystemen mogelijk.
* Databases (zoals hierboven vermeld): Direct gegevens opvragen en ontvangen uit een database.
* Sensoren: Gegevens verzamelen van fysieke sensoren (temperatuur, druk, enz.).
* Gegevens streamen: Realtime datastromen uit verschillende bronnen.
Welke specifieke databestanden worden gebruikt, is geheel afhankelijk van de applicatie. Een salarissysteem kan een CSV-bestand met werknemersgegevens gebruiken, terwijl een machine learning-model een grote dataset met afbeeldingen kan gebruiken. Het begrijpen van de invoergegevens is cruciaal voor het ontwikkelen en onderhouden van elk informatiesysteem. |