Annotatie bij afbeeldingen is het proces waarbij informatie aan afbeeldingen wordt toegevoegd om ze begrijpelijker te maken voor computers. Deze informatie heeft meestal de vorm van labels, selectiekaders, polygonen, semantische segmentatiemaskers of andere metagegevens. Het doel is om computer vision-modellen te trainen om objecten, scènes en activiteiten in afbeeldingen te herkennen.
Hier volgt een overzicht van de verschillende soorten afbeeldingannotaties:
* Begrenzingsvakken: Een rechthoekige doos rond een interessant object. Dit is een veel voorkomende en relatief eenvoudige vorm van annotatie. Het identificeert de locatie van het object, maar biedt geen gedetailleerde vorminformatie.
* Veelhoeken: Veelhoeken zijn preciezer dan kaders en tekenen de omtrek van een object, waardoor de vorm ervan nauwkeuriger wordt vastgelegd. Dit is handig voor objecten met onregelmatige vormen.
* Semantische segmentatie: Hiermee wordt aan elke pixel in de afbeelding een label toegewezen, waarbij elke pixel wordt geclassificeerd als behorend tot een specifiek object of klasse. Dit biedt de meest gedetailleerde informatie over de inhoud van de afbeelding.
* Bezienswaardigheden/belangrijkste punten: Hierbij worden specifieke punten op een object gemarkeerd (bijvoorbeeld de hoeken van een auto, de ogen en de neus van een gezicht). Dit wordt vaak gebruikt voor pose-inschatting en gezichtsherkenning.
* Cuboïden (3D-grensvakken): Wordt gebruikt voor 3D-objectdetectie, waarbij de locatie en afmetingen van het object in de driedimensionale ruimte worden gespecificeerd.
* Ondertiteling/transcriptie: Het toevoegen van tekstuele beschrijvingen aan afbeeldingen, het samenvatten van de inhoud of het bieden van context.
* Afbeeldingsclassificatie: Een enkel label toewijzen aan een hele afbeelding, waarbij de algehele inhoud ervan wordt beschreven.
Het type annotatie dat wordt gebruikt, is afhankelijk van de specifieke toepassing en het gewenste detailniveau. Voor een zelfrijdende auto kan bijvoorbeeld semantische segmentatie nodig zijn om wegmarkeringen en voetgangers nauwkeurig te identificeren, terwijl voor het zoeken naar productafbeeldingen mogelijk alleen selectiekaders nodig zijn. De geannoteerde afbeeldingen worden vervolgens de trainingsgegevens voor machine learning-algoritmen die worden gebruikt bij objectdetectie, beeldclassificatie en andere computervisietaken. |