Clustering is de organisatie van datapunten in clusters, waarbij datapunten in een cluster meer op elkaar lijken dan op datapunten in andere clusters. Het algemene idee achter clustering is dat vergelijkbare gegevensitems moeten worden gegroepeerd. Dataclustering is leren zonder toezicht, wat betekent dat er geen gelabelde gegevens nodig zijn.
Clustering kan nuttig zijn bij het begrijpen van de structuur van een dataset, het vinden van overeenkomsten tussen data-items, het identificeren van uitschieters en het verminderen van de dimensionaliteit van gegevens. Het wordt vaak gebruikt op verschillende gebieden, zoals machinaal leren, datamining, bio-informatica en beeldverwerking.
Stappen:
1. Gegevensvoorbereiding
2. Een afstandsmaat selecteren
3. Het kiezen van het aantal clusters
4. Clustering
5. Evaluatie van de clustering |