Zawartość
Analiza skupień jest metodą organizowania danych w reprezentatywne grupy na podstawie podobnych cech. Każdy członek klastra ma więcej wspólnego z innymi członkami tego samego klastra niż z członkami innych grup. Najbardziej reprezentatywnym punktem w grupie jest centroid. Zwykle jest to średnia wartości punktów danych w klastrze.
Uporządkuj dane. Jeśli dane składają się z jednej zmiennej, odpowiedni może być histogram. Jeśli w grę wchodzą dwie zmienne, wykreśl dane na płaszczyźnie współrzędnych. Na przykład, jeśli patrzysz na wzrost i wagę dzieci w wieku szkolnym w klasie, wykreśl punkty danych dla każdego dziecka na wykresie, przy czym ciężar jest osią poziomą, a wysokość jest osią pionową. Jeśli w grę wchodzą więcej niż dwie zmienne, do wyświetlenia danych mogą być potrzebne macierze.
Pogrupuj dane w klastry. Każdy klaster powinien składać się z najbliższych punktów danych. W przykładzie wzrostu i masy zgrupuj wszystkie punkty danych, które wydają się być blisko siebie. Liczba klastrów i to, czy każdy punkt danych musi znajdować się w klastrze, może zależeć od celów badania.
Do każdego klastra dodaj wartości wszystkich członków.Na przykład, jeśli klaster danych składałby się z punktów (80, 56), (75, 53), (60, 50) i (68,54), suma wartości wyniosłaby (283, 213).
Podzielić sumę przez liczbę członków klastra. W powyższym przykładzie 283 podzielone przez cztery to 70,75, a 213 podzielone przez cztery to 53,25, więc centroid gromady to (70,75, 53,25).
Wykreśl centroidy gromady i ustal, czy jakieś punkty znajdują się bliżej środka ciężkości innej gromady niż środkowi własnego gromady. Jeśli jakieś punkty znajdują się bliżej innego środka ciężkości, rozprowadź je ponownie w klastrze zawierającym bliższy środek ciężkości.
Powtarzaj kroki 3, 4 i 5, aż wszystkie punkty danych znajdą się w klastrze zawierającym środek ciężkości, do którego są najbliżej.