Wykres rozproszenia jest ważnym narzędziem diagnostycznym w arsenale statystyk, uzyskanym przez zobrazowanie dwóch zmiennych względem siebie. Pozwala statystykowi spojrzeć na zmienne i sformułować roboczą hipotezę na temat ich związku. Z tego powodu jest on zwykle rysowany przed przeprowadzeniem analizy regresji. Statystyka następnie testuje hipotezę za pomocą analizy regresji i określa znak i dokładną wielkość związku. Ponadto wykres rozproszenia pomaga zidentyfikować wartości odstające - wartości, które są nienormalnie odległe od większości danych w próbce. Eliminowanie wartości odstających pomaga ulepszyć model regresji.
Sprawdź ujemny związek między dwiema zmiennymi na wykresie punktowym. Jeśli niskie wartości pierwszej zmiennej odpowiadają wysokim wartościom drugiej zmiennej, istnieje korelacja ujemna. W takim przypadku linia przechodząca przez punkty danych ma nachylenie ujemne.
Zbadaj wykres rozproszenia pod kątem pozytywnego związku między zmiennymi. Jeśli niskie wartości pierwszej zmiennej na wykresie rozproszenia odpowiadają niskim wartościom drugiej, a wysokie wartości pierwszej podobnie odpowiadają wysokim wartościom drugiej, zmienne mają korelację dodatnią. W tym przypadku linia przechodząca przez punkty danych ma dodatnie nachylenie.
Sprawdź wykres rozproszenia pod kątem braku związku między zmiennymi. Jeśli punkty danych na wykresie rozproszenia są rozmieszczone losowo bez widocznej zależności między nimi, nie mają one żadnej korelacji lub mają małą, statystycznie nieistotną korelację. W tym przypadku linia poprowadzona przez punkty danych jest pozioma z nachyleniem równym zero.
Dopasuj linię przez punkty danych i zbadaj jej kształt, aby zmierzyć charakter zależności między dwiema zmiennymi. Linia prosta jest interpretowana jako relacja liniowa, zakrzywiony kształt sugeruje relację kwadratową, a linia, która leży stosunkowo płasko, zanim nagle wystrzeli w górę lub w dół, jest interpretowana jako relacja wykładnicza.
Zbadaj wykres rozproszenia dla wartości odstających, wartości, które leżą nienormalnie daleko od skupiska punktów danych. Wartości odstające zniekształcają związek między zmiennymi. Wyeliminuj je, ale tylko wtedy, gdy ich brak nie wpływa na analizę związku między dwiema zmiennymi.