Zawartość
Podczas dopasowywania linii prostej do zestawu danych możesz być zainteresowany określeniem, jak dobrze wynikowa linia pasuje do danych. Jednym ze sposobów jest obliczenie błędu sumy kwadratów (SSE). Ta wartość stanowi miarę tego, jak dobrze linia najlepszego dopasowania przybliża zestaw danych. SSE jest ważny dla analizy danych eksperymentalnych i jest określany tylko w kilku krótkich krokach.
Znajdź linię najlepiej dopasowaną do modelowania danych przy użyciu regresji. Linia najlepszego dopasowania ma postać y = ax + b, gdzie aib są parametrami, które należy określić. Możesz znaleźć te parametry za pomocą prostej analizy regresji liniowej. Załóżmy na przykład, że linia najlepszego dopasowania ma postać y = 0,8x + 7.
Użyj równania, aby ustalić wartość każdej wartości y przewidywanej przez linię najlepszego dopasowania. Możesz to zrobić, podstawiając każdą wartość x do równania linii. Na przykład, jeśli x jest równe 1, podstawienie tego do równania y = 0,8x + 7 daje 7,8 wartości y.
Określ średnią wartości przewidywanych z linii równania najlepszego dopasowania. Możesz to zrobić, sumując wszystkie wartości y prognozowane z równań i dzieląc wynikową liczbę przez liczbę wartości. Na przykład, jeśli wartości wynoszą 7,8, 8,6 i 9,4, zsumowanie tych wartości daje 25,8, a podzielenie tej liczby przez liczbę wartości, w tym przypadku 3, daje 8,6.
Odejmij każdą z poszczególnych wartości od średniej i potwierdź wynikową liczbę. W naszym przykładzie, jeśli odejmiemy wartość 7,8 od średniej 8,6, wynikowa liczba to 0,8. Kwadrat tej wartości daje 0,64.
Zsumuj wszystkie kwadratowe wartości z kroku 4. Jeśli zastosujesz instrukcje z kroku 4 do wszystkich trzech wartości w naszym przykładzie, znajdziesz wartości 0,64, 0 i 0,64. Zsumowanie tych wartości daje 1,28. Jest to błąd sumy kwadratów.