Wady regresji liniowej

Listopad 2024

Autor: Peter Berry

Data Utworzenia: 19 Sierpień 2021

Data Aktualizacji: 13 Listopad 2024

Wideo: Linear Regression and Some Alternatives for Predictive Regression

Zawartość

Regresja liniowa jest ograniczona do relacji liniowych
Regresja liniowa patrzy tylko na średnią zmiennej zależnej
Regresja liniowa jest wrażliwa na wartości odstające
Dane muszą być niezależne

Regresja liniowa jest statystyczną metodą badania zależności między zmienną zależną, oznaczoną jako y i jedną lub więcej zmiennych niezależnych, oznaczonych jako x. Zmienna zależna musi być ciągła, tzn. Może przyjmować dowolną wartość lub przynajmniej zbliżoną do ciągłej. Zmienne niezależne mogą być dowolnego typu. Chociaż regresja liniowa nie może sama w sobie wykazywać związku przyczynowego, zmienne niezależne zwykle wpływają na zmienną zależną.

Regresja liniowa jest ograniczona do relacji liniowych

Z natury regresja liniowa uwzględnia jedynie liniowe relacje między zmiennymi zależnymi i niezależnymi. Oznacza to, że zakłada między nimi relację liniową. Czasami jest to nieprawidłowe. Na przykład związek między dochodem a wiekiem jest zakrzywiony, tzn. Dochód ma tendencję do wzrostu we wczesnych okresach dorosłości, spłaszczenia w późniejszym okresie dorosłości i spadku po przejściu na emeryturę. Możesz stwierdzić, czy jest to problem, patrząc na graficzne przedstawienia relacji.

Regresja liniowa patrzy tylko na średnią zmiennej zależnej

Regresja liniowa analizuje związek między średnią zmiennej zależnej a zmiennymi niezależnymi. Na przykład, jeśli spojrzysz na związek między masą urodzeniową niemowląt a cechami matki, takimi jak wiek, regresja liniowa obejmie średnią wagę dzieci urodzonych przez matki w różnym wieku. Czasami jednak trzeba przyjrzeć się ekstremom zmiennej zależnej, np. Dzieci są zagrożone, gdy ich waga jest niska, więc w tym przykładzie warto przyjrzeć się ekstremom.

Podobnie jak średnia nie jest pełnym opisem pojedynczej zmiennej, regresja liniowa nie jest pełnym opisem zależności między zmiennymi. Możesz poradzić sobie z tym problemem za pomocą regresji kwantowej.

Regresja liniowa jest wrażliwa na wartości odstające

Wartości odstające to dane, które są zaskakujące. Wartości odstające mogą być jednowymiarowe (oparte na jednej zmiennej) lub wielowymiarowe. Jeśli patrzysz na wiek i dochód, wartościami jednoznacznymi są osoby, które mają 118 lat lub takie, które w zeszłym roku zarobiły 12 milionów dolarów. Wielowymiarową wartością odstającą byłby 18-latek, który zarobił 200 000 USD. W tym przypadku ani wiek, ani dochód nie są bardzo ekstremalne, ale bardzo niewiele osób w wieku 18 lat zarabia tyle pieniędzy.

Wartości odstające mogą mieć ogromny wpływ na regresję. Możesz poradzić sobie z tym problemem, żądając statystyk wpływu ze swojego oprogramowania statystycznego.

Dane muszą być niezależne

Regresja liniowa zakłada, że dane są niezależne. Oznacza to, że wyniki jednego przedmiotu (np. Osoby) nie mają nic wspólnego z wynikami innego. Jest to często, ale nie zawsze, rozsądne. Dwa typowe przypadki, w których nie ma to sensu, to skupianie się w przestrzeni i czasie.

Klasycznym przykładem grupowania w kosmosie są wyniki testów uczniów, gdy masz uczniów z różnych klas, klas, szkół i okręgów szkolnych. Uczniowie z tej samej klasy są zwykle pod wieloma względami podobni, tzn. Często pochodzą z tych samych dzielnic, mają tych samych nauczycieli itp. W związku z tym nie są niezależni.

Przykładami grupowania w czasie są wszelkie badania, w których mierzysz wielokrotnie te same przedmioty. Na przykład w badaniu diety i masy ciała możesz zmierzyć każdą osobę wiele razy. Dane te nie są niezależne, ponieważ to, co dana osoba waży przy jednej okazji, jest powiązane z tym, co ona lub ona waży przy innych okazjach. Jednym ze sposobów rozwiązania tego problemu są modele wielopoziomowe.