Mindste kvadraters regression - Hvordan oprettes en linje med den bedste pasform?

Definition af regressionsmetode for mindste kvadrater

En regressionsmetode med mindst kvadrat er en form for regressionsanalyse, der fastslår forholdet mellem den afhængige og uafhængige variabel sammen med en lineær linje. Denne linje kaldes "linjen med den bedste pasform."

Regressionsanalyse er en statistisk metode ved hjælp af hvilken man kan estimere eller forudsige de ukendte værdier for en variabel ud fra de kendte værdier for en anden variabel. Den variabel, der bruges til at forudsige den variable interesse, kaldes den uafhængige eller forklarende variabel, og den variabel, der forudsiges, kaldes den afhængige eller forklarede variabel.

Lad os overveje to variabler, x & y. Disse er afbildet på en graf med værdier på x på x-aksens værdier af y på y-aksen. Disse værdier er repræsenteret af prikkerne i nedenstående graf. En lige linje trækkes gennem prikkerne - kaldet linjen med den bedste pasform.

Formålet med mindste kvadraters regression er at sikre, at linjen trukket gennem det angivne værdisæt etablerer det tætteste forhold mellem værdierne.

Formel for mindste kvadraters regression

Regressionslinjen under metoden med mindst kvadrater beregnes ved hjælp af følgende formel -

ŷ = a + bx

Hvor,

  • ŷ = afhængig variabel
  • x = uafhængig variabel
  • a = y-skæring
  • b = linjens hældning

Hældningen på linje b beregnes ved hjælp af følgende formel -

Eller

Y-skæring, 'a' beregnes ved hjælp af følgende formel -

Line of Best Fit in the Least Square Regression

Linjen med den bedste pasform er en lige linje trukket gennem en spredning af datapunkter, der bedst repræsenterer forholdet mellem dem.

Lad os overveje følgende graf, hvor et datasæt er plottet langs x- og y-aksen. Disse datapunkter er repræsenteret ved hjælp af de blå prikker. Tre linjer trækkes gennem disse punkter - en grøn, en rød og en blå linje. Den grønne linje passerer gennem et enkelt punkt, og den røde linje passerer gennem tre datapunkter. Den blå linje passerer imidlertid gennem fire datapunkter, og afstanden mellem de resterende punkter til den blå linje er minimal sammenlignet med de to andre linjer.

I ovenstående graf repræsenterer den blå linje den linje, der passer bedst, da den ligger tættest på alle værdierne, og afstanden mellem punkterne uden for linjen til linjen er minimal (dvs. afstanden mellem resterne til linjen med den bedste pasform - også kaldet summen af ​​kvadrater af rester). I de to andre linjer, den orange og den grønne, er afstanden mellem resterne til linjerne større sammenlignet med den blå linje.

Metoden med mindst kvadrater tilvejebringer det tætteste forhold mellem de afhængige og uafhængige variabler ved at minimere afstanden mellem residualerne og linjen med den bedste pasform, dvs. summen af ​​kvadraterne af residualer er minimal under denne tilgang. Derfor udtrykket "mindste firkanter".

Eksempler på regressionslinie for mindste kvadrater

Lad os anvende disse formler i nedenstående spørgsmål -

Eksempel nr. 1

Oplysningerne om teknikernes erfaring i en virksomhed (i en årrække) og deres præstationsvurdering er angivet i nedenstående tabel. Brug disse værdier til at estimere ydelsesvurderingen for en tekniker med 20 års erfaring.

Erfaring med tekniker (i år) Ydelsesvurdering
16 87
12 88
18 89
4 68
3 78
10 80
5 75
12 83

Løsning -

For at beregne de mindste kvadrater først beregner vi Y-skæringspunktet (a) og hældningen af ​​en linje (b) som følger -

Hældningen på linje (b)

  • b = 6727 - ((80 * 648) / 8 ) / 1018 - ((80) 2 /8)
  • = 247/218
  • = 1,13

Y-skæring (a)

  • a = 648 - (1,13) (80) / 8
  • = 69,7

Regressionslinjen beregnes som følger -

Erstatter 20 for værdien af ​​x i formlen,

  • ŷ = a + bx
  • ŷ = 69,7 + (1,13) (20)
  • ŷ = 92,3

Ydelsesvurderingen for en tekniker med 20 års erfaring anslås til at være 92,3.

Eksempel 2

Mindste kvadraters regressionsligning ved hjælp af Excel

Regressionsligningen med mindste kvadrat kan beregnes ved hjælp af excel ved hjælp af følgende trin -

  • Indsæt datatabel i excel.
  • Indsæt en spredningsgraf ved hjælp af datapunkterne.
  • Indsæt en trendlinje i scattergrafen.
  • Under indstillinger for trendlinje - vælg lineær tendenslinje og vælg visningsligning på diagrammet.
  • Regressionsligningen med mindst kvadrat for det givne sæt excel-data vises på diagrammet.

Således beregnes regressionsligningen med det mindste kvadrat for det givne sæt excel-data. Ved hjælp af ligningen kan forudsigelser og trendanalyser foretages. Excel-værktøjer giver også detaljerede regressionsberegninger.

Fordele

  • Metoden med mindste kvadrat for regressionsanalyse er bedst egnet til forudsigelsesmodeller og trendanalyse. Det bruges bedst inden for økonomi, finans og aktiemarkeder, hvor værdien af ​​en fremtidig variabel forudsiges ved hjælp af eksisterende variabler og forholdet mellem den samme.
  • Metoden med mindst kvadrater giver det tætteste forhold mellem variablerne. Forskellen mellem summen af ​​kvadrater af rester til linjen med den bedste pasform er minimal under denne metode.
  • Beregningsmekanismen er enkel og nem at anvende.

Ulemper

  • Metoden med mindst kvadrat er afhængig af at etablere det tætteste forhold mellem et givet sæt variabler. Beregningsmekanismen er følsom over for dataene, og i tilfælde af afvigelser (ekstraordinære data) kan resultaterne have en stor indflydelse.
  • Denne type beregning er bedst egnet til lineære modeller. For ikke-lineære ligninger anvendes mere udtømmende beregningsmekanismer.

Konklusion

Metoden med mindst kvadrater er en af ​​de mest populære metoder til forudsigelsesmodeller og trendanalyse. Når det beregnes korrekt, leverer det de bedste resultater.

Interessante artikler...