Lineær regression (definition, eksempler) - Hvordan skal man fortolke?

Indholdsfortegnelse

Hvad er en lineær regression?

Lineær regression er grundlæggende en statistisk modelleringsteknik, der bruges til at vise forholdet mellem en afhængig variabel og en eller flere uafhængige variabler. Det er en af ​​de mest almindelige typer forudsigelig analyse. Denne type distribution dannes i en linje, derfor kaldes dette lineær regression. I denne artikel vil vi tage eksemplerne på lineær regressionsanalyse i Excel.

For at udføre lineær regressionsanalyse først skal vi tilføje excel-tilføjelsesprogrammer ved at følge trinene.

Klik på Filer - Indstillinger (Dette åbner Excel-indstillinger, dukker op for dig).

Klik på tilføjelsesprogrammer - Vælg Excel-tilføjelsesprogrammer fra Administrer drop down i Excel, og klik derefter på Gå.

Dette åbner tilføjelsesprogrammer Pop op. Vælg Analysis ToolPak, og klik derefter på Ok.

Tilføjelse til dataanalyse vises under fanen Indsæt.

Lad os forstå af nedenstående eksempler på lineær regressionsanalyse i excel.

Eksempler på lineær regressionsanalyse

Eksempel nr. 1

Antag, at vi har månedligt salg og brugt på marketing for sidste år, og nu er vi nødt til at forudsige fremtidigt salg på baggrund af sidste års salg og markedsføring brugt.

Måned Annoncering Salg
Jan 40937 502729
Feb 42376 507553
Mar 43355 516885
Apr 44126 528347
Kan 45060 537298
Jun 49546 544066
Jul 56105 553664
Aug 59322 563201
Sep 59877 568657
Okt 60481 569384
Nov 62356 573764
Dec 63246 582746

Klik på Dataanalyse under Data-fanen, og dette åbner dataanalysepop for dig.

Vælg nu Regression fra listen, og klik på Ok.

Pop-up med regression åbnes.

Vælg salgsområde $ C $ 1: $ C $ 13 i boksen Y-akse, da dette er den afhængige variabel, og $ B $ 1: $ B $ 14 i X-aksen, da brugt annonce er den uafhængige variabel.

Marker i feltet Etiketter, hvis du har valgt overskrifter i data ellers, det giver dig fejlen.

Vælg Output-rækkevidde, hvis du vil hente værdien på det specifikke interval på regnearket, ellers vælg New Worksheet Ply: og dette tilføjer et nyt regneark og giver dig resultatet.

Marker derefter afkrydsningsfeltet Restprodukter og klik på Ok.

Dette tilføjer regneark og giver dig følgende resultat.

Lad os forstå output.

Resumé output

Multiple R: Dette repræsenterer korrelationskoefficienten. Værdien 1 viser et positivt forhold, og værdi 0 viser ikke noget forhold.

R-firkant: R-firkant repræsenterer bestemmelseskoefficienten. Dette fortæller dig procentdelen af ​​point falder på regressionslinjen. 0,49 betyder, at 49% af værdierne passer til modellen

Justeret R-firkant : Dette justeres R-firkant, hvilket kræver, når du har mere end en X-variabel.

Standardfejl: Dette repræsenterer et skøn over standardafvigelsen for fejl. Dette er præcisionen, som regressionskoefficienten måles.

Observationer: Dette er antallet af observationer, du har taget i en prøve.

ANOVA - Df: Grader af frihed

SS: Summen af ​​firkanter.

MS: vi har to MS

  • Regression MS er Regression SS / Regression Df.
  • Rest MS er den gennemsnitlige kvadrerede fejl (Residual SS / Residual Df).

F: F test for nulhypotesen.

Betydning F: P-værdier forbundet med betydning

Koefficient: Koefficient giver dig et skøn over mindste kvadrater.

T-statistik: T-statistik for nulhypotese vs den alternative hypotese.

P-værdi: Dette er p-værdien til hypotesetesten.

Nedre 95% og Øvre 95%: Disse er den nedre grænse og den øvre grænse for konfidensintervallet

Restprodukter: Vi har 12 observationer baseret på dataene. 2 nd kolonne repræsenterer Forventede salg og 3 rd kolonne Residualer. Restprodukter er dybest set forskellen i forudsagt salg fra den faktiske.

Eksempel 2

Vælg den forudsagte salgs- og marketingkolonne

Gå til diagramgruppen under fanen Indsæt. Vælg punktdiagramikonet

Dette indsætter spredningsdiagrammet i excel. Se billedet nedenfor

Højreklik på et hvilket som helst punkt, og vælg derefter Tilføj trendlinje i Excel. Dette tilføjer en trendlinje til dit diagram.

  • Du kan formatere trendlinien ved at højreklikke hvor som helst på trendlinjen og derefter vælge format trendline.
  • Du kan foretage flere forbedringer af diagrammet. dvs. formatering af trendlinje, farve og skift titel osv
  • Du kan også vise formlen på grafen ved at kontrollere skærmformlen på diagrammet og vise R-kvadratværdien på diagrammet.

Nogle flere eksempler på lineær regressionsanalyse:

  1. Forudsigelse af paraply solgt baseret på regnen skete i området.
  2. Forudsigelse af AC solgt baseret på temperaturen om sommeren.
  3. I løbet af eksamensæsonen steg salget af Stationary stort set eksamensguide-salget.
  4. Forudsigelse af salg, når annoncering er udført på baggrund af høj TRP-serie, hvor en annonce udføres, popularitet af brandambassadør og fodfald på det sted, hvor en annonce offentliggøres.
  5. Salg af et hus baseret på lokalitet, område og pris.

Eksempel 3

Antag, at vi har ni studerende med deres IQ-niveau og antallet, de scorede på test.

Studerende Test score IQ
Vædder 100 145
Shyam 97 140
Kul 93 130
Kappu 91 125
Raju 89 115
Vishal 86 110
Vivek 82 100
Vinay 78 95
Kumar 75 90

Trin 1: Find først ud af de afhængige og uafhængige variabler. Her er testscore den afhængige variabel, og IQ er den uafhængige variabel, da testscore varierer, når IQ bliver ændret.

Trin 2: Gå til fanen Data - Klik på dataanalyse - Vælg regression - klik på Ok.

Dette åbner regressionsvinduet for dig.

Trin 3. Input Test Score interval i Input Y Range Box og IQ i Input X Range Box. (Kontroller på etiketter, hvis du har overskrifter i dit dataområde. Vælg outputindstillinger, og kontroller derefter de ønskede rester. Klik på Ok.

Du får den opsummerede output vist i nedenstående billede.

Trin 4: Analysering af regression efter resuméoutput

Resumé output

Multiple R: Her er korrelationskoefficienten 0,99, hvilket er meget tæt på 1, hvilket betyder, at det lineære forhold er meget positivt.

R Square: R Square værdi er 0,983, hvilket betyder, at 98,3% af værdierne passer til modellen.

P-værdi: Her er P-værdi 1.86881E-07, hvilket er meget mindre end .1, hvilket betyder, at IQ har betydelige forudsigelige værdier.

Se diagrammet nedenfor.

Du kan se, at næsten alle punkter falder inline eller en nærliggende trendline.

Eksempel 4

Vi er nødt til at forudsige salg af AC baseret på salg og temperatur i en anden måned.

Måned Midlertidig Salg
Jan 25 38893
Feb 28 42254
Mar 31 42845
Apr 33 47917
Kan 37 51243
Jun 40 69588
Jul 38 56570
Aug 37 50000

Følg nedenstående trin for at få regressionsresultatet.

Trin 1: Find først ud af de afhængige og uafhængige variabler. Her er salg den afhængige variabel, og temperatur er en uafhængig variabel, da salget varierer, efterhånden som temp ændres.

Trin 2: Gå til fanen Data - Klik på dataanalyse - Vælg regression - klik på Ok.

Dette åbner regressionsvinduet for dig.

Trin 3. Input salg i Input Y Range Box og Temp i Input X Range Box. (Kontroller på etiketter, hvis du har overskrifter i dit dataområde. Vælg outputindstillinger, og kontroller derefter de ønskede rester. Klik på Ok.

Dette giver dig et resumé output som nedenfor.

Trin 4: Analyser resultatet.

Multiple R: Her er korrelationskoefficienten 0,877, hvilket er tæt på 1, hvilket betyder, at det lineære forhold er positivt.

R Square: R Square værdi er 0,770, hvilket betyder at 77% af værdier passer til modellen

P-værdi: Her er P-værdi 1.86881E-07, hvilket er meget mindre end .1, hvilket betyder, at IQ har betydelige forudsigelige værdier.

Eksempel 5

Lad os nu lave en regressionsanalyse for flere uafhængige variabler:

Du er nødt til at forudsige salget af en mobil, der vil starte næste år. Du har prisen og befolkningen i de lande, der påvirker salget af mobiltelefoner.

Mobil version Salg Antal Befolkning
OS 63860 858 823
UK 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
NZ 51075 728 661
RU 49019 689 778

Følg nedenstående trin for at få regressionsresultatet.

Trin 1. Find først ud af de afhængige og uafhængige variabler. Her er salget afhængig af variabel og mængde og befolkning. Begge er uafhængige variabler, da salget varierer med mængden og befolkningen i landet.

Trin 2. Gå til fanen Data - Klik på Dataanalyse - Vælg regression - klik på Ok.

Dette åbner regressionsvinduet for dig.

Trin 3. Indtast salg i Input Y Range Box, og vælg mængde og population i Input X Range Box. (Kontroller på etiketter, hvis du har overskrifter i dit dataområde. Vælg outputindstillinger, og kontroller derefter de ønskede rester. Klik på Ok.

Kør nu regressionen ved hjælp af dataanalyse under fanen Data. Dette giver dig nedenstående resultat.

Resumé output

Multiple R: Her er korrelationskoefficienten 0,93, hvilket er meget tæt på 1, hvilket betyder, at det lineære forhold er meget positivt.

R Square: R Square værdi er 0,866, hvilket betyder, at 86,7% af værdier passer til modellen.

Betydning F: Betydning F er mindre end .1, hvilket betyder, at regressionsligningen har signifikant forudsigelig værdi.

P-værdi : Hvis du ser på P-værdi for mængde og befolkning, kan du se, at værdier er mindre end .1, hvilket betyder, at mængde og population har en betydelig forudsigelsesværdi. De færre P-værdier betyder, at en variabel har mere signifikante forudsigelige værdier.

Imidlertid har både mængde og population signifikant forudsigelig værdi, men hvis du ser på P-værdi for mængde og population, kan du se, at mængden har en mindre P-værdi i excel end befolkning. Dette betyder, at mængde har en mere signifikant forudsigelsesværdi end befolkning.

Ting at huske

  • Kontroller altid de afhængige og uafhængige variabler, når du vælger data.
  • Lineær regressionsanalyse overvejer forholdet mellem variablenes gennemsnit.
  • Denne model kun forholdet mellem de variabler, der er lineære
  • Nogle gange er det ikke bedst egnet til et virkeligt problem. For eksempel: (Alder og lønninger). Det meste af tiden stiger lønnen efterhånden som alder stiger. Efter pensionen stiger alder dog, men lønnen falder.

Interessante artikler...