Lineær regression (definition, eksempler) - Hvordan skal man fortolke?

Indholdsfortegnelse

Hvad er en lineær regression?

Hvad er en lineær regression?

Lineær regression er grundlæggende en statistisk modelleringsteknik, der bruges til at vise forholdet mellem en afhængig variabel og en eller flere uafhængige variabler. Det er en af de mest almindelige typer forudsigelig analyse. Denne type distribution dannes i en linje, derfor kaldes dette lineær regression. I denne artikel vil vi tage eksemplerne på lineær regressionsanalyse i Excel.

For at udføre lineær regressionsanalyse først skal vi tilføje excel-tilføjelsesprogrammer ved at følge trinene.

Klik på Filer - Indstillinger (Dette åbner Excel-indstillinger, dukker op for dig).

Klik på tilføjelsesprogrammer - Vælg Excel-tilføjelsesprogrammer fra Administrer drop down i Excel, og klik derefter på Gå.

Dette åbner tilføjelsesprogrammer Pop op. Vælg Analysis ToolPak, og klik derefter på Ok.

Tilføjelse til dataanalyse vises under fanen Indsæt.

Lad os forstå af nedenstående eksempler på lineær regressionsanalyse i excel.

Eksempler på lineær regressionsanalyse

Eksempel nr. 1

Antag, at vi har månedligt salg og brugt på marketing for sidste år, og nu er vi nødt til at forudsige fremtidigt salg på baggrund af sidste års salg og markedsføring brugt.

Måned	Annoncering	Salg
Jan	40937	502729
Feb	42376	507553
Mar	43355	516885
Apr	44126	528347
Kan	45060	537298
Jun	49546	544066
Jul	56105	553664
Aug	59322	563201
Sep	59877	568657
Okt	60481	569384
Nov	62356	573764
Dec	63246	582746

Klik på Dataanalyse under Data-fanen, og dette åbner dataanalysepop for dig.

Vælg nu Regression fra listen, og klik på Ok.

Pop-up med regression åbnes.

Vælg salgsområde $ C $ 1: $ C $ 13 i boksen Y-akse, da dette er den afhængige variabel, og $ B $ 1: $ B $ 14 i X-aksen, da brugt annonce er den uafhængige variabel.

Marker i feltet Etiketter, hvis du har valgt overskrifter i data ellers, det giver dig fejlen.

Vælg Output-rækkevidde, hvis du vil hente værdien på det specifikke interval på regnearket, ellers vælg New Worksheet Ply: og dette tilføjer et nyt regneark og giver dig resultatet.

Marker derefter afkrydsningsfeltet Restprodukter og klik på Ok.

Dette tilføjer regneark og giver dig følgende resultat.

Lad os forstå output.

Resumé output

Multiple R: Dette repræsenterer korrelationskoefficienten. Værdien 1 viser et positivt forhold, og værdi 0 viser ikke noget forhold.

R-firkant: R-firkant repræsenterer bestemmelseskoefficienten. Dette fortæller dig procentdelen af point falder på regressionslinjen. 0,49 betyder, at 49% af værdierne passer til modellen

Justeret R-firkant : Dette justeres R-firkant, hvilket kræver, når du har mere end en X-variabel.

Standardfejl: Dette repræsenterer et skøn over standardafvigelsen for fejl. Dette er præcisionen, som regressionskoefficienten måles.

Observationer: Dette er antallet af observationer, du har taget i en prøve.

ANOVA - Df: Grader af frihed

SS: Summen af firkanter.

MS: vi har to MS

Regression MS er Regression SS / Regression Df.
Rest MS er den gennemsnitlige kvadrerede fejl (Residual SS / Residual Df).

F: F test for nulhypotesen.

Betydning F: P-værdier forbundet med betydning

Koefficient: Koefficient giver dig et skøn over mindste kvadrater.

T-statistik: T-statistik for nulhypotese vs den alternative hypotese.

P-værdi: Dette er p-værdien til hypotesetesten.

Nedre 95% og Øvre 95%: Disse er den nedre grænse og den øvre grænse for konfidensintervallet

Restprodukter: Vi har 12 observationer baseret på dataene. 2 ^nd kolonne repræsenterer Forventede salg og 3 ^rd kolonne Residualer. Restprodukter er dybest set forskellen i forudsagt salg fra den faktiske.

Eksempel 2

Vælg den forudsagte salgs- og marketingkolonne

Gå til diagramgruppen under fanen Indsæt. Vælg punktdiagramikonet

Dette indsætter spredningsdiagrammet i excel. Se billedet nedenfor

Højreklik på et hvilket som helst punkt, og vælg derefter Tilføj trendlinje i Excel. Dette tilføjer en trendlinje til dit diagram.

Du kan formatere trendlinien ved at højreklikke hvor som helst på trendlinjen og derefter vælge format trendline.
Du kan foretage flere forbedringer af diagrammet. dvs. formatering af trendlinje, farve og skift titel osv
Du kan også vise formlen på grafen ved at kontrollere skærmformlen på diagrammet og vise R-kvadratværdien på diagrammet.

Nogle flere eksempler på lineær regressionsanalyse:

Forudsigelse af paraply solgt baseret på regnen skete i området.
Forudsigelse af AC solgt baseret på temperaturen om sommeren.
I løbet af eksamensæsonen steg salget af Stationary stort set eksamensguide-salget.
Forudsigelse af salg, når annoncering er udført på baggrund af høj TRP-serie, hvor en annonce udføres, popularitet af brandambassadør og fodfald på det sted, hvor en annonce offentliggøres.
Salg af et hus baseret på lokalitet, område og pris.

Eksempel 3

Antag, at vi har ni studerende med deres IQ-niveau og antallet, de scorede på test.

Studerende	Test score	IQ
Vædder	100	145
Shyam	97	140
Kul	93	130
Kappu	91	125
Raju	89	115
Vishal	86	110
Vivek	82	100
Vinay	78	95
Kumar	75	90

Trin 1: Find først ud af de afhængige og uafhængige variabler. Her er testscore den afhængige variabel, og IQ er den uafhængige variabel, da testscore varierer, når IQ bliver ændret.

Trin 2: Gå til fanen Data - Klik på dataanalyse - Vælg regression - klik på Ok.

Dette åbner regressionsvinduet for dig.

Trin 3. Input Test Score interval i Input Y Range Box og IQ i Input X Range Box. (Kontroller på etiketter, hvis du har overskrifter i dit dataområde. Vælg outputindstillinger, og kontroller derefter de ønskede rester. Klik på Ok.

Du får den opsummerede output vist i nedenstående billede.

Trin 4: Analysering af regression efter resuméoutput

Resumé output

Multiple R: Her er korrelationskoefficienten 0,99, hvilket er meget tæt på 1, hvilket betyder, at det lineære forhold er meget positivt.

R Square: R Square værdi er 0,983, hvilket betyder, at 98,3% af værdierne passer til modellen.

P-værdi: Her er P-værdi 1.86881E-07, hvilket er meget mindre end .1, hvilket betyder, at IQ har betydelige forudsigelige værdier.

Se diagrammet nedenfor.

Du kan se, at næsten alle punkter falder inline eller en nærliggende trendline.

Eksempel 4

Vi er nødt til at forudsige salg af AC baseret på salg og temperatur i en anden måned.

Måned	Midlertidig	Salg
Jan	25	38893
Feb	28	42254
Mar	31	42845
Apr	33	47917
Kan	37	51243
Jun	40	69588
Jul	38	56570
Aug	37	50000

Følg nedenstående trin for at få regressionsresultatet.

Trin 1: Find først ud af de afhængige og uafhængige variabler. Her er salg den afhængige variabel, og temperatur er en uafhængig variabel, da salget varierer, efterhånden som temp ændres.

Trin 2: Gå til fanen Data - Klik på dataanalyse - Vælg regression - klik på Ok.

Dette åbner regressionsvinduet for dig.

Trin 3. Input salg i Input Y Range Box og Temp i Input X Range Box. (Kontroller på etiketter, hvis du har overskrifter i dit dataområde. Vælg outputindstillinger, og kontroller derefter de ønskede rester. Klik på Ok.

Dette giver dig et resumé output som nedenfor.

Trin 4: Analyser resultatet.

Multiple R: Her er korrelationskoefficienten 0,877, hvilket er tæt på 1, hvilket betyder, at det lineære forhold er positivt.

R Square: R Square værdi er 0,770, hvilket betyder at 77% af værdier passer til modellen

P-værdi: Her er P-værdi 1.86881E-07, hvilket er meget mindre end .1, hvilket betyder, at IQ har betydelige forudsigelige værdier.

Eksempel 5

Lad os nu lave en regressionsanalyse for flere uafhængige variabler:

Du er nødt til at forudsige salget af en mobil, der vil starte næste år. Du har prisen og befolkningen i de lande, der påvirker salget af mobiltelefoner.

Mobil version	Salg	Antal	Befolkning
OS	63860	858	823
UK	61841	877	660
KZ	60876	873	631
CH	58188	726	842
HN	52728	864	573
AU	52388	680	809
NZ	51075	728	661
RU	49019	689	778

Følg nedenstående trin for at få regressionsresultatet.

Trin 1. Find først ud af de afhængige og uafhængige variabler. Her er salget afhængig af variabel og mængde og befolkning. Begge er uafhængige variabler, da salget varierer med mængden og befolkningen i landet.

Trin 2. Gå til fanen Data - Klik på Dataanalyse - Vælg regression - klik på Ok.

Dette åbner regressionsvinduet for dig.

Trin 3. Indtast salg i Input Y Range Box, og vælg mængde og population i Input X Range Box. (Kontroller på etiketter, hvis du har overskrifter i dit dataområde. Vælg outputindstillinger, og kontroller derefter de ønskede rester. Klik på Ok.

Kør nu regressionen ved hjælp af dataanalyse under fanen Data. Dette giver dig nedenstående resultat.

Resumé output

Multiple R: Her er korrelationskoefficienten 0,93, hvilket er meget tæt på 1, hvilket betyder, at det lineære forhold er meget positivt.

R Square: R Square værdi er 0,866, hvilket betyder, at 86,7% af værdier passer til modellen.

Betydning F: Betydning F er mindre end .1, hvilket betyder, at regressionsligningen har signifikant forudsigelig værdi.

P-værdi : Hvis du ser på P-værdi for mængde og befolkning, kan du se, at værdier er mindre end .1, hvilket betyder, at mængde og population har en betydelig forudsigelsesværdi. De færre P-værdier betyder, at en variabel har mere signifikante forudsigelige værdier.

Imidlertid har både mængde og population signifikant forudsigelig værdi, men hvis du ser på P-værdi for mængde og population, kan du se, at mængden har en mindre P-værdi i excel end befolkning. Dette betyder, at mængde har en mere signifikant forudsigelsesværdi end befolkning.

Ting at huske

Kontroller altid de afhængige og uafhængige variabler, når du vælger data.
Lineær regressionsanalyse overvejer forholdet mellem variablenes gennemsnit.
Denne model kun forholdet mellem de variabler, der er lineære
Nogle gange er det ikke bedst egnet til et virkeligt problem. For eksempel: (Alder og lønninger). Det meste af tiden stiger lønnen efterhånden som alder stiger. Efter pensionen stiger alder dog, men lønnen falder.