Hvad er en lineær regression?
Lineær regression er grundlæggende en statistisk modelleringsteknik, der bruges til at vise forholdet mellem en afhængig variabel og en eller flere uafhængige variabler. Det er en af de mest almindelige typer forudsigelig analyse. Denne type distribution dannes i en linje, derfor kaldes dette lineær regression. I denne artikel vil vi tage eksemplerne på lineær regressionsanalyse i Excel.
For at udføre lineær regressionsanalyse først skal vi tilføje excel-tilføjelsesprogrammer ved at følge trinene.
Klik på Filer - Indstillinger (Dette åbner Excel-indstillinger, dukker op for dig).

Klik på tilføjelsesprogrammer - Vælg Excel-tilføjelsesprogrammer fra Administrer drop down i Excel, og klik derefter på Gå.

Dette åbner tilføjelsesprogrammer Pop op. Vælg Analysis ToolPak, og klik derefter på Ok.

Tilføjelse til dataanalyse vises under fanen Indsæt.

Lad os forstå af nedenstående eksempler på lineær regressionsanalyse i excel.
Eksempler på lineær regressionsanalyse
Eksempel nr. 1
Antag, at vi har månedligt salg og brugt på marketing for sidste år, og nu er vi nødt til at forudsige fremtidigt salg på baggrund af sidste års salg og markedsføring brugt.
Måned | Annoncering | Salg |
Jan | 40937 | 502729 |
Feb | 42376 | 507553 |
Mar | 43355 | 516885 |
Apr | 44126 | 528347 |
Kan | 45060 | 537298 |
Jun | 49546 | 544066 |
Jul | 56105 | 553664 |
Aug | 59322 | 563201 |
Sep | 59877 | 568657 |
Okt | 60481 | 569384 |
Nov | 62356 | 573764 |
Dec | 63246 | 582746 |
Klik på Dataanalyse under Data-fanen, og dette åbner dataanalysepop for dig.

Vælg nu Regression fra listen, og klik på Ok.

Pop-up med regression åbnes.

Vælg salgsområde $ C $ 1: $ C $ 13 i boksen Y-akse, da dette er den afhængige variabel, og $ B $ 1: $ B $ 14 i X-aksen, da brugt annonce er den uafhængige variabel.

Marker i feltet Etiketter, hvis du har valgt overskrifter i data ellers, det giver dig fejlen.

Vælg Output-rækkevidde, hvis du vil hente værdien på det specifikke interval på regnearket, ellers vælg New Worksheet Ply: og dette tilføjer et nyt regneark og giver dig resultatet.

Marker derefter afkrydsningsfeltet Restprodukter og klik på Ok.

Dette tilføjer regneark og giver dig følgende resultat.

Lad os forstå output.
Resumé output
Multiple R: Dette repræsenterer korrelationskoefficienten. Værdien 1 viser et positivt forhold, og værdi 0 viser ikke noget forhold.
R-firkant: R-firkant repræsenterer bestemmelseskoefficienten. Dette fortæller dig procentdelen af point falder på regressionslinjen. 0,49 betyder, at 49% af værdierne passer til modellen
Justeret R-firkant : Dette justeres R-firkant, hvilket kræver, når du har mere end en X-variabel.
Standardfejl: Dette repræsenterer et skøn over standardafvigelsen for fejl. Dette er præcisionen, som regressionskoefficienten måles.
Observationer: Dette er antallet af observationer, du har taget i en prøve.
ANOVA - Df: Grader af frihed
SS: Summen af firkanter.
MS: vi har to MS
- Regression MS er Regression SS / Regression Df.
- Rest MS er den gennemsnitlige kvadrerede fejl (Residual SS / Residual Df).
F: F test for nulhypotesen.
Betydning F: P-værdier forbundet med betydning
Koefficient: Koefficient giver dig et skøn over mindste kvadrater.
T-statistik: T-statistik for nulhypotese vs den alternative hypotese.
P-værdi: Dette er p-værdien til hypotesetesten.
Nedre 95% og Øvre 95%: Disse er den nedre grænse og den øvre grænse for konfidensintervallet
Restprodukter: Vi har 12 observationer baseret på dataene. 2 nd kolonne repræsenterer Forventede salg og 3 rd kolonne Residualer. Restprodukter er dybest set forskellen i forudsagt salg fra den faktiske.
Eksempel 2
Vælg den forudsagte salgs- og marketingkolonne

Gå til diagramgruppen under fanen Indsæt. Vælg punktdiagramikonet

Dette indsætter spredningsdiagrammet i excel. Se billedet nedenfor

Højreklik på et hvilket som helst punkt, og vælg derefter Tilføj trendlinje i Excel. Dette tilføjer en trendlinje til dit diagram.


- Du kan formatere trendlinien ved at højreklikke hvor som helst på trendlinjen og derefter vælge format trendline.
- Du kan foretage flere forbedringer af diagrammet. dvs. formatering af trendlinje, farve og skift titel osv
- Du kan også vise formlen på grafen ved at kontrollere skærmformlen på diagrammet og vise R-kvadratværdien på diagrammet.
Nogle flere eksempler på lineær regressionsanalyse:
- Forudsigelse af paraply solgt baseret på regnen skete i området.
- Forudsigelse af AC solgt baseret på temperaturen om sommeren.
- I løbet af eksamensæsonen steg salget af Stationary stort set eksamensguide-salget.
- Forudsigelse af salg, når annoncering er udført på baggrund af høj TRP-serie, hvor en annonce udføres, popularitet af brandambassadør og fodfald på det sted, hvor en annonce offentliggøres.
- Salg af et hus baseret på lokalitet, område og pris.
Eksempel 3
Antag, at vi har ni studerende med deres IQ-niveau og antallet, de scorede på test.
Studerende | Test score | IQ |
Vædder | 100 | 145 |
Shyam | 97 | 140 |
Kul | 93 | 130 |
Kappu | 91 | 125 |
Raju | 89 | 115 |
Vishal | 86 | 110 |
Vivek | 82 | 100 |
Vinay | 78 | 95 |
Kumar | 75 | 90 |
Trin 1: Find først ud af de afhængige og uafhængige variabler. Her er testscore den afhængige variabel, og IQ er den uafhængige variabel, da testscore varierer, når IQ bliver ændret.
Trin 2: Gå til fanen Data - Klik på dataanalyse - Vælg regression - klik på Ok.

Dette åbner regressionsvinduet for dig.

Trin 3. Input Test Score interval i Input Y Range Box og IQ i Input X Range Box. (Kontroller på etiketter, hvis du har overskrifter i dit dataområde. Vælg outputindstillinger, og kontroller derefter de ønskede rester. Klik på Ok.

Du får den opsummerede output vist i nedenstående billede.

Trin 4: Analysering af regression efter resuméoutput
Resumé output
Multiple R: Her er korrelationskoefficienten 0,99, hvilket er meget tæt på 1, hvilket betyder, at det lineære forhold er meget positivt.
R Square: R Square værdi er 0,983, hvilket betyder, at 98,3% af værdierne passer til modellen.
P-værdi: Her er P-værdi 1.86881E-07, hvilket er meget mindre end .1, hvilket betyder, at IQ har betydelige forudsigelige værdier.
Se diagrammet nedenfor.

Du kan se, at næsten alle punkter falder inline eller en nærliggende trendline.
Eksempel 4
Vi er nødt til at forudsige salg af AC baseret på salg og temperatur i en anden måned.
Måned | Midlertidig | Salg |
Jan | 25 | 38893 |
Feb | 28 | 42254 |
Mar | 31 | 42845 |
Apr | 33 | 47917 |
Kan | 37 | 51243 |
Jun | 40 | 69588 |
Jul | 38 | 56570 |
Aug | 37 | 50000 |
Følg nedenstående trin for at få regressionsresultatet.
Trin 1: Find først ud af de afhængige og uafhængige variabler. Her er salg den afhængige variabel, og temperatur er en uafhængig variabel, da salget varierer, efterhånden som temp ændres.
Trin 2: Gå til fanen Data - Klik på dataanalyse - Vælg regression - klik på Ok.

Dette åbner regressionsvinduet for dig.

Trin 3. Input salg i Input Y Range Box og Temp i Input X Range Box. (Kontroller på etiketter, hvis du har overskrifter i dit dataområde. Vælg outputindstillinger, og kontroller derefter de ønskede rester. Klik på Ok.

Dette giver dig et resumé output som nedenfor.

Trin 4: Analyser resultatet.
Multiple R: Her er korrelationskoefficienten 0,877, hvilket er tæt på 1, hvilket betyder, at det lineære forhold er positivt.
R Square: R Square værdi er 0,770, hvilket betyder at 77% af værdier passer til modellen
P-værdi: Her er P-værdi 1.86881E-07, hvilket er meget mindre end .1, hvilket betyder, at IQ har betydelige forudsigelige værdier.
Eksempel 5
Lad os nu lave en regressionsanalyse for flere uafhængige variabler:
Du er nødt til at forudsige salget af en mobil, der vil starte næste år. Du har prisen og befolkningen i de lande, der påvirker salget af mobiltelefoner.
Mobil version | Salg | Antal | Befolkning |
OS | 63860 | 858 | 823 |
UK | 61841 | 877 | 660 |
KZ | 60876 | 873 | 631 |
CH | 58188 | 726 | 842 |
HN | 52728 | 864 | 573 |
AU | 52388 | 680 | 809 |
NZ | 51075 | 728 | 661 |
RU | 49019 | 689 | 778 |
Følg nedenstående trin for at få regressionsresultatet.
Trin 1. Find først ud af de afhængige og uafhængige variabler. Her er salget afhængig af variabel og mængde og befolkning. Begge er uafhængige variabler, da salget varierer med mængden og befolkningen i landet.
Trin 2. Gå til fanen Data - Klik på Dataanalyse - Vælg regression - klik på Ok.

Dette åbner regressionsvinduet for dig.

Trin 3. Indtast salg i Input Y Range Box, og vælg mængde og population i Input X Range Box. (Kontroller på etiketter, hvis du har overskrifter i dit dataområde. Vælg outputindstillinger, og kontroller derefter de ønskede rester. Klik på Ok.

Kør nu regressionen ved hjælp af dataanalyse under fanen Data. Dette giver dig nedenstående resultat.
Resumé output
Multiple R: Her er korrelationskoefficienten 0,93, hvilket er meget tæt på 1, hvilket betyder, at det lineære forhold er meget positivt.
R Square: R Square værdi er 0,866, hvilket betyder, at 86,7% af værdier passer til modellen.
Betydning F: Betydning F er mindre end .1, hvilket betyder, at regressionsligningen har signifikant forudsigelig værdi.
P-værdi : Hvis du ser på P-værdi for mængde og befolkning, kan du se, at værdier er mindre end .1, hvilket betyder, at mængde og population har en betydelig forudsigelsesværdi. De færre P-værdier betyder, at en variabel har mere signifikante forudsigelige værdier.
Imidlertid har både mængde og population signifikant forudsigelig værdi, men hvis du ser på P-værdi for mængde og population, kan du se, at mængden har en mindre P-værdi i excel end befolkning. Dette betyder, at mængde har en mere signifikant forudsigelsesværdi end befolkning.
Ting at huske
- Kontroller altid de afhængige og uafhængige variabler, når du vælger data.
- Lineær regressionsanalyse overvejer forholdet mellem variablenes gennemsnit.
- Denne model kun forholdet mellem de variabler, der er lineære
- Nogle gange er det ikke bedst egnet til et virkeligt problem. For eksempel: (Alder og lønninger). Det meste af tiden stiger lønnen efterhånden som alder stiger. Efter pensionen stiger alder dog, men lønnen falder.