Regression (betydning, typer) - Hvad er regressionsanalyse?

Indholdsfortegnelse

Hvad er regression?

Regressionsanalyse er en statistikbaseret måling, der anvendes i finansiering, investering osv., Der sigter mod at oprette et forhold mellem en afhængig variabel og andre serier af uafhængige variabler, og hovedfokus er at bestemme styrken af ​​ovenstående forhold.

Forklaringer

  • For at forklare regressionsanalyse i en lægmandssæd, lad os antage, at et salgschef for en virksomhed prøver hårdt på at forudsige salget i den følgende måned. Der er mange faktorer involveret, der driver salg af produktet, startende fra vejret til konkurrentens nye strategi, festival og ændring i forbrugernes livsstil.
  • Dette er en metode til at tilpasse sig de forskellige faktorer, der påvirker salget, hvilket er dem, der har størst indflydelse. Det kan hjælpe med at besvare mange spørgsmål som hvad der er de vigtigste faktorer, hvilke faktorer der er mindre vigtige, hvad er forholdet mellem disse faktorer og vigtigst af alt, hvad der er sikkerheden ved disse faktorer.
  • Disse faktorer kaldes variabler. Den vigtigste faktor, som vi forsøger at forudsige, kaldes den afhængige variabel, og de andre faktorer, der har indflydelse på den afhængige variabel, kaldes de uafhængige variabler.

Formel

Enkel lineær regressionsanalyse i excel kan udtrykkes som nedenstående formel, og den måler forholdet mellem en afhængig variabel og en uafhængig variabel.

Y = a + bX + ϵ

Her:

  • Y - Afhængig variabel
  • X - Uafhængig (forklarende) variabel
  • a - Aflyt
  • b - Hældning
  • ϵ - Rest (fejl)

Hvordan fortolkes regressionsanalyse?

Dette kan fortolkes ved at antage et simpelt scenario. Her tager vi forholdet mellem priserne på antik samling til auktion og varigheden af ​​dens alder. Jo mere en antik bliver ældre, jo mere får den prisen. Forudsat at vi har indstillet data for de sidste 50 varer, der var blevet auktioneret, kan vi forudsige, hvad de fremtidige auktionspriser vil være baseret på varens alder. Ved hjælp af disse data kan vi opbygge en regressionsligning.

Regressionsformlen, der kan oprette et forhold mellem alder og pris, er som følger:

y = β0 + β1 x + fejl
  • Her er den afhængige faktor Y. Y repræsenterer prisen for hver vare, der skal auktioneres, mens den uafhængige faktor er X, der bestemmer alderen.
  • Parametrene β0 og β1 er parametre, der ikke er kendt og vil blive estimeret af ligningen.
  • β0 er en konstant, der bruges til at definere den lineære trendlinie, der aflytter Y-aksen.
  • β1 er en konstant, der demonstrerer størrelsen af ​​ændring i værdien af ​​den afhængige variabel som en relateret funktion af den ændring, der er underforstået med de uafhængige variabler.
  • Dette kaldes grundlæggende ligningens hældning. Når skråningen er en liner, betyder det, at der er et forholdsmæssigt forhold mellem alder og pris, og hvor skråningen er omvendt, betyder det, at forholdet er indirekte proportionalt.
  • Den fejl kan defineres som støj eller variation i målvariablen og er tilfældig art.

Virkelige eksempler på regressionsanalyse

Lad os antage, at vi er nødt til at etablere et forhold mellem det salg, der er sket, og det beløb, der bruges på reklame relateret til et produkt.

Vi kan generelt se et positivt forhold mellem salgsmængden og det beløb, der bruges på reklame. Ved at alliere enkel lineær regressionsligning har vi:

Y = a + bX

Antag, at vi får værdien som

Y = 500 + 30X

Resultatfortolkning:

Den forudsagte hældning på 30 hjælper os med at drage en konklusion, at det gennemsnitlige salg stiger $ 30 pr. År, når udgifterne til reklame stiger.

Typer af regressionsanalyse

# 1 - Lineær

Dette kan udtrykkes som nedenstående formel, og det måler forholdet mellem en afhængig variabel og en uafhængig variabel.

# 2 - Polynom

I denne metode bruges analysen til at måle forholdet mellem enkeltafhængige faktorer og flere uafhængige variabler.

# 3 - Logistisk

Her er den afhængige faktor eller variabel binær. De uafhængige variabler kan være kontinuerlige eller binære. I multinomial logistisk regression har vi råd til at have mere end to kategorier, mens vi vælger vores uafhængige variabel.

# 4 - Kvantil

Dette er et additivt koncept for lineær regression og bruges primært, når outliers og skævhed er til stede i dataene.

# 5 - Elastisk net

Dette er nyttigt, når man håndterer meget højt korrelerede uafhængige variabler.

# 6 - Regression af hovedkomponenter (PCR)

Dette er en teknik, der kan anvendes, når der er for mange uafhængige variabler eller multikollinearitet findes i dataene

# 7 - Delvis mindste firkanter (PLS)

Det er en modsat metode til hovedkomponenten, hvor vi har uafhængige variabler, der er stærkt korrelerede. Det gælder også, når der er mange uafhængige variabler.

# 8 - Supportvektor

Dette kan give en løsning på lineære og ikke-lineære modeller. Det gør brug af ikke-lineære kernefunktioner til at finde den optimale løsning til ikke-lineære modeller.

# 9 - Ordinær

Det gælder for forudsigelse af rangerede værdier. Dybest set er det velegnet, når den afhængige variabel er ordinær

# 10 - Poisson

Dette gælder, når den afhængige variabel har tælledata.

# 11 - Negativ binomial

Det er også anvendeligt at administrere tælledata kun, at negativ binomial regression ikke antager en fordeling af tællingen, der har varians lig med dets gennemsnit, mens Poisson-regression antager variansen lig med dens gennemsnit.

# 12 - Quasi Poisson

Det er en erstatning for negativ binomial regression. Det gælder også for spredte tælledata. Variansen af ​​en kvasi-Poisson-model er en lineær funktion af middelværdien, mens variansen af ​​en negativ binomial model er en kvadratisk funktion af middelværdien.

# 13 - Cox

Det kommer mere i brug til analyse af data fra tid til begivenhed.

Forskellen mellem regression og korrelation

  • Regression etablerer forholdet mellem en uafhængig varians og en afhængig variabel, hvor begge variablerne er forskellige, mens korrelation bestemmer sammenhængen eller afhængigheden af ​​to variabler, hvor der ikke er nogen forskel mellem begge variablerne.
  • Hovedformålet med regression er at skabe en linje med den bedste pasform, og estimering af en variabel foretages på basis af andre, mens der i korrelation demonstreres det lineære forhold mellem to variabler.
  • I dette estimerer vi størrelsen af ​​en bestemt ændring i den genkendte variabel (X) på den estimerede variabel (Y), mens koefficienten i korrelation bruges til at måle, i hvor høj grad de to variabler bevæger sig sammen.
  • Det er en proces til at estimere størrelsen af ​​tilfældige uafhængige variabler baseret på størrelsen af ​​en statisk afhængig variabel, mens korrelation hjælper os med at bestemme en bestemt værdi for at udtrykke den indbyrdes afhængighed mellem begge variablerne.

Konklusion

  • Regressionsanalyse bruger primært data til at etablere et forhold mellem to eller flere variabler. Her antages det, at relationer, der eksisterer i fortiden, også vil reflektere i nutiden eller fremtiden. Få betragter dette som et tidsforsinkelse mellem fortid og nutid / fremtid.
  • Det er dog en meget anvendt forudsigelses- og estimeringsteknik. Selvom det involverer matematik, som mange brugere kan finde hård, er teknikken forholdsvis let at bruge, især når en model er tilgængelig.

Interessante artikler...