Hvad er R Squared (R2) i regression?
R-squared (R 2 ) er en vigtig statistisk mål, som er en regressionsmodel, der repræsenterer del af forskellen eller varians i statistiske termer for en afhængig variabel, som kan forklares ved en uafhængig variabel eller variabler. Kort sagt bestemmer det, hvor godt data passer til regressionsmodellen.
R kvadratformel
Til beregning af R i kvadrat skal du bestemme korrelationskoefficienten, og derefter skal du kvadratere resultatet.
R kvadratformel = r 2
Hvor r korrelationskoefficienten kan beregnes pr nedenfor:
r = n (∑xy) - ∑x ∑y / √ (n * (∑x 2 - (∑x) 2 )) * (n * (∑y 2 - (∑y) 2 ))
Hvor,
- r = Korrelationskoefficienten
- n = nummer i det givne datasæt
- x = første variabel i sammenhængen
- y = anden variabel
Forklaring
Hvis der er nogen sammenhæng eller korrelation, der kan være lineær eller ikke-lineær mellem disse to variabler, skal det angive, om der er en ændring i den uafhængige variabel i værdi, så vil den anden afhængige variabel sandsynligvis ændre sig i værdi, siger lineært eller ikke-lineært.
Tællerdelen af formlen udfører en test, om de bevæger sig sammen og fjerner deres individuelle bevægelser og relative styrke af dem begge, der bevæger sig sammen, og nævneren del af formlen skalerer tælleren ved at tage kvadratroden af produktet af forskellene i variablerne fra deres kvadratiske variabler. Og når du kvadrerer dette resultat, får vi R i kvadrat, hvilket ikke er andet end bestemmelseskoefficienten.
Eksempler
Eksempel nr. 1
Overvej følgende to variabler x og y, du skal beregne R Squared i Regression.

Løsning:
Ved hjælp af ovennævnte formel skal vi først beregne korrelationskoefficienten.

Vi har alle værdierne i ovenstående tabel med n = 4.
Lad os nu indtaste værdierne i formlen for at nå frem til figuren.

r = (4 * 26,046,25) - (265,18 * 326,89) / √ ((4 * 21,274,94) - (326,89) 2 ) * ((4 * 31,901,89) - (326,89) 2 )
r = 17,501,06 / 17,512,88
Korrelationskoefficienten vil være-

r = 0,99932480
Så beregningen vil være som følger,

r 2 = (0,99932480) 2
R kvadratformel i regression

r 2 = 0,998650052
Eksempel 2
Indien, et udviklingsland, ønsker at foretage en uafhængig analyse af, om ændringer i råoliepriserne har påvirket dets rupi-værdi. Følgende er historien om Brent-råolieprisen og Rupee-værdiansættelse begge mod dollars, der i gennemsnit gik frem i disse år pr. Nedenfor.

RBI, Indiens centralbank, har henvendt sig til dig for at give en præsentation om det samme på det næste møde. Find ud af, om bevægelserne i råolie påvirker bevægelserne i rupee pr. Dollar?
Løsning:
Ved hjælp af formlen for korrelationen ovenfor kan vi først beregne korrelationskoefficienten. Behandling af den gennemsnitlige råoliepris som en variabel, f.eks. X, og behandling af rupee pr. Dollar som en anden variabel som y.

Vi har alle værdierne i ovenstående tabel med n = 6.
Lad os nu indtaste værdierne i formlen for at nå frem til figuren.

r = (6 * 23592,83) - (356,70 * 398,59) / √ ((6 * 22829,36) - (356,70) 2 ) * ((6 * 26529,38) - (398,59) 2 )
r = -620,06 / 1,715,95
Korrelationskoefficienten vil være-
r = -0,3614
Så beregningen vil være som følger,

r 2 = (-0,3614) 2
R kvadratformel i regression

r 2 = 0,1306
Analyse: Det ser ud til, at der er en mindre sammenhæng mellem ændringer i råoliepriserne og ændringer i prisen på den indiske rupee. Når råolieprisen stiger, påvirker ændringerne i den indiske rupee også. Men da R i kvadrat kun er 13%, så forklarer ændringer i råolieprisen meget mindre om ændringer i den indiske rupee, og den indiske rupee er også genstand for ændringer i andre variabler, som der skal tages højde for.
Eksempel 3
XYZ laboratorium forsker i højde og vægt og er interesseret i at vide, om der er nogen form for sammenhæng mellem disse variabler. Efter at have samlet en prøve på 5000 mennesker for hver kategori og kom op med en gennemsnitlig vægt og gennemsnitshøjde i den pågældende gruppe.
Nedenfor er de detaljer, de har samlet.

Du skal beregne R Squared og konkludere, om denne model forklarer afvigelser i højden påvirker afvigelser i vægt.
Løsning:
Ved hjælp af formlen for korrelationen ovenfor kan vi først beregne korrelationskoefficienten. Behandling af højde som en variabel, siger x, og behandling af vægt som en anden variabel som y.

Vi har alle værdierne i ovenstående tabel med n = 6.
Lad os nu indtaste værdierne i formlen for at nå frem til figuren.

r = (7 * 74.058,67) - (1031 * 496,44) / √ ((7 * 153595 - (1031) 2 ) * ((7 * 35793,59) - (496,44) 2 )
r = 6.581,05 / 7.075,77
Korrelationskoefficienten vil være-
Korrelationskoefficient (r) = 0,9301
Så beregningen vil være som følger,

r 2 = 0,8651
Analyse: Korrelationen er positiv, og det ser ud til, at der er et vist forhold mellem højde og vægt. Når højden stiger, ser det ud til, at personens vægt øges. Mens R2 antyder, at 86% af ændringer i højden tilskrives vægtændringer, og 14% er uforklarlige.
Relevans og anvendelser
Relevansen af R kvadreret i regression er dens evne til at finde sandsynligheden for, at fremtidige begivenheder finder sted inden for de givne forudsagte resultater eller resultaterne. Hvis der føjes flere prøver til modellen, vil koefficienten vise sandsynligheden for eller sandsynligheden for, at et nyt punkt eller det nye datasæt falder på linjen. Selvom begge variabler har en stærk forbindelse, beviser beslutningen ikke årsagssammenhæng.
Nogle af de rum, hvor R kvadratisk mest bruges, er til sporing af gensidig fonds præstation, til sporing af risiko i hedgefonde for at bestemme, hvor godt aktier bevæger sig med markedet, hvor R2 vil antyde, hvor meget af aktiens bevægelser kan forklares af bevægelser på markedet.