Outlier-formlen giver et grafisk værktøj til at beregne de data, der er placeret uden for det givne fordelingssæt, som kan være indre eller ydre side afhængigt af variablerne.
Hvad er Outlier Formula?
En outlier er datapunktet for den givne prøve eller den givne observation eller i en fordeling, der skal ligge uden for det samlede mønster. En almindeligt anvendt regel, der siger, at et datapunkt vil blive betragtet som en outlier, hvis det har mere end 1,5 IQR under det første kvartil eller over det tredje kvartil.
Sagt forskelligt skal lave outliers ligge under Q1-1.5 IQR og high outliers skal ligge Q3 + 1.5IQR
Man skal beregne median, kvartiler, inklusive IQR, Q1 og Q3.
Outlier formlen er repræsenteret som følger,
Formlen for Q1 = ¼ (n + 1) th sigt Formlen for Q3 = ¾ (n + 1) th sigt Formlen for Q2 = Q3 - Q1

Trin for trin beregning af Outlier
Nedenstående trin skal følges for at beregne Outlier.
- Trin 1: Beregn først kvartilerne, dvs. Q1, Q2 og interkvartilen
- Trin 2: Beregn nu værdien Q2 * 1.5
- Trin 3: Træk nu Q1-værdi fra den værdi, der blev beregnet i trin2
- Trin 4: Her tilføjes Q3 med værdien beregnet i trin2
- Trin 5: Opret området for de værdier, der er beregnet i trin 3 og trin 4
- Trin 6: Arranger dataene i stigende rækkefølge
- Trin 7: Kontroller, om der er nogen værdier, der ligger under eller højere end det interval, der blev oprettet i trin 5 .
Eksempel
Overvej et datasæt med følgende tal: 10, 2, 4, 7, 8, 5, 11, 3, 12. Du skal beregne alle outliers.
Løsning:
Først skal vi arrangere data i stigende rækkefølge for at finde medianen, som vil være Q2 for os.
2, 3, 4, 5, 7, 8, 10, 11, 12

Nu da antallet af observationer er ulige, hvilket er 9, ville medianen ligge på en 5 th position, hvilket er 7, og det samme vil være Q2 til dette eksempel.
Derfor er beregningen af Q1 som følger -
Q1 = ¼ (9 + 1)
= ¼ (10)
Q1 bliver -

Q1 = 2,5 sigt
Det betyder, at Q1 er gennemsnittet af 2 nd og 3 rd position af observationerne, som er 3 & 4 her, og et gennemsnit på de samme er (3 + 4) / 2 = 3,5
Derfor er beregningen af Q3 som følger -

Q3 = ¾ (9 + 1)
= ¾ (10)
Q3 bliver -

Q3 = 7,5 termin
Det betyder, at Q3 er gennemsnittet af 7 th og 8 th position af observationerne, hvilket er 10 & 11 her, og et gennemsnit af de samme (10 + 11) / 2 = 10,5
Nu skal lave outliers ligge under Q1-1.5IQR, og high outliers skal ligge Q3 + 1.5IQR
Så værdierne er 3,5 - (1,5 * 7) = -7, og højere område er 10,5 + (1,5 * 7) = 110,25.
Da der ikke er nogen observationer, der ligger over eller under 110,25 og -7, har vi ikke nogen afvigelser i denne prøve.
Eksempel på Outlier Formula i Excel (med Excel-skabelon)
Kreative coaching klasser overvejer at belønne studerende, der er i top 25%. De ønsker dog at undgå eventuelle outliers. Dataene er for de 25 studerende. Brug Outlier-ligningen til at afgøre, om der er en outlier?
Løsning:
Nedenfor gives data til beregning af outlier.

Antallet af observationer her er 25, og vores første trin ville være at konvertere ovenstående rådata i stigende rækkefølge.
Median vil være -

Medianværdien = ½ (n + 1)
= ½ = ½ (26)
= 13 th sigt
Q2 eller median er 68,00
Hvilket er 50% af befolkningen.
Q1 bliver -

Q1 = ¼ (n + 1) term
= ¼ (25 + 1)
= ¼ (26)
= 6,5 th sigt, hvilket svarer til 7 th sigt
Q1 er 56,00, hvilket er den nederste 25%
Q3 bliver -

Endelig er Q3 = ¾ (n + 1) term
= ¾ (26)
= 19,50 periode
Her den gennemsnitlige behov, der skal træffes, som er af 19 th og 20 th vilkår, som er 77 og 77 og gennemsnittet af samme er (77 + 77) / 2 = 77,00
Q3 er 77, hvilket er de øverste 25%
Lav rækkevidde
Nu skal lave outliers ligge under Q1-1.5IQR, og high outliers skal ligge Q3 + 1.5IQR

Høj rækkevidde -

Så værdierne er 56 - (1,5 * 68) = -46 og højere område er 77 + (1,5 * 68) = 179.
Der er ingen outliers.
Relevans og anvendelser
Formålet med outliers er meget vigtigt at vide, da der kunne være data, der ville blive skæv af en sådan værdi. Tag et eksempel på observationer 2, 4, 6, 101, og hvis nogen nu tager et gennemsnit af disse værdier, vil det være 28,25, men 75% af observationerne ligger under 7, og derfor ville man være en forkert beslutning vedrørende observationer af denne prøve.
Det kan bemærkes her, at 101 tydeligt ser ud til at skitsere, og hvis dette fjernes, ville gennemsnittet være 4, hvilket siger om værdier eller observationer, at de ligger inden for området 4. Derfor er det meget vigtigt at udføre dette beregning for at undgå misbrug af førende information om dataene. Disse bruges i vid udstrækning af statistikere overalt i verden, når de foretager nogen forskning.