Normal fordeling i statistik - Definition, eksempel, fortolkning

Hvad er normalfordeling i statistikker?

Normalfordeling er en klokkeformet frekvensfordelingskurve, der hjælper med at beskrive alle de mulige værdier, som en tilfældig variabel kan tage inden for et givet interval, hvor det meste af fordelingsområdet er i midten, og få er i halerne, yderst. Denne fordeling har to nøgleparametre: middelværdien (µ) og standardafvigelsen (σ), som spiller nøglerolle i beregningen af ​​aktivafkast og i risikostyringsstrategien.

Sådan fortolkes normalfordeling

Ovenstående figur viser, at den statistiske normalfordeling er en klokkeformet kurve. Området af mulige resultater af denne fordeling er de samlede reelle tal, der ligger mellem -∞ og + ∞. Klokkekurvens haler strækker sig på begge sider af diagrammet (+/-) uden begrænsninger.

  • Cirka 68% af al observation falder inden for +/- en standardafvigelse (σ)
  • Cirka 95% af al observation falder inden for +/- to standardafvigelser (σ)
  • Cirka 99% af al observation falder inden for +/- tre standardafvigelser (σ)

Det har en skævhed på nul (symmetri af en distribution). Hvis fordelingen af ​​data er asymmetrisk, er fordelingen ujævn, hvis datasættet har skævhed større end nul eller positiv skævhed. Derefter er distributionens højre hale mere langvarig end den venstre, og for negativ skævhed (mindre end nul) vil venstre hale være længere end den højre hale.

Den har en kurtose på 3 (måler en fordelings peakedness), hvilket indikerer, at distributionen hverken er for topet eller for tyndt. Hvis kurtosen er mere end tre end fordelingen er mere toppet med federe haler, og hvis kurtosen er mindre end tre, så har den tynde haler, og spidspunktet er lavere end normalfordelingen.

Egenskaber

  • De repræsenterer en distributionsfamilie, hvor gennemsnit og afvigelse bestemmer fordelingen.
  • Gennemsnittet, medianen og tilstanden for denne fordeling er alle ens.
  • Halvdelen af ​​værdierne er til venstre for centrum og den anden halvdel til højre.
  • Den samlede værdi under standardkurven vil altid være en.
  • Mest sandsynligt er distribution i centrum, og færre værdier ligger i halen.

Transformation (Z)

Sandsynlighedsdensitetsfunktionen (PDF) for en tilfældig variabel (X) efter distribution er givet af:

hvor -∞ <x <∞; -∞ <µ0

Hvor,

  • F (x) = Normal sandsynlighedsfunktion
  • x = tilfældig variabel
  • µ = middel for fordeling
  • σ = Standardafvigelse for fordelingen
  • π = 3,14159
  • e = 2,71828

Transformationsformel

Hvor,

  • X = tilfældig variabel

Eksempler på normalfordeling i statistikker

Lad os diskutere følgende eksempler.

Eksempel nr. 1

Antag, at en virksomhed har 10000 ansatte og flere lønstrukturer i henhold til den jobrolle, som medarbejderen arbejder i. Lønnene fordeles generelt med befolkningsgennemsnittet på µ = $ 60.000, og befolkningens standardafvigelse σ = $ 15.000. Hvad er sandsynligheden for, at tilfældigt valgt medarbejder har en løn på mindre end $ 45.000 årligt.

Løsning

Som vist i ovenstående figur skal vi finde ud af området under den normale kurve fra 45 til venstre hale for at besvare dette spørgsmål. Vi skal også bruge Z-tabelværdien for at få det rigtige svar.

For det første er vi nødt til at konvertere det givne gennemsnit og standardafvigelse til en standardnormalfordeling med gennemsnit (µ) = 0 og standardafvigelse (σ) = 1 ved hjælp af transformationsformlen.

Efter konverteringen skal vi slå Z-tabellen op for at finde den tilsvarende værdi, hvilket giver os det rigtige svar.

Givet,

  • Gennemsnit (µ) = $ 60.000
  • Standardafvigelse (σ) = $ 15000
  • Tilfældig variabel (x) = $ 45000

Transformation (z) = (45000 - 60000/15000)

Transformation (z) = -1

Nu er værdien, der svarer til -1 i Z-tabellen, 0,1587, hvilket repræsenterer området under kurven fra 45 til vejen mod venstre. Det angav, at når vi tilfældigt vælger en medarbejder, er sandsynligheden for at tjene mindre end 45.000 $ om året 15,87%.

Eksempel 2

Hold nu det samme scenarie som ovenfor og find ud af sandsynligheden for, at tilfældigt valgt medarbejder tjener mere end $ 80.000 om året ved hjælp af normalfordelingen.

Løsning

Så i dette spørgsmål skal vi finde ud af det skraverede område fra 80 til højre hale ved hjælp af den samme formel.

Givet,

  • Gennemsnit (µ) = $ 60.000
  • Standardafvigelse (σ) = $ 15000
  • Tilfældig variabel (X) = $ 80.000

Transformation (z) = (80000 - 60000/15000)

Transformation (z) = 1,33

I henhold til Z-tabellen er den ækvivalente værdi på 1,33 0,9082 eller 90,82%, hvilket viser, at sandsynligheden for tilfældigt at vælge medarbejdere, der tjener mindre end $ 80.000 årligt, er 90,82%.

Men ifølge spørgsmålet er vi nødt til at bestemme sandsynligheden for, at tilfældige medarbejdere tjener mere end $ 80.000 om året, så vi skal trække værdi fra 100.

  • Tilfældig variabel (X) = 100% - 90,82%
  • Tilfældig variabel (X) = 9,18%

Så sandsynligheden for, at medarbejdere tjener mere end $ 80.000 om året, er 9,18%.

Anvendelser

  • Aktiemarkedets tekniske diagram er ofte en klokkekurve, der gør det muligt for analytikere og investorer at foretage statistiske slutninger om forventet afkast og risiko for aktier.
  • Det bruges i den virkelige verden, ligesom at bestemme den mest sandsynlige bedste tid, som det tager af pizza-virksomheder at levere pizza og mange flere rigtige applikationer.
  • Bruges til at sammenligne højder for en given befolkningssæt, hvor de fleste mennesker har en gennemsnitlig størrelse med meget få mennesker, der har over gennemsnittet eller under gennemsnittet.
  • De bruges til at bestemme de studerendes gennemsnitlige akademiske præstationer, hvilket hjælper med at sammenligne elevernes rang.

Konklusion

Normal distribution finder applikationer inden for datavidenskab og dataanalyse. Avancerede teknologier som kunstig intelligens og maskinindlæring brugt sammen med denne distribution kan give bedre datakvalitet, hvilket vil hjælpe enkeltpersoner og virksomheder med effektiv beslutningstagning.

Interessante artikler...