Beregn avvik

Forfatter: Charles Brown
Opprettelsesdato: 8 Februar 2021
Oppdater Dato: 1 Juli 2024
Anonim
Standardavvik, avvik og varians beregnet. Statistikk. Sinus 2P
Video: Standardavvik, avvik og varians beregnet. Statistikk. Sinus 2P

Innhold

EN outlier eller outlier i statistikk er et datapunkt som skiller seg betydelig fra de andre datapunktene i et utvalg. Ofte peker avvikere på avvik eller feil i målingene til statistikere, hvorpå de kan fjerne outlier fra datasettet. Hvis de faktisk velger å fjerne avvikene fra datasettet, kan det gi betydelige endringer i konklusjonene fra studien. Det er derfor det er viktig å beregne og bestemme avvikere hvis du vil tolke statistiske data riktig.

Å trå

  1. Lær hvordan du oppdager mulige avvikere. Før vi kan bestemme om vi skal fjerne unormale verdier fra et bestemt datasett, må vi selvfølgelig først identifisere mulige avvik i datasettet. Generelt er outliers datapunktene som avviker betydelig fra trenden som danner de andre verdiene i settet - med andre ord de skyte ut av de andre verdiene. Det er vanligvis lett å gjenkjenne dette i tabeller og (spesielt) i grafer. Hvis datasettet er tegnet visuelt, vil outliers være "langt" fra de andre verdiene. For eksempel, hvis de fleste punktene i et datasett danner en rett linje, vil outliers ikke overholde denne linjen.
    • La oss ta en titt på et datasett som viser temperaturene på 12 forskjellige objekter i et rom. Hvis temperaturen på 11 av objektene svinger noen få grader, høyst rundt 21 ° C, mens en gjenstand, en ovn, har en temperatur på 150 ° C, kan du med et øyeblikk se at ovnen sannsynligvis er en outlier.
  2. Sorter alle datapunktene fra laveste til høyeste. Det første trinnet i å beregne avvikere er å finne medianverdien (eller middelverdien) til datasettet. Denne oppgaven blir mye lettere hvis verdiene i settet er i rekkefølge fra laveste til høyeste. Så før du fortsetter, sorterer du verdiene i datasettet ditt slik.
    • La oss fortsette med eksemplet ovenfor. Her er vårt datasett som viser temperaturene i grader Fahrenheit for forskjellige objekter i et rom: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Hvis vi sorterer verdiene i settet fra laveste til høyeste, blir dette vårt nye sett: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Beregn medianen til datasettet. Medianen til et datasett er datapunktet der halvparten av dataene er over det, og halvparten av dataene er under det - det er faktisk "sentrum" av datasettet. Hvis datasettet inneholder et ulikt antall poeng, er medianen lett å finne - medianen er poenget med så mange poeng over som nedenfor. Hvis det er et jevnt antall poeng, fordi det ikke er ett senter, må du ta gjennomsnittet av de to midtpunktene for å finne medianen. Ved beregning av outliers blir medianen vanligvis referert til av variabelen Q2 - fordi den ligger mellom Q1 og Q3, første og tredje kvartil. Vi vil bestemme disse variablene senere.
    • Ikke forveksle av datasett med et jevnt antall poeng - gjennomsnittet av de to midtpunktene er ofte et tall som ikke er i selve datasettet - dette er greit. Men hvis de to midtpunktene er de samme, vil gjennomsnittet selvfølgelig også være dette tallet - også dette er Greit.
    • I vårt eksempel har vi 12 poeng. De to midterste begrepene er henholdsvis punkt 6 og 7 - 70 og 71. Så medianen for datasettet vårt er gjennomsnittet av disse to punktene: ((70 + 71) / 2) =70,5.
  4. Beregn første kvartil. Dette punktet, som vi betegner med variabelen Q1, er datapunktet under hvilket 25 prosent (eller en fjerdedel) av observasjonene ligger. Med andre ord, dette er sentrum for alle punkter i datasettet ditt under medianen. Hvis det er et jevnt antall verdier under medianen, må du igjen ta gjennomsnittet av de to midtre verdiene for å finne Q1, slik du kanskje hadde gjort for å bestemme medianen selv.
    • I vårt eksempel er seks poeng over medianen og seks poeng under den. Så for å finne den første kvartilen må vi ta gjennomsnittet av de to midtpunktene i de seks nederste punktene. Punkt 3 og 4 av de seks nederste er begge 70, så gjennomsnittet er ((70 + 70) / 2) =70. Så verdien vår for Q1 er 70.
  5. Beregn tredje kvartil. Dette punktet, som vi betegner med variabelen Q3, er datapunktet over hvilket 25 prosent av dataene ligger. Å finne Q3 er praktisk talt det samme som å finne Q1, bortsett fra at vi ser på punktene i dette tilfellet ovenfor medianen.
    • Fortsetter vi med eksemplet ovenfor, ser vi at de to midtpunktene til de seks punktene over medianen er 71 og 72. Gjennomsnittet av disse to punktene er ((71 + 72) / 2) =71,5. Så vår verdi for 3. kvartal er 71,5.
  6. Finn interkvartilområdet. Nå som vi har bestemt Q1 og Q3, må vi beregne avstanden mellom disse to variablene. Du kan finne avstanden mellom Q1 og Q3 ved å trekke Q1 fra Q3. Verdien du får for interkvartilområdet er avgjørende for å bestemme grensene for ikke-avvikende punkter i datasettet ditt.
    • I vårt eksempel er verdiene for Q1 og Q3 henholdsvis 70 og 71,5. For å finne interkvartilområdet beregner vi Q3 - Q1: 71,5 - 70 =1,5.
    • Dette fungerer selv om Q1, Q3 eller begge tallene er negative. For eksempel, hvis verdien vår for Q1 var -70, ville interkvartilområdet være 71,5 - (-70) = 141,5, noe som er riktig.
  7. Finn "Indre grenser" for datasettet. Du kan gjenkjenne avvikere ved å bestemme om de faller innenfor et antall numeriske grenser; de såkalte "indre grenser" og "ytre grenser". Et punkt som faller utenfor datasettets indre grenser klassifiseres som ett mild outlier, og et punkt utenfor de ytre grensene er klassifisert som ett ekstrem outlier. For å finne de indre grensene til datasettet ditt må du først multiplisere interkvartilområdet med 1,5. Legg resultatet til Q3 og trekk det fra Q1. De to resultatene er de indre grensene for datasettet ditt.
    • I vårt eksempel er interkvartilområdet (71,5 - 70), eller 1,5. Multipliser dette med 1,5 for å få 2,25. Vi legger dette tallet til Q3 og trekker det fra Q1 for å finne de indre grensene som følger:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Så de indre grensene er det 67,75 og 73,75.
    • I datasettet vårt er bare ovntemperaturen - 300 grader Fahrenheit - utenfor dette området. Så dette kan være en mild outlier. Vi har imidlertid ennå ikke bestemt oss for om denne temperaturen er en ekstrem outlier, så la oss ikke trekke konklusjoner ennå.
  8. Finn de "ytre grensene" for datasettet. Du gjør dette på samme måte som med de indre grensene, med den eneste forskjellen at du multipliserer interkvartilavstanden med 3 i stedet for 1,5. Deretter legger du resultatet til Q3 og trekker fra Q1 for å finne de ytre grenseverdiene.
    • I vårt eksempel multipliserer vi interkvartilavstanden med 3 for å få (1,5 * 3) eller 4,5. Vi kan nå finne de ytre grensene på samme måte som de indre grensene:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Så de ytre grensene er 65,5 og 76.
    • Datapunkter som ligger utenfor de ytre grensene betraktes som ekstreme avvikere. I vårt eksempel er ovnens temperatur, 300 grader Fahrenheit, langt utenfor de ytre grensene. Ovnstemperaturen er altså sikkert en ekstrem outlier.
  9. Bruk en kvalitativ vurdering for å avgjøre om du skal "kaste ut" avvikerne. Med ovennevnte metode kan du bestemme om visse punkter er milde avvikere, ekstreme avvikere eller ingen avvikere i det hele tatt. Men gjør ingen feil - å anerkjenne et poeng som en outlier, gjør det til bare ett kandidat skal fjernes fra datasettet, og ikke umiddelbart et punkt som fjernes bli til. De grunnen til hvorfor en avviker skiller seg fra resten av punktene i settet, er avgjørende for å avgjøre om avvikeren skal fjernes. Vanligvis fjernes avvik forårsaket av en eller annen feil - en feil i målingene, i opptakene eller i den eksperimentelle utformingen. I kontrast blir vanligvis avvik som ikke er forårsaket av feil, og som avslører ny, uforutsagt informasjon eller trender ikke slettet.
    • Et annet kriterium å vurdere er om avvikerne påvirker gjennomsnittet av et datasett på en skjev eller villedende måte. Dette er spesielt viktig hvis du planlegger å trekke konklusjoner fra gjennomsnittet av datasettet.
    • La oss bedømme vårt eksempel. Siden høyest Det er usannsynlig at ovnen nådde en temperatur på 300 ° F på grunn av noen uforutsette naturkrefter, i vårt eksempel kan vi konkludere med nesten 100% sikkerhet at ovnen ved et uhell ble slått på og forårsaket en unormalt høy temperaturavlesning. I tillegg, hvis vi ikke fjerner avvikeren, kommer gjennomsnittet av datasettet vårt til (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, mens gjennomsnittet uten outlier kommer ut til (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Siden avvikeren var forårsaket av menneskelige feil, og fordi det er feil å si at den gjennomsnittlige romtemperaturen var nær 32 ° C, må vi velge å bruke vår avviker. fjerne.
  10. Forstå viktigheten av (noen ganger) å beholde avvikere. Mens noen avvikere bør fjernes fra et datasett fordi de er et resultat av feil, eller fordi de skjevner resultatene på en villedende måte, bør andre avvikere bevares. For eksempel, hvis en outlier er riktig oppnådd (og derfor ikke er resultatet av en feil) og / eller hvis outlieren gir en ny innsikt i fenomenet som skal måles, bør den ikke fjernes umiddelbart. Vitenskapelige eksperimenter er spesielt følsomme situasjoner når det gjelder å håndtere outliers - feilaktig fjerning av en outlier kan bety å kaste viktig informasjon om en ny trend eller oppdagelse.
    • Tenk deg for eksempel at vi designer et nytt medikament for å få fisk i et oppdrettsanlegg til å vokse seg større. La oss bruke vårt gamle datasett ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), med forskjellen at hvert punkt nå representerer massen til en fisk (i gram ) etter behandling med et annet eksperimentelt medikament fra fødselen. Med andre ord ga det første medikamentet en fisk en masse på 71 gram, den andre ga en annen en masse på 70 gram, og så videre. I denne situasjonen, 300 fortsatt en stor outlier, men vi bør ikke fjerne den nå. For hvis vi antar at outlier ikke er et resultat av en feil, representerer det en stor suksess i eksperimentet vårt. Legemidlet som produserte en 300 gram fisk fungerte bedre enn noe annet legemiddel, så dette er det mest viktig datapunkt i vårt sett, i stedet for minst viktig datapunkt.

Tips

  • Hvis du finner avvik, kan du prøve å forklare dem før du fjerner dem fra datasettet. de kan indikere målefeil eller avvik i fordelingen.

Nødvendigheter

  • Kalkulator