Hvordan beregne utslipp

Forfatter: Janice Evans
Opprettelsesdato: 23 Juli 2021
Oppdater Dato: 1 Juli 2024
Anonim
Spredningsprognose fra utslipp i Japan
Video: Spredningsprognose fra utslipp i Japan

Innhold

I statistikk er outliers verdier som skiller seg sterkt fra andre verdier i det innsamlede datasettet. En outlier kan indikere avvik i datafordelingen eller målefeil, så ekstremer blir ofte ekskludert fra datasettet. Ved å eliminere avvik fra datasettet kan du komme til uventede eller mer nøyaktige konklusjoner. Derfor er det nødvendig å kunne beregne og estimere ekstremer for å sikre en god forståelse av statistikken.

Trinn

  1. 1 Lær deg å kjenne igjen potensielle ekstremer. Potensielle ekstremer bør identifiseres før utestengere fra datasettet utelukkes. Outliers er verdier som er veldig forskjellige fra de fleste verdiene i datasettet; med andre ord, outliers er utenfor trenden med de fleste verdier. Dette er lett å finne i verditabeller eller (spesielt) i grafer. Hvis verdiene i datasettet er avsatt, vil ekstremene ligge langt fra de fleste andre verdiene. Hvis for eksempel de fleste verdiene faller på en rett linje, så ligger ytterpunktene på begge sider av en så rett linje.
    • Vurder for eksempel et datasett som representerer temperaturen til 12 forskjellige objekter i et rom. Hvis 11 objekter er omtrent 70 grader, men det tolvte objektet (muligens en ovn) er 300 grader, kan en rask titt på verdiene indikere at ovnen er en sannsynlig utblåsning.
  2. 2 Sorter dataene i stigende rekkefølge. Det første trinnet i å bestemme outliers er å beregne medianen til datasettet. Denne oppgaven er sterkt forenklet hvis verdiene i datasettet er ordnet i stigende rekkefølge (fra minste til største).
    • Fortsett med eksemplet ovenfor, og vurder følgende datasett som representerer temperaturen til flere objekter: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Dette settet bør bestilles som følger: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3 Beregn medianen til datasettet. Medianen til et datasett er verdien i midten av datasettet. Hvis datasettet inneholder et oddetall av verdier, er medianen verdien før og etter som det er samme antall verdier i datasettet. Men hvis datasettet inneholder et likt antall verdier, må du finne det aritmetiske gjennomsnittet av de to midlene. Vær oppmerksom på at ved beregning av ekstremer blir medianen vanligvis referert til som Q2, da den ligger mellom Q1 og Q3, de nedre og øvre kvartilene, som vi vil definere senere.
    • Ikke vær redd for å jobbe med datasett som har et jevnt antall verdier- det aritmetiske gjennomsnittet av de to midlene vil være et tall som ikke er i datasettet; dette er normalt. Men hvis de to middelverdiene er det samme tallet, så er det aritmetiske gjennomsnittet lik dette tallet; dette er også i tingenes rekkefølge.
    • I eksemplet ovenfor er de midterste 2 verdiene 70 og 71, så medianen er ((70 + 71) / 2) = 70,5.
  4. 4 Beregn den nederste kvartilen. Denne verdien, referert til som Q1, ligger under 25% av datasettverdiene. Med andre ord er det halvparten av verdiene opp til medianen. Hvis det er et jevnt antall verdier fra datasettet før medianen, må du finne det aritmetiske gjennomsnittet av de to midlene for å beregne Q1 (dette ligner på å beregne medianen).
    • I vårt eksempel er 6 verdier plassert etter medianen og 6 verdier- før den. Dette betyr at for å beregne den nedre kvartilen må vi finne det aritmetiske gjennomsnittet av de to midlene til de seks verdiene som ligger foran medianen. Her er gjennomsnittsverdiene 70 og 70. Dermed er Q1 = ((70 + 70) / 2) = 70.
  5. 5 Beregn øvre kvartil. Denne verdien, referert til som Q3, ligger over 25% av datasettverdiene. Prosessen for å beregne Q3 ligner på prosessen for å beregne Q1, men her vurderes verdiene etter medianen.
    • I eksemplet ovenfor er de to gjennomsnittene av de seks etter medianen 71 og 72. Så Q3 = ((71 + 72) / 2) = 71,5.
  6. 6 Beregn interkvartilområdet. Etter å ha beregnet Q1 og Q3, er det nødvendig å finne avstanden mellom disse verdiene. For å gjøre dette, trekker du Q1 fra Q3. Verdien av interkvartilområdet er ekstremt viktig for å bestemme grensene for verdier som ikke er ekstreme.
    • I vårt eksempel er Q1 = 70 og Q3 = 71,5. Interkvartilområdet er 71,5 - 70 = 1,5.
    • Vær oppmerksom på at dette også gjelder negative Q1 og Q3 verdier. For eksempel, hvis Q1 = -70, er interkvartilområdet 71,5 -(-70) = 141,5.
  7. 7 Finn de "indre grensene" for verdiene i datasettet. Outliers bestemmes ved å analysere verdiene- om de faller innenfor de såkalte "indre grenser" og "ytre grenser" eller ikke. En verdi utenfor "indre grenser" er klassifisert som en "mindre utfall", mens en verdi utenfor "ytre grenser" er klassifisert som en "betydelig avvik". For å finne de indre grensene må du multiplisere interkvartilområdet med 1,5; resultatet må legges til Q3 og trekkes fra Q1. De to tallene som er funnet, er de indre grensene for datasettet.
    • I vårt eksempel er interkvartilområdet (71,5 - 70) = 1,5. Videre: 1,5 * 1,5 = 2,25. Dette tallet må legges til Q3 og trekkes fra Q1 for å finne de indre grensene:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Dermed er de indre grensene 67,75 og 73,75.
    • I vårt eksempel ligger bare ovntemperaturen - 300 grader - utenfor disse grensene og kan betraktes som en ubetydelig utslipp. Men ikke dra til konklusjoner - vi må avgjøre om denne temperaturen er en betydelig outlier.
  8. 8 Finn de "ytre grensene" for datasettet. Dette gjøres på samme måte som for indre grenser, bortsett fra at interkvartilområdet blir multiplisert med 3 i stedet for 1,5. Resultatet må legges til Q3 og trekkes fra Q1. De to tallene som er funnet er de ytre grensene for datasettet.
    • I vårt eksempel multipliserer du interkvartilområdet med 3: 1,5 * 3 = 4,5. Beregn de ytre grensene:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Så de ytre grensene er 65,5 og 76.
    • Eventuelle verdier som faller utenfor de ytre grensene regnes som betydelige utslipp. I vårt eksempel anses en ovnstemperatur på 300 grader som en betydelig utblåsning.
  9. 9 Bruk et kvalitativt estimat for å avgjøre om avvik skal utelukkes fra datasettet. Metoden beskrevet ovenfor lar deg avgjøre om noen verdier er ekstreme (mindre eller signifikante). Gjør imidlertid ingen feil - en verdi som er klassifisert som en outlier er bare en "kandidat" for et unntak, noe som betyr at du ikke trenger å ekskludere den. Årsaken til outlier er hovedfaktoren som påvirker beslutningen om å ekskludere outlier. Som regel er unntak som oppstår på grunn av feil (i målinger, opptak osv.) Ekskludert. På den annen side blir ekstremer som ikke er forbundet med feil, men med ny informasjon eller trend vanligvis igjen i datasettet.
    • Det er like viktig å vurdere effekten av utfall på medianen til datasettet (om de forvrider det eller ikke). Dette er spesielt viktig når du trekker konklusjoner fra medianen til et datasett.
    • I vårt eksempel er det ekstremt usannsynlig at ovnen vil varme opp til en temperatur på 300 grader (med mindre vi tar hensyn til naturlige avvik). Derfor kan det (med høy grad av sikkerhet) konkluderes med at en slik temperatur er en målefeil som må utelukkes fra datasettet. Hvis du ikke utelukker outlier, vil medianen til datasettet være (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 grader, men hvis du ekskluderer outlier, vil medianen være (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 grader.
      • Outliers er vanligvis et resultat av menneskelige feil, så outliers må utelukkes fra datasett.
  10. 10 Forstå viktigheten av (noen ganger) ekstreme verdier i datasettet. Noen ekstremer bør utelukkes fra datasettet ettersom de skyldes feil og tekniske problemer. andre ekstremer bør stå i datasettet. Hvis for eksempel en outlier ikke er et resultat av en feil og / eller gir en ny forståelse av fenomenet som testes, bør det stå i datasettet. Vitenskapelige eksperimenter er spesielt følsomme for outliers - ved feilaktig å eliminere en outlier kan du gå glipp av en ny trend eller oppdagelse.
    • For eksempel utvikler vi et nytt stoff for å øke størrelsen på fisk i fiskeri. Vi vil bruke det gamle datasettet ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), men denne gangen representerer hver verdi fiskens vekt (i gram) eksperimentelt stoff etter inntak. Med andre ord fører det første stoffet til en økning i fiskevekt opp til 71 g, det andre stoffet - opptil 70 g, og så videre. I denne situasjonen er 300 en betydelig outlier, men vi må ikke utelukke det; hvis vi antar at det ikke var målefeil, så er en slik outlier en betydelig suksess i eksperimentet. Legemidlet, som økte fiskens vekt til 300 gram, fungerer mye bedre enn andre legemidler; dermed er 300 den viktigste verdien i datasettet.

Tips

  • Når det blir funnet ytterpunkter, prøv å forklare tilstedeværelsen før du utelukker dem fra datasettet. De kan indikere målefeil eller distribusjonsanomalier.

Hva trenger du

  • Kalkulator