Beregn kovarians

Forfatter: Judy Howell
Opprettelsesdato: 2 Juli 2021
Oppdater Dato: 22 Juni 2024
Anonim
7e - Kovarians og korrelasjonskoeffisient (Statistikk)
Video: 7e - Kovarians og korrelasjonskoeffisient (Statistikk)

Innhold

Kovarians er en statistisk beregning for å gjøre forholdet mellom to datasett mer gjennomsiktig. Anta for eksempel at antropologer studerer høyden og vekten til en befolkning i en bestemt kultur. For hver person i studien kan høyde og vekt vises med et par data (x, y). Disse verdiene kan brukes i en standardformel for beregning av kovariansforholdet. Denne artikkelen forklarer først beregningene for å bestemme samvariansen til et datasett. Deretter vil to andre automatiserte måter å bestemme resultatet bli diskutert.

Å trå

Metode 1 av 4: Beregn kovariansen for hånd ved hjelp av standardformelen

  1. Lær standardformelen for kovarians og dens deler. Standardformelen for beregning av kovarians er Σ(XJegXgj.sn.)(yJegygj.sn.)/(n1){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) (y_ {i} -y _ { text {avg}}) / (n-1)}Konstruer datatabellen. Før du begynner, er det nyttig å samle inn dataene dine. Lag en tabell som består av fem kolonner. Du må erklære hver kolonne som følger:
    • X{ displaystyle x}Beregn gjennomsnittet av x datapunktene. Dette eksempeldatasettet inneholder 9 tall. For å finne gjennomsnittet, legg dem sammen og del summen med 9. Dette gir resultatet 1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44. Når du deler dette med 9, får du gjennomsnittet 4,89. Dette er verdien du vil bruke som x (avg) for de kommende beregningene.
    • Beregn gjennomsnittet av y-datapunktene. Denne y-kolonnen må også bestå av 9 datapunkter som sammenfaller med x-datapunktene. Bestem gjennomsnittet av disse. For dette eksempeldatasettet blir dette 8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 49. Del denne summen med 9 for å få et gjennomsnitt på 5,44. Du kommer til å bruke 5,44 som verdien av y (avg) for de kommende beregningene.
    • Beregn verdiene (XJegXgj.sn.){ displaystyle (x_ {i} -x _ { text {avg}})}Beregn verdiene (yJegygj.sn.){ displaystyle (y_ {i} -y _ { text {avg}})}Beregn produktene for hver datarad. Du fyller ut radene i den siste kolonnen ved å multiplisere tallene du beregnet i de to foregående kolonnene til (XJegXgj.sn.){ displaystyle (x_ {i} -x _ { text {avg}})}Finn summen av verdiene i den siste kolonnen. Det er her Σ-symbolet kommer inn. Etter å ha gjort alle beregningene så langt, legg resultatene sammen. For dette eksempeldatasettet bør du nå ha ni verdier i den siste kolonnen. Legg de ni tallene sammen. Vær nøye med om et tall er positivt eller negativt.
      • Summen av dette eksempeldatasettet skal legge opp til -64,57. Skriv denne summen i mellomrommet nederst i kolonnen. Dette er verdien av telleren til standardformelen for kovarians.
    • Beregn nevneren for kovariansformelen. Telleren til standard kovariansformelen er verdien du nettopp har beregnet. Nevneren er representert med (n-1), og er en mindre enn antall par av dataene i datasettet ditt.
      • I dette eksempelproblemet er det ni datapar, så n er 9. Derfor er verdien av (n-1) lik 8.
    • Del telleren etter nevneren. Det siste trinnet i beregningen av kovariansen er å dele telleren, Σ(XJegXgj.sn.)(yJegygj.sn.){ displaystyle Sigma (x_ {i} -x _ { text {avg}}) (y_ {i} -y _ { text {avg}})}Legg merke til hva de gjentatte beregningene er. Kovarians er en beregning du må gjøre for hånd et par ganger, slik at du forstår betydningen av resultatet. Men hvis du rutinemessig skal bruke kovarians for å tolke data, trenger du en raskere og mer automatisert måte å få resultatene på. Nå har du kanskje lagt merke til at beregningene med vårt relativt lille datasett på bare ni datapar besto av to midler, atten separate subtraksjoner, ni multiplikasjoner, ett tillegg og til slutt en annen divisjon. Det er 31 relativt små beregninger for å finne løsningen. Underveis risikerer du å savne negative tegn eller kopiere resultatene feil, slik at svaret ikke lenger er riktig.
    • Lag et regneark for beregning av kovariansen. Hvis du er kjent med Excel (eller et annet beregningsprogram), kan du enkelt lage en tabell for å bestemme kovariansen. Merk overskriftene til de fem kolonnene slik du gjorde for beregningene for hånd: x, y, (x (i) -x (avg)), (y (i) -y (avg)) og Product.
      • For å forenkle navngivning, kaller du den tredje kolonnen noe som "x forskjell" og den fjerde kolonnen "y forskjell", så lenge du husker betydningen av dataene.
      • Hvis tabellen starter øverst til venstre på regnearket, blir celle A1 merket x, mens de andre etikettene fortsetter opp til celle E1.
    • Angi datapunktene. Skriv inn dataverdiene i de to kolonnene x og y. Husk at rekkefølgen på datapunktene betyr noe, så du må matche hver y med den tilsvarende verdien på x.
      • X-verdiene starter i celle A2 og fortsetter opp til antall datapunkter du trenger.
      • Y-verdiene starter i celle B2 og fortsetter opp til antall datapunkter du trenger.
    • Bestem middelverdiene for x- og y-verdiene. Excel beregner gjennomsnittet for deg veldig raskt. I den første tomme cellen under hver kolonne med data skriver du inn formelen = GJENNOMSNITT (A2: A ___). Fyll det tomme rommet med nummeret på cellen som tilsvarer ditt siste datapunkt.
      • Hvis du for eksempel har 100 datapunkter, fylles cellene A2 til og med A101, så i cellen skriver du = GJENNOMSNITT (A2: A101).
      • For y-dataene skriver du inn formelen = GJENNOMSNITT (B2: B101).
      • Husk at en formel i Excel starter med et "=" tegn.
    • Skriv inn formelen for kolonnen (x (i) -x (avg)). I celle C2 skriver du inn formelen for beregning av den første subtraksjonen. Denne formelen blir: = A2 -___. Fyll det tomme rommet med celleadressen som inneholder gjennomsnittet av x-dataene.
      • For eksempel, av de 100 datapunktene, vil gjennomsnittet være i celle A103, så formelen blir: = A2-A103.
    • Gjenta formelen for datapunktene (y (i) -y (avg)). Etter samme eksempel går den inn i celle D2. Formelen blir: = B2-B103.
    • Skriv inn formelen for "Produkt" -kolonnen. I den femte kolonnen skriver du inn celle E2 formelen for å beregne produktet av de to foregående cellene. Dette blir da: = C2 * D2.
    • Kopier formlene for å fylle tabellen. Til nå har du bare programmert de første få datapunktene i rad 2. Marker cellene C2, D2 og E2 ved hjelp av musen. Plasser markøren på den lille boksen i nedre høyre hjørne til et pluss-tegn vises. Klikk og hold nede museknappen og dra musen ned for å utvide utvalget og fylle hele datatabellen. Dette trinnet kopierer automatisk de tre formlene fra cellene C2, D2 og E2 til hele tabellen. Tabellen skal fylles automatisk med alle beregningene.
    • Programmer summen av den siste kolonnen. Du trenger summen av varene i "Produkt" -kolonnen. Skriv inn formelen i den tomme cellen rett under det siste datapunktet i den kolonnen: = SUM (E2: E ___). Fyll det tomme rommet med celleadressen til det siste datapunktet.
      • I eksemplet med 100 datapunkter går denne formelen inn i celle E103. Type: = SUM (E2: E102).
    • Bestem kovariansen. Du kan også få Excel til å utføre den endelige beregningen for deg. Den siste beregningen i celle E103 i vårt eksempel representerer telleren for kovariansformelen. Rett under den cellen skriver du inn formelen: = E103 / ___. Fyll den tomme plassen med antall datapunkter du har. I vårt eksempel er dette 100. Resultatet er samvariasjonen av dataene dine.

Metode 3 av 4: Bruk av online kovarians kalkulatorer

  1. Søk på nettet etter kovarianskalkulatorer. Ulike skoler, selskaper eller andre kilder har nettsteder som beregner kovariansverdiene veldig enkelt for deg. Bruk søkeordet "kovarians kalkulator" i en søkemotor.
  2. Skriv inn dine detaljer. Les instruksjonene på nettstedet nøye for å sikre at du skriver inn informasjonen riktig. Det er viktig at dataparene dine holdes i orden, ellers vil det genererte resultatet være en feil kovarians. Nettsteder har forskjellige stiler for dataregistrering.
    • For eksempel, på nettstedet http://ncalculators.com/statistics/covariance-calculator.htm, er det en horisontal rute for å legge inn x-verdiene og en andre horisontal ramme for å legge inn y-verdiene. Du må oppgi dataene dine atskilt med komma. Dermed skal x-datasettet beregnet tidligere i denne artikkelen legges inn som 1,3,2,5,8,7,12,2,4. Y-dataene er 8,6,9,4,3,3,2,7,7.
    • På et annet nettsted, https://www.thecalculator.co/math/Covariance-Calculator-705.html, blir du bedt om å legge inn x-data i den første boksen. Data legges inn vertikalt, med ett element per linje. Derfor ser oppføringen på dette nettstedet ut som:
    • 1
    • 3
    • 2
    • 5
    • 8
    • 7
    • 12
    • 2
    • 4
  3. Beregn resultatene. Det attraktive med disse online beregningene er at når du har tastet inn dataene, trenger du vanligvis bare å klikke på "Beregn" -knappen, og resultatene vises automatisk. De fleste nettsteder vil gi deg de mellomliggende beregningene av x (avg), y (avg) og n.

Metode 4 av 4: Tolke resultatene av kovariansen

  1. Se etter et positivt eller negativt forhold. Kovariansen er et enkelt statistisk tall som indikerer forholdet mellom ett datasett og et annet. I eksemplet nevnt innledningsvis måles høyden og vekten. Du forventer at når folk vokser, vil vekten også øke, noe som fører til et positivt syn på kovarians. Et annet eksempel: Anta at det blir samlet inn data som angir antall timer noen trener golf og poengsummen han eller hun oppnår. I dette tilfellet forventer du en negativ kovarians, noe som betyr at når antall treningstimer øker, vil golfpoengene reduseres. (I golf er en bedre poengsum bedre).
    • Vurder eksempeldatasettet beregnet ovenfor. Den resulterende kovariansen er -8,07. Minustegnet betyr at når x-verdiene øker, har y-verdiene en tendens til å reduseres. Du kan se at dette stemmer ved å se på noen av verdiene. For eksempel tilsvarer x-verdiene på 1 og 2 y-verdiene på 7, 8 og 9. X-verdiene på 8 og 12 er knyttet til y-verdiene på henholdsvis 3 og 2 .
  2. Tolk størrelsen på kovariansen. Hvis antallet av kovarianspoeng er stort, enten et stort positivt tall eller et stort negativt tall, så kan du tolke dette som to dataelementer som er sterkt forbundet, enten på en positiv eller negativ måte.
    • Kovariansen til prøvedatasettet er -8.07 er ganske stor. Merk at dataene varierer fra 1 til 12. Så 8 er et ganske stort antall. Dette indikerer et ganske sterkt forhold mellom datasettene x og y.
  3. Forstå mangelen på et forhold. Hvis resultatet ditt er en kovarians som er lik eller veldig nær 0, kan du konkludere med at datapunktene ikke er relatert. Det vil si at en økning i den ene verdien kan, men ikke trenger å resultere i en økning i den andre. De to begrepene knyttes nesten tilfeldig.
    • Anta at du knytter skostørrelser til eksamenskarakterer. Fordi det er så mange faktorer som påvirker studentens eksamenskarakterer, kan det forventes en kovarianspoeng nær 0. Dette indikerer at det nesten ikke er noe forhold mellom de to verdiene.
  4. Se forholdet grafisk. For å forstå kovariansen visuelt, kan du plotte datapunktene dine på en x, y-graf. Når du gjør det, bør du se ganske enkelt at punktene, ikke akkurat i en rett linje, har en tendens til å nærme seg en klynge i en diagonal linje fra øverst til venstre til nederst til høyre. Dette er beskrivelsen av en negativ kovarians. Du kan også se at verdien av kovariansen er lik -8.07. Dette er ganske stort antall sammenlignet med datapunktene. Det høye tallet antyder at kovariansen er ganske sterk, noe du kan utlede fra den lineære formen på datapunktene.
    • For å gå gjennom dette igjen, les artikler om tegningspunkter i et koordinatsystem på wikiHow.

Advarsler

  • Covariance har begrenset anvendelse i statistikk. Det er ofte et skritt mot å beregne korrelasjonskoeffisienter eller andre konsepter. Vær forsiktig med altfor dristige tolkninger basert på en kovarianspoengsum.