Hoe emissies te berekenen

In emissatatistieken - dit zijn waarden die sterk verschillen van andere waarden in de geassembleerde gegevensset. De emissie kan aangeven op een anomalieën in de gegevensverdeling of fouten in de meting, dus vaak worden de emissies uitgesloten van de dataset. Exclusief emissies uit de dataset, kunt u tot onverwachte of nauwkeurigere conclusies komen. Daarom is het noodzakelijk om de emissies te kunnen berekenen en te evalueren om een ​​goed begrip van statistische gegevens te waarborgen.

Stappen

  1. Titel afbeelding Bereken uitbijters Stap 1
een. Leer potentiële emissies erkennen. Voordat u uitgaande waarden uit een dataset elimineert, moet potentiële emissies worden bepaald. Emissies zijn waarden die heel anders zijn dan de meeste waarden in de dataset - met andere woorden, emissies liggen buiten de trend van de meeste waarden. Het is gemakkelijk te detecteren in de tabellen van waarden of (vooral) op schema`s. Als de waarden in de dataset op het schema staan, zullen de emissies ver van de meeste andere waarden liggen. Als, bijvoorbeeld, de meeste waarden voorwaarts liggen, dan liggen de emissies aan beide zijden van zo`n direct.
  • Overweeg bijvoorbeeld een reeks gegevens die de temperatuur van 12 verschillende objecten in de kamer vertegenwoordigen. Als 11 objecten een temperatuur van ongeveer 70 graden hebben, maar het twaalfde object (mogelijk de oven) heeft een temperatuur van 300 graden, dan kan een snelle kijk van waarden aantonen dat de oven waarschijnlijk de emissie is.
  • Titel afbeelding Bereken uitbijters Stap 2
    2. Regelen de gegevens die stijgen. De eerste stap bij het bepalen van emissies is de berekening van de mediatuur van de gegevensset. Deze taak wordt zeer vereenvoudigd als de waarden in de dataset oplopend zijn (van kleinere tot meer).
  • Doorgaan met het bovenstaande voorbeeld, overweeg de volgende reeks gegevens, die de temperaturen van verschillende objecten vertegenwoordigen: {71, 70, 73, 70, 70, 71, 72, 72, 71, 71, 72, 71, 72, 72, 71. Deze kit moet als volgt worden besteld: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Titel afbeelding Bereken uitbijters Stap 3
    3. Bereken de mediane dataset. De mediane dataset is de waarde in het midden van de dataset. Als de dataset een oneven aantal waarden bevat, is de mediaan de waarde waarnaar en waarna hetzelfde aantal waarden zich bevindt in de dataset. Maar als de dataset een even aantal waarden bevat, moet u het rekenkundig gemiddelde van twee mediumwaarden vinden. Merk op dat bij het berekenen van de mediane emissies meestal als Q2 wordt aangegeven, omdat het ligt tussen Q1 en Q3 - lagere en topkwartieren die we later zullen definiëren.
  • Wees niet bang om met gegevenssets te werken waarin een even aantal waarden - de gemiddelde rekenkundige twee gemiddelde waarden het nummer is dat niet in de dataset staat, is normaal. Maar als twee gemiddelde waarden hetzelfde nummer zijn, is het rekenkundig gemiddelde gelijk aan dit aantal, het is ook in de volgorde van dingen.
  • In het bovenstaande voorbeeld zijn de gemiddelde 2 waarden 70 en 71, zodat de mediaan gelijk is aan ((70 + 71) / 2) = 70.5.
  • Titel afbeelding Bereken uitbijters Stap 4
    4. Bereken lagere kwartalen. Deze waarde aangegeven als Q1, hieronder waaronder 25% van de waarden uit de dataset. Met andere woorden, het is de helft van de waarden die vóór de mediaan zijn gevestigd. Als de mediaan een even aantal waarden van een dataset ligt, moet u de gemiddelde rekenkundige twee gemiddelde waarden vinden om de Q1 te berekenen (dit is vergelijkbaar met de mediaanberekening).
  • In ons voorbeeld bevinden 6 waarden na de mediaan en 6 waarden - eraan. Dit betekent dat we om het onderste kwartiel moeten berekenen, we moeten vinden het rekenkundig gemiddelde van twee gemiddelden van zes waarden die aan de mediaan liggen. Hier zijn de gemiddelde waarden 70 en 70. Dus, Q1 = ((70 + 70) / 2) = 70.
  • Titel afbeelding Bereken uitbijters Stap 5
    vijf. Bereken het bovenste kwartiel. Deze waarde aangegeven als Q3, waarboven 25% van de waarden uit de dataset ligt. Het proces van het berekenen van Q3 is vergelijkbaar met het proces van het berekenen van Q1, maar hier wordt het beschouwd als de waarden die zich na de mediaan bevinden.
  • In het bovenstaande voorbeeld zijn twee gemiddelde waarden van zes waarden die na mediaan liggen 71 en 72. Dus, Q3 = ((71 + 72) / 2) = 71.5.
  • Titel afbeelding Bereken uitbijters Stap 6
    6. Bereken het eSckelter-bereik. Het berekenen van Q1 en Q3, u moet de afstand tussen deze waarden vinden. Om dit te doen, aftrek Q1 van Q3. De waarde van de intercompositie is uiterst belangrijk voor het bepalen van de grenzen van waarden die geen emissies zijn.
  • In ons voorbeeld Q1 = 70 en Q3 = 71.5. Het intercommunicale bereik is 71,5 - 70 = 1,5.
  • Merk op dat dit van toepassing is op de negatieve waarden van Q1 en Q3. Bijvoorbeeld, als Q1 = -70, dan is het intercommunicale bereik 71,5 - (-70) = 141.5.
  • Titel afbeelding Bereken uitbijters Stap 7
    7. Zoek "interne grenzen" van waarden in de dataset. Emissies worden bepaald door de analyse van de waarden - of ze nu vallen of niet binnen de grenzen van de zogenaamde "interne randen" en "externe grenzen". De waarde die "Inner Borders" ondergaat, is geclassificeerd als een "onbeduidende emissie", terwijl de waarde achter de "externe randen" is geclassificeerd als een "significante emissie". Om de binnengrenzen te vinden, moet u het escarotic-assortiment met 1,5 toevoegen - het resultaat moet worden toegevoegd aan Q3 en aftrek van Q1. Twee gevonden nummers zijn interne gegevenssetgrenzen.
  • In ons voorbeeld is het intercombanietbereik gelijk aan (71,5 - 70) = 1,5. Volgende: 1,5 * 1,5 = 2.25. Dit nummer moet aan Q3 worden toegevoegd en het aftraft van Q1 om de interne grenzen te vinden:
  • 71,5 + 2.25 = 73.75
  • 70 - 2.25 = 67.75
  • De interne grenzen zijn dus gelijk aan 67,75 en 73,75.
  • In ons voorbeeld ligt alleen de temperatuur van de oven - 300 graden - buiten deze grenzen en kan kunnen worden beschouwd als een minderjarige. Maar haast je niet met de conclusies, het is noodzakelijk om te bepalen of deze temperatuur belangrijke emissies is. Titel afbeelding Bereken uitbijters Stap 7Bullet2
  • Titel afbeelding Bereken uitbijters Stap 8
    acht. Zoek "externe randen" -daterset. Dit gebeurt op dezelfde manier als voor innerlijke grenzen, behalve dat het intercommunicale bereik met 3 wordt vermenigvuldigd met 3, en niet met 1,5. Het resultaat moet worden toegevoegd aan Q3 en af ​​te trekken van Q1. Twee gevonden nummers zijn externe gegevenssetgrenzen.
  • In ons voorbeeld vermenigvuldig het escarotic-bereik met 3: 1,5 * 3 = 4.5. Bereken de buitengrenzen:
  • 71,5 + 4,5 = 76
  • 70 - 4.5 = 65.5
  • Aldus zijn de uitwendige grenzen gelijk aan 65,5 en 76.
  • Alle waarden die buiten de buitengrenzen bevinden worden beschouwd als significante emissies. In ons voorbeeld wordt de temperatuur van de oven - 300 graden - beschouwd als significante emissies.Titel afbeelding Bereken uitbijters Stap 8 Bullet2
  • Titel afbeelding Bereken uitbijters Stap 9
    negen. Gebruik een kwalitatieve beoordeling om te bepalen of de emissies uit de dataset kan worden geëlimineerd. Met de hierboven beschreven methode kunt u bepalen of sommige emissies (onbeduidend of significant) zijn. Niet vergissen - de waarde geclassificeerd als een emissie is echter slechts een "kandidaat" voor een uitzondering, dat wil zeggen, u bent niet verplicht om het uit te sluiten. De reden voor de opkomst van de emissie is de belangrijkste factor die van invloed is op de beslissing om de emissie uit te sluiten. In de regel zijn de emissies die ontstaan ​​door een fout (in metingen, records, enzovoort) zijn uitgesloten. Aan de andere kant, emissies in verband met fouten, maar met nieuwe informatie of trend, in de regel, verlof in de dataset.
  • Het is even belangrijk om de impact van emissies aan de mediane dataset te schatten (of ze het of niet vervormen). Dit is vooral belangrijk wanneer u conclusies doet op basis van de mediane dataset.
  • In ons voorbeeld is het uiterst onwaarschijnlijk dat de oven zal opwarmen tot een temperatuur van 300 graden (indien slechts geen rekening houdt met natuurlijke anomalieën). Daarom kan het worden geconcludeerd (met een hoog deel van het vertrouwen) dat een dergelijke temperatuur een meetfout is die u van de dataset wilt uitsluiten. Bovendien, als u de emissie niet uitsluit, is de mediane dataset gelijk aan (69 + 69 + 70 + 70 + 70 + 72 + 73 + 300) / 12 = 89,67 graden, maar als u de emissie uitsluit, de mediaan zal gelijk zijn aan (69 + 69 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 graden.
  • Emissies zijn meestal het gevolg van menselijke fouten, dus de emissies moeten worden uitgesloten van datasets.
  • Titel afbeelding Bereken uitbijters Stap 10
    10. Bereken het belang (soms) emissies in de dataset. Sommige emissies moeten worden uitgesloten van de dataset, aangezien hun redenen fouten en technische problemen zijn - andere emissies moeten in de dataset worden achtergelaten. Als de emissie bijvoorbeeld niet het resultaat is van een fout en / of een nieuw begrip van het testfenomeen geeft, moet deze in de dataset worden achtergelaten. Wetenschappelijke experimenten zijn vooral gevoelig voor emissies - het elimineren van de emissie per ongeluk, u kunt een nieuwe trend of opening overslaan.
  • We ontwikkelen bijvoorbeeld een nieuw medicijn om de visgrootte in de visserij te vergroten. We zullen de oude dataset gebruiken ({71, 70, 73, 70, 70, 70, 70, 72, 71, 300, 71, 69}), maar deze keer zal na ontvangst veel vis (in gram) zijn Experimenteel medicijn. Met andere woorden, het eerste medicijn leidt tot een toename van de massa van vis tot 71 g, het tweede medicijn - tot 70 g enzovoort. In deze situatie is 300 een belangrijke emissie, maar we moeten het niet uitsluiten - als we aannemen dat er geen meetfouten waren, dan is een dergelijke emissie een aanzienlijk succes in het experiment. Het medicijn dat verhoogd visgewicht tot 300 gram handelt aanzienlijk beter dan andere medicijnen - op deze manier is 300 de belangrijkste waarde in de dataset.
  • Tips

    • Wanneer de emissies worden gevonden, probeer dan hun aanwezigheid uit te leggen voordat u ze uitsluit van de dataset. Ze kunnen meetfouten of anomalieën in de distributie duiden.

    Wat je nodig hebt

    • Rekenmachine
    Deel in het sociale netwerk:
    Vergelijkbaar