Hoe emissies te berekenen
In emissatatistieken - dit zijn waarden die sterk verschillen van andere waarden in de geassembleerde gegevensset. De emissie kan aangeven op een anomalieën in de gegevensverdeling of fouten in de meting, dus vaak worden de emissies uitgesloten van de dataset. Exclusief emissies uit de dataset, kunt u tot onverwachte of nauwkeurigere conclusies komen. Daarom is het noodzakelijk om de emissies te kunnen berekenen en te evalueren om een goed begrip van statistische gegevens te waarborgen.
Stappen
een. Leer potentiële emissies erkennen. Voordat u uitgaande waarden uit een dataset elimineert, moet potentiële emissies worden bepaald. Emissies zijn waarden die heel anders zijn dan de meeste waarden in de dataset - met andere woorden, emissies liggen buiten de trend van de meeste waarden. Het is gemakkelijk te detecteren in de tabellen van waarden of (vooral) op schema`s. Als de waarden in de dataset op het schema staan, zullen de emissies ver van de meeste andere waarden liggen. Als, bijvoorbeeld, de meeste waarden voorwaarts liggen, dan liggen de emissies aan beide zijden van zo`n direct.
- Overweeg bijvoorbeeld een reeks gegevens die de temperatuur van 12 verschillende objecten in de kamer vertegenwoordigen. Als 11 objecten een temperatuur van ongeveer 70 graden hebben, maar het twaalfde object (mogelijk de oven) heeft een temperatuur van 300 graden, dan kan een snelle kijk van waarden aantonen dat de oven waarschijnlijk de emissie is.

2. Regelen de gegevens die stijgen. De eerste stap bij het bepalen van emissies is de berekening van de mediatuur van de gegevensset. Deze taak wordt zeer vereenvoudigd als de waarden in de dataset oplopend zijn (van kleinere tot meer).

3. Bereken de mediane dataset. De mediane dataset is de waarde in het midden van de dataset. Als de dataset een oneven aantal waarden bevat, is de mediaan de waarde waarnaar en waarna hetzelfde aantal waarden zich bevindt in de dataset. Maar als de dataset een even aantal waarden bevat, moet u het rekenkundig gemiddelde van twee mediumwaarden vinden. Merk op dat bij het berekenen van de mediane emissies meestal als Q2 wordt aangegeven, omdat het ligt tussen Q1 en Q3 - lagere en topkwartieren die we later zullen definiëren.

4. Bereken lagere kwartalen. Deze waarde aangegeven als Q1, hieronder waaronder 25% van de waarden uit de dataset. Met andere woorden, het is de helft van de waarden die vóór de mediaan zijn gevestigd. Als de mediaan een even aantal waarden van een dataset ligt, moet u de gemiddelde rekenkundige twee gemiddelde waarden vinden om de Q1 te berekenen (dit is vergelijkbaar met de mediaanberekening).

vijf. Bereken het bovenste kwartiel. Deze waarde aangegeven als Q3, waarboven 25% van de waarden uit de dataset ligt. Het proces van het berekenen van Q3 is vergelijkbaar met het proces van het berekenen van Q1, maar hier wordt het beschouwd als de waarden die zich na de mediaan bevinden.

6. Bereken het eSckelter-bereik. Het berekenen van Q1 en Q3, u moet de afstand tussen deze waarden vinden. Om dit te doen, aftrek Q1 van Q3. De waarde van de intercompositie is uiterst belangrijk voor het bepalen van de grenzen van waarden die geen emissies zijn.

7. Zoek "interne grenzen" van waarden in de dataset. Emissies worden bepaald door de analyse van de waarden - of ze nu vallen of niet binnen de grenzen van de zogenaamde "interne randen" en "externe grenzen". De waarde die "Inner Borders" ondergaat, is geclassificeerd als een "onbeduidende emissie", terwijl de waarde achter de "externe randen" is geclassificeerd als een "significante emissie". Om de binnengrenzen te vinden, moet u het escarotic-assortiment met 1,5 toevoegen - het resultaat moet worden toegevoegd aan Q3 en aftrek van Q1. Twee gevonden nummers zijn interne gegevenssetgrenzen.


acht. Zoek "externe randen" -daterset. Dit gebeurt op dezelfde manier als voor innerlijke grenzen, behalve dat het intercommunicale bereik met 3 wordt vermenigvuldigd met 3, en niet met 1,5. Het resultaat moet worden toegevoegd aan Q3 en af te trekken van Q1. Twee gevonden nummers zijn externe gegevenssetgrenzen.


negen. Gebruik een kwalitatieve beoordeling om te bepalen of de emissies uit de dataset kan worden geëlimineerd. Met de hierboven beschreven methode kunt u bepalen of sommige emissies (onbeduidend of significant) zijn. Niet vergissen - de waarde geclassificeerd als een emissie is echter slechts een "kandidaat" voor een uitzondering, dat wil zeggen, u bent niet verplicht om het uit te sluiten. De reden voor de opkomst van de emissie is de belangrijkste factor die van invloed is op de beslissing om de emissie uit te sluiten. In de regel zijn de emissies die ontstaan door een fout (in metingen, records, enzovoort) zijn uitgesloten. Aan de andere kant, emissies in verband met fouten, maar met nieuwe informatie of trend, in de regel, verlof in de dataset.

10. Bereken het belang (soms) emissies in de dataset. Sommige emissies moeten worden uitgesloten van de dataset, aangezien hun redenen fouten en technische problemen zijn - andere emissies moeten in de dataset worden achtergelaten. Als de emissie bijvoorbeeld niet het resultaat is van een fout en / of een nieuw begrip van het testfenomeen geeft, moet deze in de dataset worden achtergelaten. Wetenschappelijke experimenten zijn vooral gevoelig voor emissies - het elimineren van de emissie per ongeluk, u kunt een nieuwe trend of opening overslaan.
Tips
- Wanneer de emissies worden gevonden, probeer dan hun aanwezigheid uit te leggen voordat u ze uitsluit van de dataset. Ze kunnen meetfouten of anomalieën in de distributie duiden.
Wat je nodig hebt
- Rekenmachine
Deel in het sociale netwerk: