Како да се пресметаат емисиите
Во статистиката за емисија - ова се вредности кои остро се разликуваат од другите вредности во собраните податоци. Емисијата може да укаже на аномалии во дистрибуција на податоци или грешки во мерењето, па често емисии се исклучени од поставениот податоци. Исклучи емисии од поставениот податоци, можете да дојдете до неочекувани или попрецизни заклучоци. Затоа, неопходно е да се пресмета и оцени емисиите за да се обезбеди правилно разбирање на статистичките податоци.
Чекори
Еден. Научете како да ги препознаете потенцијалните емисии. Пред да ги елиминирате појдовните вредности од базата на податоци, треба да се утврдат потенцијалните емисии. Емисиите се вредности кои се многу различни од повеќето вредности во поставениот податоци - со други зборови, емисиите лежат надвор од трендот на повеќето вредности. Лесно е да се открие во табелите на вредности или (особено) на распоредот. Ако вредностите во подесувањето на податоци се на распоредот, тогаш емисиите ќе лежат далеку од повеќето други вредности. Ако, на пример, повеќето од вредностите лежат напред, тогаш емисиите лежат на двете страни на таквиот директен.
- На пример, размислете за сет на податоци кои ја претставуваат температурата од 12 различни предмети во собата. Ако 11 објекти има температура од околу 70 степени, но предмет на дванаесеттиот (веројатно печка) има температура од 300 степени, а потоа брзо гледање на вредности може да се покаже дека печката е веројатно емисија.

2. Наредете растечки податоците. Првиот чекор при утврдување на емисиите е пресметката на податоци во собата на средната. Оваа задача е многу поедноставен ако вредностите во група на податоци се наоѓа растечки (од помалите до повеќе).

3. Пресмета средната базата. Средниот DataSet е вредноста во средината на податоците. Ако наведениот податоци содржи непарен број на вредности, средната вредност е вредноста на која и по кој истиот број на вредности се наоѓаат во поставениот податоци. Но, ако поставениот податоци содржи дури и број на вредности, тогаш треба да го најдете аритметичкиот просек од две средни вредности. Имајте на ум дека при пресметувањето на средните емисии обично се означени како Q2, бидејќи лежи помеѓу Q1 и Q3 - пониски и највисоки четвртини што ќе ги дефинираме подоцна.

Четири. Пресметајте пониски квартали. Оваа вредност е наведено како Q1, под која лежи 25% од вредностите од поставениот податоци. Со други зборови, тоа е половина од вредностите лоцирани пред средната. Ако средната вредност лежи дури и број на вредности од базата на податоци, треба да ги пронајдете просечните аритметички две просечни вредности за да го пресметате Q1 (ова е слично на просечната пресметка).

Пет. Пресметајте го горниот кварт. Оваа вредност е наведено како Q3, погоре која лежи 25% од вредностите од поставениот податоци. Процесот на пресметување на Q3 е сличен на процесот на пресметување на Q1, но тука се сметаат за вредности лоцирани по средната.

6. Пресметајте го опсегот на ESCKELTER. Пресметување на Q1 и Q3, треба да го најдете растојанието помеѓу овие вредности. За да го направите ова, одземете Q1 од Q3. Вредноста на меѓуоппонзацијата е исклучително важна за одредување на границите на вредностите кои не се емисии.

7. Најдете "Внатрешни граници" на вредности во Податоците. Емисиите се одредуваат преку анализа на вредностите - без разлика дали тие паѓаат или не во границите на таканаречените "внатрешни граници" и "надворешни граници". Вредноста подложена на "внатрешни граници" е класифицирана како "незначителна емисија", додека вредноста зад "надворешните граници" е класифицирана како "значајна емисија". За да ги пронајдете внатрешните граници, треба да го додадете ескаротичниот опсег за 1,5 - резултатот мора да се додаде во Q3 и одземе од Q1. Два пронајдени броеви се внатрешни граници на податоци.


осум. Најди ги податоците за "надворешни граници". Ова се прави на ист начин како и за внатрешните граници, освен што интеркомуникалниот опсег се множи со 3, а не за 1,5. Резултатот мора да се додаде во Q3 и одземе од Q1. Двајца пронајдени броеви се надворешни граници на податоци.


Девет. Користете квалитативна проценка за да одредите дали да ги елиминирате емисиите од поставените податоци. Методот опишан погоре ви овозможува да одредите дали некои емисии (незначителни или значајни) се. Сепак, не е погрешна - вредноста класифицирана како емисија е само "кандидат", бидејќи е, не сте обврзани да го исклучите. Причината за појава на емисија е главниот фактор кој влијае на одлуката за исклучување на емисијата. Како по правило, емисиите кои произлегуваат поради грешка (во мерења, записи и така натаму) се исклучени. Од друга страна, емисиите поврзани со грешки, но со нови информации или тренд, по правило, оставете ги во собата на податоците.

10. Пресметајте ја важноста (понекогаш) емисиите оставени во поставениот податоци. Некои емисии мора да бидат исклучени од поставениот податоци, бидејќи нивните причини се грешки и технички проблеми - други емисии мора да се остават во поставениот податоци. Ако, на пример, емисијата не е резултат на грешка и / или дава ново разбирање на феноменот на тестот, тогаш мора да се остави во поставениот податоци. Научните експерименти се особено чувствителни на емисиите - елиминирање на емисијата по грешка, можете да прескокнете некој нов тренд или отворање.
Совети
- Кога емисиите се наоѓаат, обидете се да го објасните нивното присуство пред да ги исклучите од поставените податоци. Тие можат да укажуваат на грешки или аномалии во дистрибуцијата.
Што ви треба
- Калкулатор