Како да се пресметаат емисиите

Во статистиката за емисија - ова се вредности кои остро се разликуваат од другите вредности во собраните податоци. Емисијата може да укаже на аномалии во дистрибуција на податоци или грешки во мерењето, па често емисии се исклучени од поставениот податоци. Исклучи емисии од поставениот податоци, можете да дојдете до неочекувани или попрецизни заклучоци. Затоа, неопходно е да се пресмета и оцени емисиите за да се обезбеди правилно разбирање на статистичките податоци.

Чекори

  1. Сликата под наслов Пресметајте Outliers Чекор 1
Еден. Научете како да ги препознаете потенцијалните емисии. Пред да ги елиминирате појдовните вредности од базата на податоци, треба да се утврдат потенцијалните емисии. Емисиите се вредности кои се многу различни од повеќето вредности во поставениот податоци - со други зборови, емисиите лежат надвор од трендот на повеќето вредности. Лесно е да се открие во табелите на вредности или (особено) на распоредот. Ако вредностите во подесувањето на податоци се на распоредот, тогаш емисиите ќе лежат далеку од повеќето други вредности. Ако, на пример, повеќето од вредностите лежат напред, тогаш емисиите лежат на двете страни на таквиот директен.
  • На пример, размислете за сет на податоци кои ја претставуваат температурата од 12 различни предмети во собата. Ако 11 објекти има температура од околу 70 степени, но предмет на дванаесеттиот (веројатно печка) има температура од 300 степени, а потоа брзо гледање на вредности може да се покаже дека печката е веројатно емисија.
  • Сликата насловена Пресметај outliers Чекор 2
    2. Наредете растечки податоците. Првиот чекор при утврдување на емисиите е пресметката на податоци во собата на средната. Оваа задача е многу поедноставен ако вредностите во група на податоци се наоѓа растечки (од помалите до повеќе).
  • Продолжување на примерот погоре, проверете го следново множество на податоци, што претставува температурата на неколку објекти: {71, 70, 73, 70, 70, 71, 72, 72, 71, 71, 72, 71, 72, 72, 71. Овој комплет мора да се нарача како што следува: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Сликата насловена Пресметај outliers Чекор 3
    3. Пресмета средната базата. Средниот DataSet е вредноста во средината на податоците. Ако наведениот податоци содржи непарен број на вредности, средната вредност е вредноста на која и по кој истиот број на вредности се наоѓаат во поставениот податоци. Но, ако поставениот податоци содржи дури и број на вредности, тогаш треба да го најдете аритметичкиот просек од две средни вредности. Имајте на ум дека при пресметувањето на средните емисии обично се означени како Q2, бидејќи лежи помеѓу Q1 и Q3 - пониски и највисоки четвртини што ќе ги дефинираме подоцна.
  • Не плашете се да работите со множества на податоци во кои дури и број на вредности - просечната аритметика две просечни вредности ќе биде бројот кој не е во сетот на податоци е нормално. Но, ако две средни вредности се истиот број, тогаш аритметичкиот просек е еднаков на овој број, исто така е во редот на нештата.
  • Во примерот погоре, просечните 2 вредности се 70 и 71, така што средната е еднаква на ((70 + 71) / 2) = 70.5.
  • Сликата со наслов Пресметај Overliers Чекор 4
    Четири. Пресметајте пониски квартали. Оваа вредност е наведено како Q1, под која лежи 25% од вредностите од поставениот податоци. Со други зборови, тоа е половина од вредностите лоцирани пред средната. Ако средната вредност лежи дури и број на вредности од базата на податоци, треба да ги пронајдете просечните аритметички две просечни вредности за да го пресметате Q1 (ова е слично на просечната пресметка).
  • Во нашиот пример, 6 вредности се наоѓаат по средните вредности и 6 вредности - на него. Ова значи дека со цел да се пресмета долниот кварт, треба да го најдеме аритметичкиот просек од два просеци од шест вредности кои лежат на средната. Тука просечните вредности се 70 и 70. Така, Q1 = ((70 + 70) / 2) = 70.
  • Сликата со наслов Пресметајте ги Outliers Step 5
    Пет. Пресметајте го горниот кварт. Оваа вредност е наведено како Q3, погоре која лежи 25% од вредностите од поставениот податоци. Процесот на пресметување на Q3 е сличен на процесот на пресметување на Q1, но тука се сметаат за вредности лоцирани по средната.
  • Во горенаведениот пример, две средни вредности од шест вредности кои лежат по средната вредност се 71 и 72. Така, Q3 = ((71 + 72) / 2) = 71.5.
  • Сликата под наслов Пресметајте ги избришители Чекор 6
    6. Пресметајте го опсегот на ESCKELTER. Пресметување на Q1 и Q3, треба да го најдете растојанието помеѓу овие вредности. За да го направите ова, одземете Q1 од Q3. Вредноста на меѓуоппонзацијата е исклучително важна за одредување на границите на вредностите кои не се емисии.
  • Во нашиот пример Q1 = 70, и Q3 = 71.5. Интеркомуникалниот опсег е 71,5 - 70 = 1.5.
  • Забележете дека ова се однесува на негативните вредности на Q1 и Q3. На пример, ако Q1 = -70, тогаш интеркомуникалниот опсег е 71,5 - (-70) = 141.5.
  • Сликата под наслов Пресметка на Outliers Чекор 7
    7. Најдете "Внатрешни граници" на вредности во Податоците. Емисиите се одредуваат преку анализа на вредностите - без разлика дали тие паѓаат или не во границите на таканаречените "внатрешни граници" и "надворешни граници". Вредноста подложена на "внатрешни граници" е класифицирана како "незначителна емисија", додека вредноста зад "надворешните граници" е класифицирана како "значајна емисија". За да ги пронајдете внатрешните граници, треба да го додадете ескаротичниот опсег за 1,5 - резултатот мора да се додаде во Q3 и одземе од Q1. Два пронајдени броеви се внатрешни граници на податоци.
  • Во нашиот пример, опсегот на доводбанитот е еднаков (71,5 - 70) = 1.5. Следно: 1.5 * 1,5 = 2.25. Овој број мора да се додаде во Q3 и да го одземе од Q1 за да ги пронајде внатрешните граници:
  • 71.5 + 2.25 = 73.75
  • 70 - 2.25 = 67.75
  • Така, внатрешните граници се еднакви на 67,75 и 73,75.
  • Во нашиот пример, само температурата на печката - 300 степени - лежи надвор од овие граници и може да се смета за малолетник. Но, не брзајте со заклучоците, неопходно е да се утврди дали оваа температура е значајни емисии. Сликата со наслов Пресметајте го Outliers Чекор 7Bullet2
  • Сликата со наслов Пресметајте ги Outliers Чекор 8
    осум. Најди ги податоците за "надворешни граници". Ова се прави на ист начин како и за внатрешните граници, освен што интеркомуникалниот опсег се множи со 3, а не за 1,5. Резултатот мора да се додаде во Q3 и одземе од Q1. Двајца пронајдени броеви се надворешни граници на податоци.
  • Во нашиот пример, размножете го ескаротичниот опсег за 3: 1.5 * 3 = 4.5. Пресметајте ги надворешните граници:
  • 71,5 + 4,5 = 76
  • 70 - 4.5 = 65.5
  • Така, надворешните граници се еднакви на 65,5 и 76.
  • Сите вредности кои се надвор од надворешните граници се сметаат за значајни емисии. Во нашиот пример, температурата на печката - 300 степени - се смета за значителни емисии.Сликата со наслов Пресметајте Outliers Чекор 8Bullet2
  • Сликата со наслов Пресметајте ги Outliers Чекор 9
    Девет. Користете квалитативна проценка за да одредите дали да ги елиминирате емисиите од поставените податоци. Методот опишан погоре ви овозможува да одредите дали некои емисии (незначителни или значајни) се. Сепак, не е погрешна - вредноста класифицирана како емисија е само "кандидат", бидејќи е, не сте обврзани да го исклучите. Причината за појава на емисија е главниот фактор кој влијае на одлуката за исклучување на емисијата. Како по правило, емисиите кои произлегуваат поради грешка (во мерења, записи и така натаму) се исклучени. Од друга страна, емисиите поврзани со грешки, но со нови информации или тренд, по правило, оставете ги во собата на податоците.
  • Подеднакво е важно да се процени влијанието на емисиите на средниот одбор на податоци (без разлика дали тие го нарушуваат или не). Ова е особено важно кога ќе направите заклучоци врз основа на средно поставување на податоци.
  • Во нашиот пример, тоа е крајно веројатно дека печката ќе се загрее до температура од 300 степени (само ако не ги зема предвид природните аномалии). Затоа, може да се заклучи (со висок удел на доверба) дека таквата температура е грешка во мерењето што сакате да ја исклучите од поставениот податоци. Покрај тоа, ако не ја исклучувате емисијата, средната поставка на податоци ќе биде еднаква на (69 + 69 + 70 + 70 + 70 + 72 + 73 + 300) / 12 = 89,67 степени, но ако ја исклучите емисијата, средната ќе биде еднаква на (69 + 69 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 степени.
  • Емисиите обично се резултат на човечки грешки, па емисиите мора да бидат исклучени од множества на податоци.
  • Сликата со наслов Пресметајте ги Outliers Чекор 10
    10. Пресметајте ја важноста (понекогаш) емисиите оставени во поставениот податоци. Некои емисии мора да бидат исклучени од поставениот податоци, бидејќи нивните причини се грешки и технички проблеми - други емисии мора да се остават во поставениот податоци. Ако, на пример, емисијата не е резултат на грешка и / или дава ново разбирање на феноменот на тестот, тогаш мора да се остави во поставениот податоци. Научните експерименти се особено чувствителни на емисиите - елиминирање на емисијата по грешка, можете да прескокнете некој нов тренд или отворање.
  • На пример, развиваме нова дрога за да ја зголемиме големината на рибите во рибарството. Ние ќе ги користиме старите податоци SET ({71, 70, 73, 70, 70, 70, 70, 72, 71, 300, 71, 69}), но овој пат ќе биде многу риба (во грамови) по примањето Експериментален лек. Со други зборови, првата дрога води до зголемување на масата на риба до 71 g, вториот лек - до 70 g и така натаму. Во оваа ситуација, 300 е значајна емисија, но не треба да ја исклучиме - ако претпоставиме дека немаше грешки во мерењето, тогаш таквата емисија е значаен успех во експериментот. Лекот што ја зголеми тежината на рибите до 300 грама дејствува значително подобри од другите лекови - на овој начин, 300 е најважната вредност во поставениот податоци.
  • Совети

    • Кога емисиите се наоѓаат, обидете се да го објасните нивното присуство пред да ги исклучите од поставените податоци. Тие можат да укажуваат на грешки или аномалии во дистрибуцијата.

    Што ви треба

    • Калкулатор
    Слични публикации