داده های پرت

بسیاری از مواقع با نگاهی به اندازه گیری های تکراری متوجه می شوید که یک (یا چند) داده وجود دارد که “اشتباه به نظر می رسند”.  به این داده ها یا نقاط داده های پرت یا دور افتاده (outliers) گفته می شود. در تعریف ساده داده های پرت مقادیری هستند که خارج از محدوده طبیعی یک متغیر قرار دارند. با توجه به این که این داده ها می توانند نتایج آنالیز را تحت تاثیر قرار دهند، معمولا ساده ترین و متداول ترین رویکرد این است که داده های پرت حذف شوند. برای حذف این داده ها حتما باید از ابزارهای آماری استفاده شود. توجه کنید که بر اساس تمام پروتکل های بین المللی باید تمام داده ها، حتی داده های پرت را گزارش کنید و اگر تصمیم دارید داده ای را در آنالیز نهایی خود رد کنید، باید برای این تصمیم توجیه آماری داشته باشید.

بررسی نقاط غلط و ناهنجار در نتایج باید به صورت عادی و از مراحل اولیه انجام هر مطالعه آنالیز داده باشد. با این حال، تمایز بین یک نقطه داده و یک خطا نیاز به تجربه دارد. بنابراین قضاوت انسان، مبتنی بر دانش، تجربه و شهود، در ارزیابی یکپارچگی و اعتبار یک مجموعه داده خاص همچنان مهم است. بنابراین لازم است قبل از انجام تجزیه و تحلیل عمیق ، پزشکان در زمینه منابع آب در زمینه شناسایی و درمان خطاها و ناهنجاری ها در داده های کیفیت آب آگاهی داشته باشند.

آزمون های آماری زیر جهت شناسایی داده های پرت استفاده می شوند.

آزمون کیو (Q-Tests)

روش های مختلفی برای تعیین احتمال پرت بودن یک نتیجه وجود دارد. آزمون کیو یا آزمون دیکسون (Dixon’s Q-test) یک روش بسیار متداول و معمول برای شناسایی داده های پرت است. Q-test ابزاری آماری است که برای شناسایی داده های پرت در یک مجموعه داده استفاده می شود. اساس آزمون Q مقایسه تفاوت بین مقدار مشکوک داده پرت و مقدار نتیجه نزدیک به آن با تفاوت بین مقدار مشکوک داده پرت و مقدار نتیجه دورترین از آن (گستره یا محدوده) است

Q=xqxn+۱w

در این رابطه xq داده پرت xn+1 نزدیک ترین مقدار به داده مشکوک در ترتیب نزولی یا صعودی و w هم محدوده (اختلاف بین بیشترین و کمترین مقدار داده ها) است.

اگر Qexp>Qcrit داده مشکوک به عنوان داده پرت محسوب می شود. باید داده را حذف کرده و مجددا میانگین و انحراف استاندارد را بدون داده پرت گزارش کرد.

آزمون گرابز (Grubbs test)

ایزو برای تشخیص داده های پرت آزمون گرابز را توصیه می کند. آزمون گرابز مشابه آزمون کیو است اما محاسبه آن به جای نزدیک ترین مقدار به داده مشکوک و بر اساس میانگین داده ها و انحراف استاندارد است.

برای انجام آزمون گرابز Gexp را با معادله زیر حساب کنید.

Gexp=Xqxs

اگر Gexp>Gcrit داده مشکوک به عنوان داده پرت محسوب می شود. باید داده را حذف کرده و مجددا میانگین و انحراف استاندارد را بدون داده پرت گزارش کرد.

با استفاده از بسیاری از نرم افزارها مانند اکسل SPSS , Minitab و .. با چند کلیک این آزمون ها به آسانی انجام می شود.

برای مطالعه بیشتر مقالات زیر پیشنهاد می شود:

 

 

مقالات مرتبط

2 Comments

Avarage Rating:
  • 0 / 10
  • Atena , اردیبهشت 11, 1400 @ 10:18 ب.ظ

    Qمورر انتظار وQبحرانی چه طوری محاسبه میشن؟

    • آنالیوم , اردیبهشت 11, 1400 @ 10:59 ب.ظ

      سلام
      دوست عزیز اگر دقت کنید با فرمول در متن کامل توضیح داده شده. Q مورد انتظار از فرمول محاسبه میشه و Q بحرانی از جدول آماری مربوطه. توضیحات بیشتر به همراه مثال رو می تونید اینجا ببینید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *