ရက်စွဲ - ၂၈.၇.၂၀၂၃ (သောကြာ)
Data Analysis လုပ်တဲ့အခါ Data တွေရဲ့ ဖြစ်တည်မှု၊ တန်ဖိုးတွေကို သိအောင် အရင်လုပ်ဖို့ လိုအပ်ပါတယ်။ Data တွေသည် Numerical Values တွေဖြစ်နိုင်သလို၊ Categorical Values တွေလည်း ဖြစ်နိုင်ပါတယ်။ Numerical Data တွေကို Quantitative Data၊ Categorical Data တွေကို Qualitative Data တွေ လို့လည်း ခေါ်ကြပါတယ်။ Numerical Values တွေကို ဖတ်တဲ့အခါ တိုင်းတာတွက်ချက်လို့ရတဲ့ ကိန်းဂဏန်းဆိုင်ရာ ဖော်မြူလာ၊ သတ်မှတ်ချက်တွေ များစွာ အသုံးပြုလို့ ရပါတယ်။ အရိုးရှင်းဆုံးအနေဖြင့် အငယ်ဆုံးတန်ဖိုး (Min), အကြီးဆုံးတန်ဖိုး (Max), အကြီးဆုံးတန်ဖိုးနဲ့ အငယ်ဆုံးတန်ဖိုးကြား အကွာအဝေး (Range), ပျမ်းမျှတန်ဖိုး စ,တာတွေ ကို Data Set တစ်ခုလုံးထဲက,နေ ရှာဖွေခြင်း ဖြစ်ပါတယ်။ နောက်ထပ် အခြေခံကျတာတွေက,တော့ Mean, Median, Mode, Standard Deviation နဲ့ Inter-Quartile Range တို့ ဖြစ်ပါတယ်။
ဒီနေ့တော့ Inter-Quartile Range (IQR) ရဲ့ အကြောင်းလေးကို ရှင်းပြပေးမှာ ဖြစ်ပါတယ်။
Range သည် Smallest Data Point နဲ့ Largest Data Point ကြားမှ အကွာအဝေး ဖြစ်ပါတယ်။ ဆိုလိုချင်တာက Range = Max – Min ဖြစ်ပါတယ်။ IQR က,တော့ Data ရဲ့ Middle 50% ကို ရည်ညွှန်းပါတယ်။
IQR ကို ရှာဖို့အတွက် ဦးစွာ တန်ဖိုးတွေကို ငယ်စဥ်ကြီးလိုက်စီ ရပါတယ်။ အဲ့ဒီနောက်မှာ Median ကို ရှာရပါမယ်။ Median ရှာဖို့အတွက်က စုံဂဏန်းအရေအတွက်ဆို (၂) နဲ့စားပြီး ရတဲ့ တန်ဖိုးကို (၁) ပေါင်းပါ။ ပေါင်းလဒ်တန်ဖိုး သည် Median ကိုဖော်ပြမယ့် ကိန်းတန်းရဲ့ တည်နေရာ ဖြစ်ပါတယ်။ ( Median = (n/2) + 1 ကိုဆိုလိုသည်။ ပေါင်းလဒ်သည် Median မဟုတ်ပါ။) မဂဏန်းအရေအတွက်ဆို (၁) ကို အရင် ပေါင်းပြီးမှ (၂) နဲ့စားပါ။ ရလာတဲ့ စားလဒ်သည် Median ကိုဖော်ပြမယ့် ကိန်းတန်းရဲ့ တည်နေရာ ဖြစ်ပါတယ်။ (Median = (n/2) ကိုဆိုလိုသည်။ စားလဒ်သည် Median မဟုတ်ပါ။)
Median သည် အလယ်မှတ်၊ အလယ်ကိန်း ဖြစ်တဲ့အတွက် ကိန်းတန်းတစ်ခုလုံးကို အညီအမျှ ပိုင်းထားသကဲ့သို့ ဖြစ်ပါလိမ့်မယ်။ ပြီးရင်တော့ အဲ့ဒီ Median နဲ့ Min ကြားထဲက Median ကိုထပ်ရှာရပါမယ်။ အဲ့ဒါကို First Quartile (Q1) လို့သတ်မှတ်ပါတယ်။ နောက်တစ်ခါ ဦးဆုံးရှာထားတဲ့ Median (Q1 မဟုတ်ပါ) နဲ့ Max ကြားထဲက Median ကိုထပ်ရှာရပါမယ်။ ရလာတဲ့ Median ကို Third Quartile (Q3) လို့သတ်မှတ်ပါတယ်။ ပြီးရင် Q3 ထဲက,နေ Q1 ကိုနှုတ်ရပါမယ်။ ဒါဆိုရင် IQR ကို ရရှိပြီ ဖြစ်ပါတယ်။
ကိန်းတန်းတစ်ခုလုံးမှာရှိတဲ့ Data Point တွေရဲ့ အလယ်မှတ် ဖြစ်တဲ့ Median တွေကိုရှာခဲ့တာ ဖြစ်လို့ Q1, Median M နဲ့ Q3 တို့သည် ကိန်းတန်းရှိ Data တွေကို အညီအမျှပိုင်းခြားပေးပါတယ်။ ရာခိုင်နှုန်းအရဆိုရလျှင် (၂၅%) အသီးသီး ရှိတဲ့ အပိုင်း (၄) ပိုင်း ရမှာဖြစ်ပါတယ်။ ဒီနေရာမှာ သိထားရမှာက ကိန်းစဥ်တန်းက မ,ဂဏန်းအရေအတွက် ဖြစ်နေရင် Median သည် ကိန်းတန်းရဲ့ အလယ်မှာရှိနေမှာဖြစ်ပြီး ဘယ်အပိုင်းထဲမှာမှ ပါဝင်မှာလည်း မဟုတ်ပါဘူး။ စုံဂဏန်းအရေအတွက် ဖြစ်နေရင်တော့ Median သည် ကိန်းတန်း Data Point တွေကို အတိအကျပိုင်း ပေးပါတယ်။ Median ကိုယ်တိုင်သည်လည်း အပိုင်းအသီးသီးမှာ အညီအမျှ ပါဝင် သွားပါလိမ့်မယ်။
ရလာတဲ့ IQR ကိုသုံးပြီးတော့ Data Point တွေထဲက Outliers တွေကို သိနိုင်ပါတယ်။ Outlier ဆိုတာ သံသယဝင်စရာ ကောင်းလောက်အောင် ကွက်ပြီးထူးခြားနေတာမျိုး၊ Pattern တွေထဲက,နေ သိသိသာသာ ကွဲထွက်နေတာမျိုးကို ဆိုလိုပါတယ်။ Q1 - 1.5(IQR) တန်ဖိုးအောက် ငယ်နေရင် သို့မဟုတ် Q3 + 1.5(IQR) တန်ဖိုးထက် ကြီးနေရင် Suspected Outlier လို့သတ်မှတ်ပါတယ်။ ဒါကို 1.5(IQR) Criterion လို့ခေါ်ပါတယ်။ ဒီ IQR အတွင်းက,နေ ကျော်သွားတဲ့ Min သို့မဟုတ် Max Data Point တွေရှိခဲ့ရင် Outlier လို့လည်း သတ်မှတ်ပြီး ဘယ်လို ကိုင်တွယ်ဖြေရှင်းရမလဲ စဥ်းစားရပါမယ်။
ယေဘူယျအားဖြင့် သိသိသာသာ ထူးခြားဖြစ်စဥ်တိုင်းက မှားယွင်းတယ်လို့ ယူဆလို့မရပါဘူး။ ဒီလိုမျိုး ထူးခြားဖြစ်စဥ်မျိုး နောက်တစ်ကြိမ် ဖြစ်ပေါ်နိုင်မယ်ဆိုရင် ဒါဟာ Data တွေအဖြစ် ဆက်လက် သိမ်းဆည်းထား သင့်ပါတယ်။ နောက်တစ်ချက်က,တော့ အရေးပေါ်ထုတ်ပြန်ချက်တွေကြောင့် သို့မဟုတ် ပြောင်းလဲသွားတဲ့ စည်းမျဥ်း၊ ဥပဒေလုပ်ထုံးတွေကြောင့်၊ အခြေအနေအရ ထူးခြားဖြစ်စဥ် ဖြစ်ပေါ်ခဲ့တာမျိုးဆိုရင်၊ ပြီးတော့ ဒီလိုဖြစ်စဥ်ဟာ နောက်ထပ် ထပ်မဖြစ်နိုင်တာ သေချာရင်တော့ Data တွေ အဖြစ်ဆက်လက် သိမ်းဆည်းထားဖို့ မလိုအပ်ပါဘူး။ ဖယ်ထုတ်ခဲ့လို့ ရပါတယ်။ တစ်ခါတစ်ရံမှာတော့ ဒေတာကောက်ယူသူတွေရဲ့ အမှားကြောင့် သိသိသာသာ ထူးခြားကွဲပြားနေတာမျိုးလည်း ကြုံတွေ့နိုင်ပါတယ်။ ဥပမာ - အသက် (၀) နှစ်လို့ မှားပြီး မှတ်တမ်း ထားမိတာမျိုး ဖြစ်ပါတယ်။ ဒီလို Typo Error မျိုးတွေ ဆိုရင်ပြင်လို့ရရင် ပြင်နိုင်သလို လုံးဝဖြစ်နိုင်ချေ မရှိရင် ဖယ်ထုတ်ခဲ့လို့ ရပါတယ်။ ဘာကြောင့်လည်းဆိုရင် အချို့သော Outliers တွေက မမြင်နိုင်တဲ့ အခြားသော Data တည်ရှိမှုများကို ဖုံးကွယ်ထားလို့ ဖြစ်ပါတယ်။ ဆိုလိုတာက အဲ့ဒီ Outliers ကြောင့် Data Distribution သည် ပြောင်းလဲနေတာ သို့မဟုတ် ပြောင်းလဲနိုင်တာ ဖြစ်ပါတယ်။
နိဂုံးချုပ်ရမယ်ဆိုရင် Data Distribution ကို သိရှိခြင်းဖြင့် Suspected Outliers တွေကို မြင်နိုင်မှာဖြစ်ပြီး ဒါတွေဟာ Data Analysis မှာ အခြေခံသဘောတရားတွေ ဖြစ်ပါတယ်။ Five Number Summary လို့ခေါ်တဲ့ (Min, Q1, M, Q3, Max) ဒါတွေသည် Numerical Data တွေကို မြန်ဆန်စွာ သိနိုင်ဖို့ လိုအပ်တာ ဖြစ်လို့ ရေးသား ဖော်ပြပေး လိုက်ပါတယ်။
ဆန္ဒမွန်ဖြင့်
ဇော်မေ
No comments:
Post a Comment