Wednesday, March 27, 2024

Why we say useless data?

ရက်စွဲ - ၃၀.၀၁.၂၀၂၂

အားလုံးပဲ မင်္ဂလာပါ....ကျွန်တော့်နာမည်က “ဇော်မေ” ပါ။

ဒီနေ့ ကျွန်တော်ဆွေးနွေးချင်တဲ့ ခေါင်းစဉ်က “ဘာလို့ အသုံးမဝင်တဲ့ Data တွေလို့ ကျွန်တော်တို့က ပြောရတာလဲ” ဆိုတာပါ။ ဒီလိုပြောလိုက်ရင် တစ်မျိုးတော့ ဖြစ်သွားမှာပေါ့နော်။ ဘာလို့လဲဆိုတော့ အခုခေတ်မှာ sexy အကျဆုံး၊ အဟော့ဆုံး စကားလုံးက “Big Data” ဖြစ်နေလို့ပါ။ အဲ့ဒါကြောင့်ပဲ ကျွန်တော်က Data တွေက ဘာလို့ Useless ဖြစ်တာလဲဆိုတာနဲ့ အဲ့ဒီ Data တွေကို ဘယ်လိုမျိုး အသုံးဝင်လာအောင် လုပ်လို့ရမလဲဆိုတာတွေကို ကျွန်တော့်ရဲ့ လုပ်ငန်းခွင်မှာ ကြုံတွေ့ခဲ့ရပုံတွေ၊ ကျွန်တော့်အမြင်တွေနဲ့ ထပ်ဆောင်း နည်းပညာလေးတွေကို မျှဝေပေးချင်ပါတယ်။ ဆွေးနွေးတာဖြစ်လို့ ကျွန်တော့်ကိုလည်း ဝေဖန်နိုင်ပါတယ်။ Q&A Sections ကျရင်လည်း စိတ်ဝင်စားဖို့ကောင်းတဲ့ အချိန်ဖြစ်လာဦးမယ်လို့ မျှော်လင့်ပါတယ်။

ဟုတ်။ ။ အဲ့ဒါဆိုရင် ဘာလို့ Useless Data လို့ပြောလဆိုတာကနေ အရင်စ,လိုက်ပါမယ်။ ဒါက ဒီလိုရှိပါတယ်။ တစ်ခါတစ်လေကျတော့ Useless Data တွေရှိနေတာအစား Data တွေရှိမနေတာကမှ ပိုကောင်းနေသေးတယ် လို့တောင်ပြောချင်တယ်။ Data တွေကိုသုံးမှာ မဟုတ်ရင် ဒါမှမဟုတ် စနစ်တကျသိမ်းဆည်းထားတဲ့ Data တွေ မဟုတ်ခဲ့ရင် အဲ့ဒါတွေက Useless Data တွေပါပဲ။ နောက်ဥပမာတစ်ခုအနေနဲ့ပြောရရင် စာသင်ခန်းထဲက ကျောင်းသားတွေရဲ့ အမှတ်စာရင်းအမှား တွေဟာ လည်း Useless Data တွေပါပဲ။ ဘာလို့ဆိုတော့ ဒီနေ့ရဲ့ IoT Age မှာ Big Data တွေကို အခြေခံပြီး Data Driven-Decision တွေချပြီး လုပ်ဆောင်နေကြတာဆိုတော့ Data တွေရဲ့ အခန်းကဏ္ဍက အ‌ရေးပါလာတယ်။ Data တွေမှားနေမှတော့ Data ကနေ Predict လုပ်မယ့် Result ကလည်း မှားဖို့ရာ များသွားပြီ။ တကယ်ကထပ်ပြောရရင် Useless Data တွေဆိုတာ အရည်အသွေးမပြည့်ဝတဲ့ Data တွေလို့လည်း ဆိုနိုင်တယ်ပေါ့နော်။ ဒီတော့ Useless Data တွေမဖြစ်အောင် Data Quality Issues တွေ မရှိအောင်လုပ်နိုင်သလို နောက်တစ်ချက်က Data တွေကို အမှန်တကယ်သုံးပြီး Story Telling လုပ်လိုက်ရင်လည်း ဖြစ်နိုင်ပါတယ်။ Story Telling လုပ်တဲ့နေရာမှာလည်း Data Quality Issues တွေ ရှိနေသေးရင် Useless Data တွေကတော့ ဖြစ်နေဦး မှာပါပဲ။

တစ်ခါ Machine Learning နယ်ပယ်မှာ၊ Data Science Field မှာပေါ့...သူ့မှာလည်း Useless Data တွေကို ဂရုစိုက်ရမယ်။ ဆိုလိုချင်တာက ကိုယ်လိုချင်တဲ့ Outcome Variable နဲ့ အဆက်အစပ်မရှိရင် Result ရဖို့ အလားအလာမရှိရင် အဲ့ဒါတွေသည်လည်း Useless Data ပါပဲ။ ဥပမာ ဘဏ်အကောင့်တွေ။ သူတို့တွေကို Random ချပေးလိုက်တယ်။ ဆိုတော့ Account Holder က အကောင့်နံပါတ် ဘယ်လောက်ဖြစ်နေမှ ဘာဖြစ်ရမယ် ဆိုတာမျိုးမရှိဘူး။ Make Sense မဖြစ်ဘူးပေါ့။ Random မလို့ Order လည်းမရှိဘူး။ ဒီတော့ ဒီလိုမျိုး Field မျိုးဆိုရင် အသုံးမဝင်ဘူး။ Model ကို Fitting လုပ်ရင် ထည့်မသုံးဘူးပေါ့နော်။

ဒီတော့ Useless Data တွေမဖြစ်အောင် Data Quality Issues တွေက ဘာတွေလည်း ပြောပြပါမယ်။

Duplicated Data တွေ။ ထပ်နေတဲ့ အကြောင်းအရာတွေပေါ့နော်။ ဒါကတော့ siloed systems များတဲ့အခါမျိုးတွေမှာ ဖြစ်လေ့ရှိပါတယ်။ စကားမစပ်ပေါ့နော်....Duplicated Files တွေလည်း ရှိတတ် ပါတယ်။ သူများတွေတော့ မသိဘူး။ ကျွန်တော်ပေါ့နော်။ ကျွန်တော်က Duplicate File ဖြစ်သွား တာတော့ မဟုတ်ဘူး။ Data File တွေများလာတာ။ တစ်ခုခုဆို မပစ်ရက်တွေ ဖြစ်တာပေါ့နော်။ ကိုယ်တွေက Data တွေနဲ့ အလုပ်လုပ်တဲ့အခါ Data Cleaning လုပ်ပြီးရင်တောင် Original Data File တွေကို Version တပ်ပြီး သိမ်းလိုက်ရမှ ဆိုတာမျိုးပေါ့။ တကယ်တမ်း ကျွန်တော်တို့ လုပ်ငန်းခွင်မှာ လုပ်ကြတဲ့အခါ  Data Fields တွေပြောင်းသွားရင် Update လုပ်မှာလား? Overwrite လုပ်မှာလား? Ignore လုပ်မှာလား? စတာတွေပေါ်မူတည်ပြီး Slow Changing Dimension ဆိုတာမျိုးတွေနဲ့ Data တွေကို စနစ်ကျ unique ဖြစ်နေအောင် လုပ်ရပါတယ်။

နောက်တစ်ခုက အချက်အလက်တွေ မစုံတာ။ တစ်နည်းပြောရရင် Field တွေမစုံတာ။ ဘယ်လိုမျိုးမှာ ဖြစ်လေ့ရှိလဲ ဆိုတော့ Staff တွေက Data တွေကို Manually သွင်းရင် မဖြည့်မိတာတို့၊ ကွက်ကျော်သွား တာတို့၊ မေးမရတာတို့ စသဖြင့်ပေါ့လေ။ ဒါ့ကြောင့်လည်း ဒီလိုအခြေအနေမျိုးအတွက် Data Management System တွေက အရေးကြီးလာရတာနောက်ပိုင်းမှာ Field မစုံတဲ့ Row/Record တွေ က Missing Information ဖြစ်စေလို့ Prediction လုပ်တဲ့အခါမျိုးတွေဆိုရင် အသုံးမဝင်တဲ့ Data တွေ ဖြစ်သွားနိုင်တဲ့ အလားအလာ များသွားပါတယ်။

ခုနကပြောတဲ့ Staff ကိုယ်တိုင် Data တွေသွင်းတဲ့အခါ အမြင်မှားပြီး အကွက်မှားဖြည့်တာမျိုးတွေကနေ Data Type မှားသွားတာမျိုးတွေ ဖြစ်တတ်ပါသေးတယ်။ ပြီးတော့ Data Format မှားတာမျိုးတွေလည်း ဖြစ်တတ်ပါတယ်။ ဥပမာဆိုပါတော့ DateDate ဆိုရင် ပုံစံအမျိုးမျိုးနဲ့ ရေးလို့ရတယ်။ ရက်/လ/နှစ် ရေးမလား? ဒါမှမဟုတ် နှစ်/ရက်/လ ရေးမလား? စသဖြင့်ပေါ့။ ကယ့်လုပ်ငန်းခွင်မှာက Data တွေ သည် Source တစ်ခုတည်းကနေ လာတာမဟုတ်ပါဘူး။ ဆိုတော့ တစ်ခါတစ်လေ Data Type Conflict တွေ ဖြစ်တတ်ပါသေးတယ်။ ကျွန်တော် Data Migration လုပ်တုန်းက Test တွေ၊ Development တွေတုန်းက ဘာ Error မှ မရှိခဲ့ဘဲ Go Life စ,တော့မှ Type Error တွေတက်တာ ကြုံခဲ့ဖူးပါတယ်။

နောက်ထပ် သတိထားရမှာ တစ်ခုက Language နဲ့ အတိုင်းအတာ Unit တွေပါ။ အဓိက,က Language ပေါ့နော်။ ဆိုပါ‌တော့ မြန်မာစာ ဆိုရင် Unicode ဆိုပေမယ့် Zawgyi သုံးနေတာတွေလည်း ရှိသေးတာ ပဲလေ။ Font Face ပေါ့နော်။ အတိုင်းအတာ Unit ဆိုရင် Currency ရှိမယ်ပေါ့။

Data Quality Issues မှာ များသောအားဖြင့်ကတော့ Data Entry သွင်းတဲ့ Human Error တွေက အများဆုံးပါပဲ။ ဒီ Data Quality ဆိုတာ ဒီနေ့ခေတ်အနေနဲ့ဆိုရင် Data Center တွေအတွက် Critical Issues လို့လည်း ဆိုလို့ရတယ်။ ဘာလို့ဆိုတော့ Data တွေကများလာလေ Big Data ပေါ့နော်။ သိမ်းဖို့အတွက် Cloud နည်းပညာတွေနဲ့၊ ဒီ Cloud Technology ရဲ့ နောက်ကွယ်က ရှုပ်ထွေးမှုတွေက ကြီးထွားလာဦးမယ်။ ပြီးရင် ဒီရှုပ်ထွေးပါတယ်ဆိုတဲ့ Cloud Technology ကို သုံးဖို့ လိုအပ်ချက် ကလည်း ပိုပိုပြီးပဲ များလာ၊တိုးလာဖို့ပဲ ရှိတာမလို့။ ဒါ့ကြောင့်လည်း နောက်ပိုင်းမှာ Data Quality Tools တွေကိုသုံးခြင်းအားဖြင့် Typos တွေ၊ Formatting Errors တွေကို ဖယ်ရှားနိုင်ပါမယ်။ Data Quality Tools တွေက data cleansing, data integration, master data management, metadata management စတာတွေကို လုပ်ပေးနိုင်ပါတယ်။

နေက်ထပ်သိလိုတတွေကိုတောslide လေမှာ ထပ်ပြီကြည့်ပေးပါနော်။ Slide လေးကို လိုချင်ရင် email address လေးချန်ခဲ့မယ် ဆိုရင် ပို့ပေးပါမယ်။

ဆန္ဒမွန်ဖြင့်

No comments:

Post a Comment

Understanding AI Hallucinations: Mitigate Misinformation & Get Better Answers

  ရက်စွဲ  – ၁၁ .၀၆.၂၀၂၄ AI နည် း ပညာ တွေ သည် တရှိန်ထိ ုး အော င်မြင်လာ မှု နဲ့အတူ   အရမ် း ကို သြချလော က်စ ရာ စွမ်း ဆော င်ရည်တွေ ပါ ဝင်လာ ပါ ...