اولین پروژه آنالیز داده خود را برنامه ریزی کنید
یک چارچوب علمی برای انجام پروژههای تحلیل داده
?Planning Your First Data Analysis Project
یک پروژه ساختارمند میتواند مسیر طولانی رسیدن به اهداف پروژه در یک قالب خوب و اصلاح شده را سادهتر نماید. نگرش کشف داده محور از مجموعه داده عظیم در بعضی اوقات میتواند غافلگیرکننده باشد و از نظر ساختار علمی این پروژه تجزیه و تحلیل داده می تواند به سمت تجزیه و تحلیل کارآمد و بهبود هرچه بهتر تصمیمگیری جوامع کمک کند
بر همین اساس، در این مقاله یک راهنما برای مشخص کردن چارچوب با این ۹ مرحله مهم و اهداف در نظر گرفته شده برای ساختار عملی پروژهها براساس تصمیمگیری داده-محور در نظر گرفتهایم
نمای کلی و انگیزه انجام کار: این یکی از مراحل مهم در هر پروژهای هست که نیازمند بارش مغزی میباشد. در این قسمت شما دلایل و چرایی انجام پروژه خود را براساس اهدافتان مشخص میکنید. و در نهایت ایده روشنی از چارچوب تحقیقات در رابطه با پروژه خود و و بهطور موثر اهداف نهایی شما براساس دیدگاه داده-محور را برجسته میکند
هدف پروژه : در این مرحله کاملا واضح و شفاف اهداف پروژه خود را تعریف کنید. با استفاده از این در اینده میتوانید پاسخهای مطالعات اولیه خود را بر اساس منابع داده در درسترس، فرمول بندی کنید
منابع داده: این مرحله به فهم شما از منابع داده مورد استفاده در پروژه خود براساس جنبههای مختلف آن کمک میکند. این یک دیدگاه کلی در مورد شرایط دادههای خام جمع آوری شده، اندازه آنها و بهتر از همه اطلاعاتی در مورد تعداد متغیرهای و ویژگیهای داده در اختیار میگذارد
کارهای مرتبط: این مرحله یک پیش ضمینه مناسب در مورد کارهای مرتبط انجام شده در حوزه کاری شما را مشخص میکند. هدف آن ارائه یک نمای کلی از پژوهشهایی که در حوزه کاری شما انجام شده و در راستای برجسته کردن تجزیه و تحلیل دادههای پروژه شما کمک های مهم را انجام میدهد. در این سناریو شما میتوانید پژوهشهایی که با منابع داده شما انجام شده را شناسایی کنید و تفاوت پروژه شما با سایرین را برجسته تر به نمایش بگذارید
سوالات تحقیقات اولیه: این مرحله سوالات پژوهش فرموله شده در مراحل اولیه تحقیق که براساس یک درک اولیه از دادهها انجام شده را بدون تجزیه و تحلیل دادههای اکتشافی بیان میکند
کشمکش دادهها: کشمکش دادهها شامل مراحل مختلفی هست که دادهها را از فرمت خام به اصلاح شده تبدیل میکند، که برای تحلیل دادهها مناسب و دقیق است. مراحل مختلف شامل
بررسی مجموعه دادههای ورودی: این مرحله شامل مصورسازی مجموعه دادههای ورودی برای تولید آمارهها و خلاصه سازیهای موثر است
اصلاح مجموعه دادهها و انجام پردازش: این مرحله شامل اصلاح مجموعه دادههای ورودی برای از بین بردن دادههای گمشده، سطرهای تکراری، بازنویسی ستونها و مرتب سازی دوباره و غیره. و در اخر اماده کردن مجموعه دادههای اصلاح شده در قالب یک فایل برای انجام تحلیلهای آینده
اکتشافات از روی داده اصلاح شده: این مرحله شامل مصورسازی مجموعه دادههای اصلاح شده برای تولید آمارهها و انجام تحلیل از طریق رسم نمودارهای مختلف با متغیرهای گوناگون، آزمودن درستی ویژگیها و غیره
آماده سازی داده ها: این مرحله دادهها را برای پاسخ به سوالات تحقیق از طریق حذف ویژگیهای اضافه و یا اضافه کردن ویژگی خاصی به ستونها آماده میکند
تجزیه و تحلیل دادههای اکتشافی : تجزیه و تحلیل دادههای اکتشافی،پردازش تجسم ویژگیهای اصلی در دادهها قبل از انجام مدلبندی برای پیدا کردن الگوهای و بررسی مفروضات اولیه ساخته شده براساس دادهها است. این مرحله بیشتر به بازسازی و فرموله کردن اولیه سوالات تحقیق کمک میکند
سوالات نهایی تحقیقات : تجزیه و تحلیل داده های اکتشافی امکان بررسی سوالات اولیه تحقیق فرمول بندی شده را فراهم میآورد. مرحله تجزیه و تحلیل دادههای اکتشافی کمک میکند تا درک صحیحی از داده در رابطه با ویژگیهای پروژه داشته باشیم. از این رو این مرحله منجر به اصلاح، حذف و یا اضافه کردن سوالات تحقیق جدید میشود. پس در نهایت این مرحله باید بتواند مجموعه سوالات نهایی تحقیق را که در مسیر پروژه پاسخ دادهشدهاست را فرمول بندی کند
تجزیه و تحلیل داده ها و مدل سازی : این مرحله مهمی در تجزیه و تحلیل دادهها است، که برای پاسخ به سوالات فرمول بندی شده تحقیق از الگوریتمهای پیچیده و مدل سازی استفاده میکنیم. تاثیر بسیار بیشتری در جوامع با دیدگاه داده-محور که به طور موثر مخاطبان زیادی هم دارد ایجاد میکند. و بسیار خوب هست تا پنج مرحله اطلاعاتی را بیان کنیم که ، انتخاب الگوریتم— چرایی انتخاب الگوریتم — تجزیه تحلیل و مدل سازی — مشاهدات و کاربردها