علم داده_ها (Data Science) چیست و متخصص علم داده (Data Scientist) کیست؟
علم داده (Data Science)، دانشی میانرشتهای پیرامون استخراج دانش و آگاهی از مجموعهای داده و اطلاعات است. علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روشهای موجود در حوزههای مختلف علمی بنا شدهاست. تعدادی از این حوزهها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات دادهمحور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذابترین شغل قرن بیست و یکم» متخصصین علم داده را اینطور تعریف میکنند: کسانی که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسبوکار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را اینطور تعریف میکند: علم داده رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد. دریسکول در سال ۲۰۱۴ علم داده را اینطور تعریف میکند: علم داده مهندسی عمران دادههاست. متخصص علم داده دانشی کاربردی از دادهها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.
سالهای مدیدی است که جهان مملو از داده شده است، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید میشود. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز بههمین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ دادههای تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده بهعنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.
متخصص علم داده
به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) میگویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شدهاست در صورتی که سالها قبل از آن که آنها استفاده از اصطلاح فوق را بهطور عمومی مطرح کنند، از آن استفاده شدهاست. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل میکنند. بهطور کلی انتظار میرود که متخصصین علم داده قادر باشند در بخشهایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده میبایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزهها دارای مهارت کافی باشد. نتایج نظرسنجیها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.
بهطور کلی میتوان گفت علم داده، مطالعه محلی که دادهها از آن میآیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آنها به منبعی ارزشمند برای کسبوکار و استراتژیهای فناوری اطلاعات سازمان است. کاوش حجم بالایی از دادههای ساختار یافته و ساختار نیافته بهمنظور شناسایی الگوهایی انجام میشود که میتوانند به سازمانها جهت صرفهجویی در هزینهها، افزایش کارایی، شناسایی فرصتهای جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روشها مانند یادگیری ماشین، کاوش داده و بصریسازی داده مورد استفاده قرار میگیرد.
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
- دانش قوی از پایتون، R، اسکالا و SAS
- دانش کافی در مفاهیم آماری برای طراحی الگوریتمها
- مهارت داشتن در نوشتن کدهای پایگاه داده SQL
- توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
- درک توابع تحلیل چندگانه
- دانش یادگیری ماشین
متخصصین علم داده میتوانند مهارتهایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:
– توانایی استخراج و تفسیر منابع داده
– مدیریت حجم زیاد اطلاعات با سختافزار
– محدودیتهای نرمافزاری و پهنای باند
– ادغام منابع داده با یک دیگر
– تضمین پایداری مجموعههای داده
– مصورسازی داده برای فهم آن
– ساخت مدلهای ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقهبندی
– مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون A/B
– به اشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام
مزایای علم داده
مزیت سازمانی: مزیت اصلی استفاده از علم داده در سازمان، توانمند سازی و تسهیل تصمیم گیری است. سازمان هایی با متخصص داده میتوانند شواهد مبتنی بر داده را به تصمیمات کسب و کار خود اعمال کنند. این تصمیمات مبتنی بر داده در نهایت منجر به افزایش سودآوری و بهبود بهرهوری عملیاتی، عملکرد و گردش کار کسب و کار میشود. در سازمانهای مشتریان، علم داده به شناسایی و اصلاح مخاطبان هدف کمک میکند. علم داده همچنین میتواند به استخدام کمک کند. پردازش داخلی برنامهها و تستهای شایستگی مبتنی بر داده و بازیها میتواند به تیم مدیریت منابعانسانی کمک کند تا انتخابهای سریعتر و دقیقتر را در طول روند استخدام انجام دهد. مزایای خاص علم داده بستگی به اهداف شرکت و صنعت دارد. برای مثال، موسسات بانکی دادهها را برای افزایش تشخیص تقلب استخراج میکنند.
مزایای علم داده بستگی به اهداف شرکت و صنعت مربوط به آن دارد. برای مثال دپارتمانهای فروش و بازاریابی میتوانند دادههای مشتریان را برای بهبود نرخ جذب مشتری و ساخت کمپینهای فرد به فرد کاوش کنند. موسسات بانکی، دادههای خود را جهت ارتقا وظیفه شناسایی کلاهبرداری کاوش میکنند. سرویسهای استریم مثل نتفلیکس (Netflix) دادهها را برای شناسایی آنچه کاربران به آن علاقمند هستند و استفاده از آنها برای دانستن اینکه تولید چه فیلمها یا برنامههای تلویزیونی بهتر است کاوش میکنند.
همچنین، در نتفلیکس از الگوریتمهای مبتنی بر پایگاه داده بهمنظور ساخت توصیههای شخصیسازی شده متناسب با عقاید کاربران استفاده شده است. شرکتهای حملونقل مانند FedEx ،DHL و UPS از علم داده برای کشف بهترین مسیرها، زمانها و نوع حملونقل کالا استفاده میکنند. با وجود کاربردهای متعدد علم داده، این زمینه در کسبوکار هنوز نوظهور است، زیرا شناسایی و تحلیل حجم انبوهی از دادههای ساختار نیافته میتواند برای شرکتها بسیار پیچیده، گران قیمت و زمانبر باشد.
ارتباط آمار و علم داده
محبوبیت عبارت «علم داده» در محیطهای دانشگاهی و کسبوکار به دلیل گشایش دربهای جدید به سوی فرصتهای شغلی، رشد انفجاری داشت. با این حال، بسیاری از منتقدان دانشگاهی و روزنامهنگاران تمایزی بین این دو قائل نیستند. «گیل پرس» (Gil Press) در نوشتهای که در مجله «فوربز» (Forbes) منتشر شد، ادعا کرده که علم داده یک واژه باب روز ولی بدون تعریف روشن است که در متون و زمینههای گوناگون از جمله دورههای تحصیلات تکمیلی جایگزین «تحلیل کسبوکار» شده است.
در پنل پرسش و پاسخ جلسات آمار مشترک انجمن آمار آمریکا، نیت سیلور (Nate Silver)، آماردان کاربردی، طی سخنانی در این رابطه گفت:
«من فکر میکنم دانشمند داده، عبارت آماردان را جذابتر کرده… آمار شاخهای از علم است. دانشمند داده به تدریج در بسیاری از زمینهها به حشو مبدل خواهد شد. افراد نباید از واژه آماردان چشمپوشی کنند.»
همچنین، در بخش کسبوکار، پژوهشگران و تحلیلگران گوناگون اذعان میکنند که دانشمندان داده به تنهایی نمیتوانند شرکتها را به مزیتهای رقابتی واقعی برسانند و همچنین، این شغل را تنها یکی از چهار شغلی میدانند که برای دستیابی به قدرت کلانداده (مِهداده) مورد نیاز است. چهار شغل مذکور عبارتند از: تحلیلگر داده، دانشمند داده، توسعهدهنده کلانداده و مهندس کلانداده.
از سوی دیگر، پاسخهای زیادی به چنین انتقاداتی داده شده و میشود. در مقالهای که در سال ۲۰۱۴ در وال استریت ژورنال منتشر شد، ایروینگ لادوسکی برگر (Irving Wladawsky-Berger)، اشتیاق به علم داده را مقارن با طلوع علوم کامپیوتر دانست. او چنین استدلال میکند که علم داده مانند هر زمینه میانرشتهای دیگری از روششناسی و راهکارهایی از دیگر زمینههای صنعتی و دانشگاهی بهره میبرد، اما آنها را در قالب جدید شکل میدهد. سخنان این پژوهشگر، به انتقادات تند انجام شده از علوم کامپیوتر که امروزه جایگاه ویژهای در فضای دانشگاهی دارد معطوف بود.
به همین ترتیب، «ویسانت دار» (Vasant Dhar)، دانشمند داده و استاد دانشگاه استرن نیویورک، همچون دیگر طرفداران دانشگاهی علم داده، به استدلال در این رابطه پرداخته است. او در دسامبر سال ۲۰۱۳با انجام سخنرانی در این رابطه، بیان میکند که علم داده از تحلیلهای داده فعلی موجود در کلیه رشتهها متفاوت است.
تمرکز علم داده بر تشریح مجموعه دادهها و به دنبال الگوهای عملی و سازگار برای استفادههای پیشبینانه است. این هدف کاربردی مهندسی، علم داده را به جایگاهی فراتر از تحلیلهای سنتی میبرد. اکنون دادههای رشتهها و زمینههای کاربردی مانند علوم سلامت و علوم اجتماعی که فاقد نظریههای مستحکم هستند را می توان با بهرهگیری از علم داده برای ساخت مدلهای پیشبین قدرتمند به کار برد.
«دیوید دونوهو» (David Donoho)، در سپتامبر ۲۰۱۵، پاسخگوی انتقادات موجود پیرامون علم داده را با رد سه تعریف اشتباهی که پیرامون علم داده وجود داشت بود. اول آنکه علم داده معادل کلان داده (مِهداده) نیست، زیرا اندازه مجموعه داده معیاری برای ایجاد تمایز بین علم داده و آمار نیست. دوم، علم داده بهوسیله مهارتهای رایانشی مرتبسازی مجموعه دادههای بزرگ تعریف نمیشود. این مهارتها عموما برای تحلیل در کلیه رشتههای مورد استفاده قرار میگیرند. سوم اینکه، علم داده یک زمینه بسیار کاربردی است که در حال حاضر برنامههای دانشگاهی قادر به آمادهسازی دانشمندان داده برای این شغل به شکل مناسبت نیستند. این در حالیست که بسیاری از مراکز آموزشی، دورههای آمار و تحلیل خود را به اشتباه با عنوان دورههای علم داده تبلیغ میکنند.
دونو به عنوان یک آماردان که تلاشهای زیادی در زمینه کاری خود انجام داده و قهرمانانی که دامنه یادگیری را به شکل علم داده کنونی گسترش دادهاند مانند «جان چمبرز» (John Chambers) که خواستار پذیرش مفهوم یادگیری از دادهها توسط آماردانها شده بود، یا ویلیام کلوند که خواهان اولویتدهی به ابزارهای استخراج پیشبین قابل اجرا از دادهها یا نظریههای توصیفی بود، همه با هم رویای یک دانش کاربردی که بر فراز آمار کلاسیک و دیگر زمینههای علمی رشد میکند را تحقق بخشیدهاند.
به خاطر آینده علم داده، پروژه دونو که یک محیط همواره در حال رشد برای دانش باز (open science) است، مجموعه دادههای قابل استفاده برای پژوهشهای دانشگاهی را در دسترس کلیه پژوهشگران قرار میدهد. موسسه ملی سلامت آمریکا (US National Institute of Health) نیز برنامهای را بهمنظور ارتقا تکرارپذیری و شفافیت دادههای پژوهشی در حال اجرا دارد. بدین ترتیب، آینده علم داده نه تنها مرزهای نظریات آمار را در هم میشکند، بلکه انقلابی در پارادایمهای پژوهشی دانشگاهی برپا خواهد کرد. دونو از این جریانها چنین نتیجه میگیرد:
«دامنه و تاثیر علم داده با فراهم شدن دادههای علمی و دادههایی درباره علم، به شکل فوقالعادهای در دهههای پیشرو گسترش خواهد یافت»
علم داده در ایران
اولین پژوهش در زمینه متخصصین علم داده در ایران در دانشکده مدیریت دانشگاه تهران انجام شدهاست. دانشگاه شهید بهشتی تهران اولین دانشگاه در ایران است که در مقطع کارشناسی ارشد علم داده دانشجو میپذیرد.
ابزارهای متن باز علم داده
– آر (زبان برنامهنویسی)
– پایتون (زبان برنامهنویسی)
– وکا (یادگیری ماشینی)
– جاوا (زبان برنامهنویسی)
– گنو آکتیو
– جولیا
ابزارهای تجاری علم داده
– راپید ماینر
– نایم
– اسپیاساس مادلر
– متلب
رشتههای دانشگاهی
– علوم تصمیم و مهندسی دانش
– انفورماتیک (رشته دانشگاهی)
– بیوانفورماتیک
– ژئوانفورماتیک
– انفورماتیک پزشکی
– علوم اعصاب محاسباتی
– شیمیانفورماتیک
– فیزیک محاسباتی