علم داده_ها (Data Science) چیست و متخصص علم داده (Data Scientist) کیست؟

علم داده (Data Science)، دانشی میان‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است. علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است. تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب‌ترین شغل قرن بیست و یکم» متخصصین علم داده را این‌طور تعریف می‌کنند: کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسب‌وکار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند: علم داده رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد. دریسکول در سال ۲۰۱۴ علم داده را این‌طور تعریف می‌کند: علم داده مهندسی عمران داده‌هاست. متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.
سال‌های مدیدی است که جهان مملو از داده شده است، حجم این داده‌ها و سرعت تولید آن‌ها با ظهور وب و البته شبکه‌های اجتماعی رشد فزاینده‌ای داشته. در واقع، حجم داده‌های دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید می‌شود. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به‌همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ داده‌های تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به‌عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.

متخصص علم داده

به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) می‌گویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده‌است در صورتی که سال‌ها قبل از آن که آن‌ها استفاده از اصطلاح فوق را به‌طور عمومی مطرح کنند، از آن استفاده شده‌است. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل می‌کنند. به‌طور کلی انتظار می‌رود که متخصصین علم داده قادر باشند در بخش‌هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده می‌بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه‌ها دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.
به‌طور کلی می‌توان گفت علم داده، مطالعه محلی که داده‌ها از آن می‌آیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آن‌ها به منبعی ارزشمند برای کسب‌و‌کار و استراتژی‌های فناوری اطلاعات سازمان است. کاوش حجم بالایی از داده‌های ساختار یافته و ساختار نیافته به‌منظور شناسایی الگوهایی انجام می‌شود که می‌توانند به سازمان‌ها جهت صرفه‌جویی در هزینه‌ها، افزایش کارایی، شناسایی فرصت‌های جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روش‌ها مانند یادگیری ماشین، کاوش داده و بصری‌سازی داده مورد استفاده قرار می‌گیرد.
هر کسی که به ساخت موقعیت شغلی قدرتمند‌تر در این دامنه علاقمند است، باید مهارت‌های کلیدی در سه حوزه تحلیل، برنامه‌نویسی و دانش دامنه را کسب کند. با نگاهی عمیق‌تر، می‌توان گفت مهارت‌های بیان شده در زیر می‌تواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.

  • دانش قوی از پایتون، R، اسکالا و SAS
  • دانش کافی در مفاهیم آماری برای طراحی الگوریتم‌ها
  • مهارت داشتن در نوشتن کدهای پایگاه داده SQL
  • توانایی کار با داده‌های ساختار نیافته از منابع گوناگون مانند ویدئو و شبکه‌های اجتماعی
  • درک توابع تحلیل چندگانه
  • دانش یادگیری ماشین

متخصصین علم داده می‌توانند مهارت‌هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارت‌ها به شرح زیرند:
– توانایی استخراج و تفسیر منابع داده
– مدیریت حجم زیاد اطلاعات با سخت‌افزار
– محدودیت‌های نرم‌افزاری و پهنای باند
– ادغام منابع داده با یک دیگر
– تضمین پایداری مجموعه‌های داده
– مصورسازی داده برای فهم آن
– ساخت مدل‌های ریاضی با استفاده از داده، مانند مدل‌های ریگرسیون و طبقه‌بندی
– مقایسه آماری مدل‌های ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون A/B
– به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام

مزایای علم داده

مزیت سازمانی: مزیت اصلی استفاده از علم داده در سازمان، توانمند سازی و تسهیل تصمیم گیری است. سازمان هایی با متخصص داده می‌توانند شواهد مبتنی بر داده را به تصمیمات کسب و کار خود اعمال کنند. این تصمیمات مبتنی بر داده در نهایت منجر به افزایش سودآوری و بهبود بهره‌وری عملیاتی، عملکرد و گردش کار کسب و کار می‌شود. در سازمان‌های مشتریان، علم داده به شناسایی و اصلاح مخاطبان هدف کمک می‌کند. علم داده همچنین می‌تواند به استخدام کمک کند. پردازش داخلی برنامه‌ها و تست‌های شایستگی مبتنی بر داده و بازی‌ها می‌تواند به تیم مدیریت منابع‌انسانی کمک کند تا انتخاب‌های سریع‌تر و دقیق‌تر را در طول روند استخدام انجام دهد. مزایای خاص علم داده بستگی به اهداف شرکت و صنعت دارد. برای مثال، موسسات بانکی داده‌ها را برای افزایش تشخیص تقلب استخراج می‌کنند.
مزایای علم داده بستگی به اهداف شرکت و صنعت مربوط به آن دارد. برای مثال دپارتمان‌های فروش و بازاریابی می‌توانند داده‌های مشتریان را برای بهبود نرخ جذب مشتری و ساخت کمپین‌های فرد به فرد کاوش کنند. موسسات بانکی، داده‌های خود را جهت ارتقا وظیفه شناسایی کلاهبرداری کاوش می‌کنند. سرویس‌های استریم مثل نتفلیکس (Netflix) داده‌ها را برای شناسایی آنچه کاربران به آن علاقمند هستند و استفاده از آن‌ها برای دانستن اینکه تولید چه فیلم‌ها یا برنامه‌های تلویزیونی بهتر است کاوش می‌کنند.
همچنین، در نتفلیکس از الگوریتم‌های مبتنی بر پایگاه داده به‌منظور ساخت توصیه‌های شخصی‌سازی شده متناسب با عقاید کاربران استفاده شده است. شرکت‌های حمل‌و‌نقل مانند FedEx ،DHL و UPS از علم داده برای کشف بهترین مسیرها، زمان‌ها و نوع حمل‌و‌نقل کالا استفاده می‌کنند. با وجود کاربردهای متعدد علم داده، این زمینه در کسب‌و‌کار هنوز نوظهور است، زیرا شناسایی و تحلیل حجم انبوهی از داده‌های ساختار نیافته می‌تواند برای شرکت‌ها بسیار پیچیده، گران قیمت و زمان‌بر باشد.

ارتباط آمار و علم داده

محبوبیت عبارت «علم داده» در محیط‌های دانشگاهی و کسب‌و‌کار به دلیل گشایش درب‌های جدید به سوی فرصت‌های شغلی، رشد انفجاری داشت. با این حال، بسیاری از منتقدان دانشگاهی و روزنامه‌نگاران تمایزی بین این دو قائل نیستند. «گیل پرس» (Gil Press) در نوشته‌ای که در مجله «فوربز» (Forbes) منتشر شد، ادعا کرده که علم داده یک واژه باب روز ولی بدون تعریف روشن است که در متون و زمینه‌های گوناگون از جمله دوره‌های تحصیلات تکمیلی جایگزین «تحلیل کسب‌و‌کار» شده است.
در پنل پرسش‌ و‌ پاسخ جلسات آمار مشترک انجمن آمار آمریکا، نیت سیلور (Nate Silver)، آماردان کاربردی، طی سخنانی در این رابطه گفت:

«من فکر می‌کنم دانشمند داده، عبارت آماردان را جذاب‌تر کرده… آمار شاخه‌ای از علم است. دانشمند داده به تدریج در بسیاری از زمینه‌ها به حشو مبدل خواهد شد. افراد نباید از واژه آماردان چشم‌پوشی کنند.»

همچنین، در بخش کسب‌و‌کار، پژوهشگران و تحلیلگران گوناگون اذعان می‌کنند که دانشمندان داده به تنهایی نمی‌توانند شرکت‌ها را به مزیت‌های رقابتی واقعی برسانند و همچنین، این شغل را تنها یکی از چهار شغلی می‌دانند که برای دستیابی به قدرت کلان‌داده (مِه‌داده) مورد نیاز است. چهار شغل مذکور عبارتند از: تحلیل‌گر داده، دانشمند داده، توسعه‌دهنده کلان‌داده و مهندس کلان‌داده.
از سوی دیگر، پاسخ‌های زیادی به چنین انتقاداتی داده شده و می‌شود. در مقاله‌ای که در سال ۲۰۱۴ در وال استریت ژورنال منتشر شد، ایروینگ لادوسکی برگر (Irving Wladawsky-Berger)، اشتیاق به علم داده را مقارن با طلوع علوم کامپیوتر دانست. او چنین استدلال می‌کند که علم داده مانند هر زمینه میان‌رشته‌ای دیگری از روش‌شناسی و راهکارهایی از دیگر زمینه‌های صنعتی و دانشگاهی بهره می‌برد، اما آن‌ها را در قالب جدید شکل می‌دهد. سخنان این پژوهشگر، به انتقادات تند انجام شده از علوم کامپیوتر که امروزه جایگاه ویژه‌ای در فضای دانشگاهی دارد معطوف بود.
به همین ترتیب، «ویسانت دار» (Vasant Dhar)، دانشمند داده و استاد دانشگاه استرن نیویورک، همچون دیگر طرفداران دانشگاهی علم داده، به استدلال در این رابطه پرداخته است. او در دسامبر سال ۲۰۱۳با انجام سخنرانی در این رابطه، بیان می‌کند که علم داده از تحلیل‌های داده فعلی موجود در کلیه رشته‌ها متفاوت است.
تمرکز علم داده بر تشریح مجموعه داده‌ها و به دنبال الگوهای عملی و سازگار برای استفاده‌های پیش‌بینانه است. این هدف کاربردی مهندسی، علم داده را به جایگاهی فراتر از تحلیل‌های سنتی می‌برد. اکنون داده‌های رشته‌ها و زمینه‌های کاربردی مانند علوم سلامت و علوم اجتماعی که فاقد نظریه‌های مستحکم هستند را می توان با بهره‌گیری از علم داده برای ساخت مدل‌های پیش‌بین قدرتمند به کار برد.
«دیوید دونوهو» (David Donoho)، در سپتامبر ۲۰۱۵، پاسخگوی انتقادات موجود پیرامون علم داده را با رد سه تعریف اشتباهی که پیرامون علم داده وجود داشت بود. اول آنکه علم داده معادل کلان داده (مِه‌داده) نیست، زیرا اندازه مجموعه داده معیاری برای ایجاد تمایز بین علم داده و آمار نیست. دوم، علم داده به‌وسیله مهارت‌های رایانشی مرتب‌سازی مجموعه داده‌های بزرگ تعریف نمی‌شود. این مهارت‌ها عموما برای تحلیل در کلیه رشته‌های مورد استفاده قرار می‌گیرند. سوم اینکه، علم داده یک زمینه بسیار کاربردی است که در حال حاضر برنامه‌های دانشگاهی قادر به آماده‌سازی دانشمندان داده برای این شغل به شکل مناسبت نیستند. این در حالیست که بسیاری از مراکز آموزشی، دوره‌های آمار و تحلیل خود را به اشتباه با عنوان دوره‌های علم داده تبلیغ می‌کنند.
دونو به عنوان یک آماردان که تلاش‌های زیادی در زمینه کاری خود انجام داده و قهرمانانی که دامنه یادگیری را به شکل علم داده کنونی گسترش داده‌اند مانند «جان چمبرز» (John Chambers) که خواستار پذیرش مفهوم یادگیری از داده‌ها توسط آماردان‌ها شده بود، یا ویلیام کلوند که خواهان اولویت‌دهی به ابزارهای استخراج پیش‌بین قابل اجرا از داده‌ها یا نظریه‌های توصیفی بود، همه با هم رویای یک دانش کاربردی که بر فراز آمار کلاسیک و دیگر زمینه‌های علمی رشد می‌کند را تحقق بخشیده‌اند.
به خاطر آینده علم داده، پروژه دونو که یک محیط همواره در حال رشد برای دانش باز (open science) است، مجموعه داده‌های قابل استفاده برای پژوهش‌های دانشگاهی را در دسترس کلیه پژوهشگران قرار می‌دهد. موسسه ملی سلامت آمریکا (US National Institute of Health) نیز برنامه‌ای را به‌منظور ارتقا تکرارپذیری و شفافیت داده‌های پژوهشی در حال اجرا دارد. بدین ترتیب، آینده علم داده نه تنها مرزهای نظریات آمار را در هم می‌شکند، بلکه انقلابی در پارادایم‌های پژوهشی دانشگاهی برپا خواهد کرد. دونو از این جریان‌ها چنین نتیجه می‌گیرد:

​«دامنه و تاثیر علم داده با فراهم شدن داده‌های علمی و داده‌هایی درباره علم، به شکل فوق‌العاده‌ای در دهه‌های پیش‌رو گسترش خواهد یافت»

علم داده در ایران
اولین پژوهش در زمینه متخصصین علم داده در ایران در دانشکده مدیریت دانشگاه تهران انجام شده‌است. دانشگاه شهید بهشتی تهران اولین دانشگاه در ایران است که در مقطع کارشناسی ارشد علم داده دانشجو می‌پذیرد.
ابزارهای متن باز علم داده
– آر (زبان برنامه‌نویسی)
– پایتون (زبان برنامه‌نویسی)
– وکا (یادگیری ماشینی)
– جاوا (زبان برنامه‌نویسی)
– گنو آکتیو
– جولیا
ابزارهای تجاری علم داده
– راپید ماینر
– نایم
– اس‌پی‌اس‌اس مادلر
– متلب
رشته‌های دانشگاهی
– علوم تصمیم و مهندسی دانش
– انفورماتیک (رشته دانشگاهی)
– بیوانفورماتیک
– ژئوانفورماتیک
– انفورماتیک پزشکی
– علوم اعصاب محاسباتی
– شیمی‌انفورماتیک
– فیزیک محاسباتی