چگونه تبدیل به متخصص علم داده شویم؟!

چگونه تبدیل به یک متخصص علم داده شویم؟!

طبق آماری که CNN منتشر کرده، داده کاوی یکی از ده شغل پردرآمد دنیاست. داده کاوی یا Data Mining یکی از کارهایی هست که شرکت‌‌ها به خصوص شرکت‌های بزرگ نیاز زیادی بهش دارند.

با توجه به این مسئله، سوال‌های زیادی به وجود میاد مثل:

 داده کاوی چیه و چطوری کار می‌کنه؟

 هرکسی می‌تونه داده کاوی یاد بگیره؟

 من علاقه‌مند به داده کاوی هستم ، چطوری اصول داده کاوی رو یاد بگیرم؟

 داده کاوی کجاها کاربرد داره؟

  و …

شما با خوندن این مقاله متوجه می‌شید که آیا داده کاوی رو می‌تونید به عنوان شغلی برای آینده انتخاب کنید یا نه و اگر داده کاوی رو انتخاب کردید چطوری می‌تونید مهارت‌های مورد نیاز برای این کار رو بدست بیارید.

بعد از یک معرفی کوتاه از داده کاوی، با یکی از متخصصین این حوزه مصاحبه خواهیم کرد و خواهیم فهمید که چه مسیری رو برای شروع داده کاوی در مشاغل مختلف باید طی کنیم.

پس با ما همراه باشید تا داده کاوی رو بهتر بشناسیم.

داده کاوی یا data mining چیست؟

داده کاوی علمیه که به ما کمک می‌کنه بدونیم چطوری میشه داده‌ها رو پیدا و دسته‌بندی کرد، به طوری که در مراحل بعد قابل آنالیز و تحلیل باشند.

در واقع، دیتا ماینینگ به زبان ساده، استخراج اطلاعاتیه که میشه با استفاده از اون‌ها، رفتارها و الگوریتم‌هایی شکل داد تا بتونیم مسائل رو بهتر حل کنیم.

کاربردهای داده کاوی یا دیتا ماینینگ چیست؟

در دنیای امروز رقابت بین شرکت‌های بزرگ بسیار سخت و پیچیده شده. به همین دلیل این شرکت‌ها سعی می‌کنن که با به دست آوردن داده‌ها آینده رو ببینن و با کمک داده کاوی، بر رقبای خودشون غلبه کنن.

پس یک نکته‌ی مهم در تحلیل داده و داده کاوی اینه که خیلی از شرکت‌ها بهش احتیاج دارن تا بتونن پیشرفت کنن.

پس دیتا ماینینگ در خیلی از حوزه ها ورود پیدا کرده مثل:

 آموزش – مدیریت ارتباط با مشتریان –  بازاریابی –  پزشکی –  بانکداری –  بورس –  و……

به نظر می‌رسه در داده کاوی فرصت‌های شغلی زیادی وجود داره که کمتر بهش توجه شده.

 

فواید داده کاوی

دیتا ماینینگ برای گروه‌های مختلف می‌تونه فواید و کارایی متفاوتی داشته باشه.

داده کاوی برای شرکت‌های بزرگ می‌تونه رفتار مشتری رو تحلیل کنه و بزرگتر شدن شرکت رو سرعت ببخشه یا به سازمان‌های آموزشی در بالاتر بردن کیفیت تدریس کمک کنه و خیلی کارهای متفاوت و ضروری دیگه.

نرم افزارهای داده کاوی

برای داده کاوی از نرم افزار های مختلفی میشه استفاده کرد از جمله:

Rapidminer– Oracle Data Mining– SPSS Modeler–Orange
KNIME–PYTHON–R–WEKA

در ادامه در مصاحبه با متخصص این رو متوجه می‌شیم که در داده کاوی از کجا و از چه نرم افزار داده کاوی باید شروع کنیم و کدوم راه برای ما مناسبه.

سلام لطفا خودتون رو معرفی کنین؟


سلام من ایمان نظری هستم. برای دانشگاه به تهران اومدم. رشته‌ی مهندسی برق دانشگاه شریف خوندم. انتخابم به خاطر علاقه‌ی زیاد به برق نبود. بیشتر به خاطر این بود که رتبه‌ی خیلی خوبی آوردم، همه گفتن برو رشته‌ی برق و من هم همین کارو کردم.

همون اولین ماه‌ها فهمیدم که به برق علاقه ندارم و خیلی دنبال راه جایگزین می‌گشتم.

خیلی گشتم و مطالعه کردم. به رشته‌ی Data science علاقه‌مند شدم و بعد از آخرین روز دانشگاه توی همین حوزه، در شرکت هاب ( هوشمند اول بهشتی)، مشغول به کار شدم. این شرکت زیر مجموعه‌ی همراه اول و دانشگاه شهید بهشتی هست.حدود یکسال و نیم هست که به عنوان Data scientist دارم توی این مجموعه کار می‌کنم.

قبل از دانشگاه و در دوران راهنمایی توی تابستان دم مغازه فروشندگی می‌کردم. در طول زمان دانشجویی هم چندتا سایت وردپرس برای کسایی که لازم داشتن درست کردم.

اول از همه می‌خوایم بدونیم داده کاوی رو از کجا شروع کردی؟ میشه برای ما توضیح بدی که جرقه‌ی شروع کار در حوزه‌ی دیتا ماینینگ از کجا خورد؟
یکسری سلسله جلسات حول محور تکنولوژی‌های جدید و بازارهای مالی در شریف برگزار می‌شد.

مدرس دوره آقای وحید شیرازی بود که توی وبلاگم چندبار درباره‌ی ایشون نوشتم.

ایشون توی این جلسات می‌گفت که کلی شرکت‌ها و بیزینس‌های جدید با استفاده از Data science ایجاد شدند.

کلی شرکت هستند که می‌تونن در بورس با Machine learning معامله کنند.

Google تونسته با Data science همه‌ی رقبا رو تقریبا حذف کنه و کلی مثال دیگه.

اون زمان من خیلی به این موضوع علاقه‌مند شدم و به همین خاطر ترم بعدش درس هوش مصنوعی برداشتم.

البته تقریبا به دردم نخورد. بعد از اون می‌رفتم از گوگل می‌گشتم و منابع رو پیدا می‌کردم و می‌خوندم.

در اواسط دوران دانشجویی آگهی یک  Summer school در ارمنستان رو دیدم که شرکت wolfram آمریکا این دوره رو برگزار می‌کرد.

Apply کردم، یک مصاحبه‌ی Skype داشتیم. قبول شدم و برای دو هفته به اونجا رفتم.

یک برنامه‌ی فشرده‌ی دوهفته‌ای که از ۸ صبح تا ۹ شب در حال انجام پروژه‌ها بودیم.

به این صورت بود که همون روز دوم باید پروژه‌ای رو انتخاب می‌کردیم و من یک پروژه حول Machine learning انتخاب کردم که در حوزه‌ی Data science حساب میشه.

با استادهایی که اونجا بودن، کل این مدت رو کار کردیم و کلی چیز ازشون یاد گرفتم. در طول این دوره تونستم پروژه‌ای رو برای تشخیص احساسات از روی چهره انجام بدم.

در این پروژه، عکس از روی وب کم خونده می‌شد و احساسات شخص رو تشخیص می‌داد.

این در واقع اولین پروژه‌ی عملی بود که در حوزه داده کاوی انجام دادم.

این دوره به من این اعتماد به نفس رو داد که می‌تونم توی این حوزه کار عملی انجام بدم.

بعد خودم می‌رفتم توی حوزه‌های مختلف کار انجام می‌دادم.

مثلا رفتم روی آمار بیکاری آمریکا کار کردم. بعد روی بورس یه مقدار تلاش کردم که زیاد نتیجه نداد.

بعد با همین رزومه که چندتا کار انجام داده بودم به شرکت هاب معرفی شدم و اونجا کارم رو به عنوان Data scientist شروع کردم.

خیلیا می‌خوان بدونن دیتا ماینینگ به زبان ساده چه مفهومی داره؟

Data mining یا همون داده کاوی، اصطلاح قدیمی در این حوزه هست.

اصطلاح داده کاوی در سال ۱۹۹۶ مطرح شد.

اون زمان شرکت‌ها، تازه شروع به وارد کردن دیتاها در دیتا بیس‌ها کرده بودند و در داده کاوی بحث این بود که از این داده‌ها، علم و دانش به دست بیاریم و داده‌ها رو به داد‌ه‌های فرآوری شده تبدیل کنیم.

سال ۲۰۰۱ به دلیل اینکه Computer science و Data mining با هم در روند کار ترکیب می‌شدند، کلمه Data science تشکیل شد.

Data science این مسئله رو می‌رسونه که ما با استفاده از علم کامپیوتری که داریم، بیایم داده کاوی رو به شکل جدیدی انجام بدیم.

در اون زمان، حجم داده‌ها شدیدا در حال افزایش بود. برای همین به علم کامپیوتر هم بسیار احتیاج می‌شد و این از اولین جاهایی بود که این دو مقوله باهم ترکیب می‌شدند.

وقتی که قرار بود داده‌ها فرآوری بشوند، به علم کامپیوتر نیازی مبرمی داشتند که تازه حوزه‌ی Data science شکل گرفت.

یکی از معروف‌ترین تکنیک هایی که توی Data science استفاده میشه و گل سرسبد این حوزه هست، AI یا دقیق‌ترش  Machine learning و دقیق‌ترش Deep learning هست.

AI مخفف Artificial Intelligence هستش یعنی شما یک هوش مصنوعی درست کنید که بتونه تصمیم بگیره یا پیش بینی کنه.

یک تکنیک دقیق‌ترش Machine learning میشه که ما از شبکه‌های عصبی مصنوعی برای این کار استفاده کنیم.

این تکنیک براساس یکسری فعل و انفعالاتی هست که توی مغز اتفاق میوفته و سعی می‌کنه نورون‌های مغزی رو به شکل معادلات ریاضی برداری دربیاره.

باز اگر بخواهیم ریزتر بشیم،  به Deep learning می‌رسیم.

در Deep learning به این صورت هست که ما از تعداد زیادی از این نورون‌ها به صورت پشت سرهم استفاده می‌کنیم.

قبلا این امکان وجود نداشت و وقتی از تعداد زیادی از این نورون‌ها استفاده می‌کردیم، شبکه Fail می‌کرد؛ بخاطر اینکه نه دیتا و نه توان محاسباتی زیادی داشتیم.

این مسئله با افزایش دیتاها و پیشرفت تکنولوژی میسر شد و تونستیم از شبکه‌های عصبی عمیق هم استفاده کنیم.

مثلا یکی از کاربردهای این شبکه عصبی عمیق، ایجاد خودران‌های خودرو هست.

این سیستم می‌تونه همه چیز رو تشخیص بده و مشخص کنه که چه مسیری باید طی بشه.

در تشخیص صداهایی مثل Siri یا گوگل، این شبکه‌های عصبی عمیق هستند که صحبت ما رو تبدیل به متن می‌کنند؛ حتی اون متن رو پردازش می‌کنند تا تبدیل به یک عمل بشه.

دیتا ماینینگ در کل در چه حوزه‌هایی به درد می‌خوره؟


در واقع دیتا ماینینگ در جاهایی که خیلی معروف هست مثل تشخیص صدا، خودران‌ها، تشخیص چهره، تشخیص اشیا و … کاربرد داره.

مثلا من نمیتونم به کامپیوتر بگم که اگر جایی چیزی با زاویه ۱۵ درجه بالای یک گردی دید، اون ابرو هست. برای این جور موارد قانون سفت و سخت نمیشه گذاشت. در این جاهایی که ما هم نمیدونم باید چطوری عمل کنیم، کار رو به ماشین‌ها می‌سپریم.

برای کامپیوتر مسیری تعیین می‌کنیم که این موارد رو ببینه. در واقع ما با این کار داده‌ها رو وارد سیستم می‌کنیم. در انتها هم خود ماشین تصمیم می‌گیره بر اساس این داده‌ها چطوری در آینده تصمیم گیری کنه.

به همین دلیل هست که هرچه داده‌های ما از داده کاوی انجام شده، بیشتر باشه، نتیجه‌ی بهتری خواهیم گرفت.

علم داده به همین دلیل گستره‌ی فراوانی از کارها رو در بر می‌گیره. مثلا در بازار سرمایه و در بورس به کار میاد که کجا بخرم، کجا بفروشم، کجا داره اتفاقات عجیب و خاصی میوفته و …

این نکات رو میشه با تحلیل داده‌ها به دست آورد.

توی بحث تشخیص چهره، آدم‌ها رو می‌شناسه و حالات صورتشون رو تشخیص میده. بعدها احتمالا بر اساس حالات چهره، دروغ گفتن یا نگفتن فرد رو می‌تونه تشخیص بده.

در تبدیل صدا به متن و یا پردازش متن از داده کاوی استفاده میشه. مثلا در خوندن خبر افراد ظرفیت محدودی دارن و نمی‌تونن همه‌ی خبرها رو رصد کنن.

 در علم داده، سیستمی بر اساس Machine learning وجود داره که می‌تونه توی یک ثانیه ۱۰۰تا خبر بخونه و بگه که احتمالا این خبر به موضوع خاصی مرتبط هست و جذاب‌تر اینکه این خبر، خبر مثبت یا منفی در اون حوزه هست.

تقریبا هر چیزی که ما انسان‌ها به شکل کار تخصصی بهش نگاه می‌کنیم، در آینده می‌تونه تبدیل به کار ماشین بشه.

یکی دیگه از موارد جالب recommender systemها هست مثل ویدیوهایی که در قسمت سمت راست، در YouTube وجود داره.

این هم کار متخصص داده کاوی هست که اون ویدیوهای پیشنهادی رو چه چیزهایی بذاره که احتمال اینکه شما روش کلیک کنید خیلی زیاد بشه.

 به همین دلیل هست که یوتیوب معروف به اینه که مثل گرداب می‌مونه که وقتی توش میری دیگه هیچ وقت بیرون نمیای.

با توجه به این موضوعات، نمیشه گفت که داده کاوی در حوزه‌ی خاصی کار می‌کنه بلکه هرجایی که نیاز به تصمیم گیری، پیش بینی و تحلیل‌های گذشته باشه، این سیستم‌ها کارایی دارند.

آیا در ایران کاری به اسم متخصص داده کاوی وجود داره و شرکت‌ها به دنبال فردی با این تخصص هستند؟

می‌تونم بگم که آره شرکت‌ها متخصص داده کاوی می‌خوان ولی یک موضوع مهم اینه که تمام این مثال‌هایی که گفتم بیشتر در حوزه‌ی Machine learning بود و این حوزه همه‌ی مباحث علوم داده نیست.

اتفاقا در ایران قسمت کوچکی از کار داده کاوی رو در برمی‌گیره.

داده کاوی قسمت‌های دیگه‌ای هم دارد. ممکنه با یکسری داده‌ها و تحلیل‌های آماری ساده به اطلاعاتی دست پیدا کرد که اتفاقا تاثیر عمیقی روی سیستم بذارن.

مثلا شرکتی یک کمپین تبلیغاتی راه میندازه. کمپینی که مدیر برای اون چندصد میلیون خرج کرده ولی نمی‌دونه کاربرها در سایت چیکار کردن.

یک متخصص داده کاوی باید دست راست مدیر باشه که مسیر کاربرها رو کاملا تحلیل کنه و میزان سود و یا ضرر شرکت از این کمپین‌ها رو  اعلام کنه و برای کمپین‌های آتی بتونه راه‌حل‌های مناسب ارائه بده.

در این حالت یک نفر باید داده‌ها رو جمع آوری و ذخیره کنه. این مورد رو بهش میگن مهندسی داده که بحثش در مورد این هست که چطوری مقدار زیادی از داده رو در زمان کم پردازش کنم.

مثلا سایت Facebook تعداد داده‌های وارد شده بهش زیاد هست و به تعداد زیادی مهندس داده احتیاج داره تا بتونه به فرد به سرعت پاسخ بده. مهندس داده تقریبا قسمت سخت افزاری کار رو انجام میده.

قسمت بعدی، تحلیل رفتاری ساده هست.

توی این قسمت فرد تحلیل می‌کنه که افراد چه کارهایی انجام دادن و شرکت چقدر به اهدافی کهمد نظرش بوده، رسیده.

مثلا در بعضی موارد چند سناریو طراحی میشه تا ببینیم کدوم سناریو بهتره و کدوم ارزش بیشتری تولید می‌کنه.

قسمت تحلیل‌های ساده، قسمت اعظم داده کاوی در کل دنیاست که در ایران هم پررنگ‌تره.

اما Deep learning قسمتی هست که بیشتر خبرساز میشه و برای مردم جذابیت داره.

در ایران بخش Deep learning، کمتر کارایی داره.

اولا چون شرکت‌ها اونقدر دیتا ندارن که بخوان این کار رو انجام بدن.

دوما حتی اگر حجم خوبی از دیتا رو هم داشته باشن، در قسمت‌های پایینی مثل تحلیل ساده، اونقدر مشکل دارن که هنوز از لحاظ اقتصادی بهتره این معضلات رو برطرف کنن و تحلیل ساده انجام بدن.

به این دلایل احتیاج به سیستم تحلیلی عمیق و  Machine learning در ایران تقریبا کمه.

خبر خوب اینه که شرکت‌های زیادی هستن که برای تحلیل‌های نه چندان سخت، احتیاج به فردی دارند که در حوزه‌ی داده کاوی متخصص باشه.

از توانایی‌هایی که برای متخصص داده کاوی مهم هست، میشه به:

  – قدرت انجام تحلیل‌های آماری

  – داشتن تفکر نقّادانه

  – و کمی هم دانستن بیزینس

اشاره کرد که شرکت‌های زیادی هستن که به افرادی با این ویژگی‌ها احتیاج دارن.

به نظرت کسایی که رشته‌ی دانشگاهی‌شون هیچ ارتباطی به داده کاوی نداره و یا کلا از دیتا ماینینگ هیچی نمی‌دونن، می‌تونن وارد مراحل یادگیری داده کاوی بشن؟

یک رشته‌ به اسم علوم داده وجود داره که دقیقا روی این حوزه، در مقطع ارشد وجود داره. من سیلابس و منابع رشته‌ی علوم داده رو ندیدم و نمی‌تونم قضاوت کنم.

 اگر قرار باشه که من یک درس از دانشگاه رو بگم که به درد کار داده کاوی می‌خوره، آمار و احتمال هستش که اکثر بچه‌های مهندسی می‌گذرونن.

به نظرم خیلی مسئله‌ی مهمیه و خیلی از مواردی که در آمار نیاز داریم رو پوشش میده.

البته خیلی مسائل هست که توی دانشگاه‌ها درس داده نمیشه مثل داشتن تفکر نقّادانه. من بعضی وقتا تحلیل‌هایی رو از بچه‌ها می‌بینم که مثلا هر وقت این اتفاق افتاده، در نتیجه اتفاق فلان هم افتاده. بعد نگاه می‌کنم که فرد اصلا توجه نکرده که داده‌های ورودی این قضیه‌ی چه شکلیه یا اصلا خوب فکر نکرده که این مقدار داده اصلا قابل تعمیم هست یا نه.

بچه‌ها توی خیلی از این موارد ابتدایی و ساده ضعف دارن. توی آمار در دانشگاه شاید بهتر باشه در کنار فرمول‌هایی که آموزش داده میشه، تفکر انتقادی هم آموزش داده بشه.

داشتن دانش بیزینسی هم خیلی می‌تونه کمک کنه مخصوصا به کسایی که می‌خوان در قسمت تحلیل‌های نسبتا ساده‌‌ای که گفتم کار کنن.

البته منظور از تحلیل ساده، این نیست که کار ساده‌ای باشه بلکه پیچیده هم هست ولی بیشتر روی آنالیز داده‌ها متمرکزه.

معمولا افرادی که در این قسمت کار می‌کنن، باید با مدیرهای اجرایی ارتباط نزدیکی داشته باشن تا بتونن در کنار هم کارهاشون رو جلو ببرن.

در این موارد متخصص داده کاوی باید بتونه، رابط مدیر با داده‌های بدست اومده باشه.

پس اگر متخصص داده کاوی یک دید بیزینسی هم داشته باشه، می‌تونه بیشتر از حد تصورات برای سیستم مفید باشه.

من خودم با مدرک کارشناسی برق، سر کار ر فتم. در مقطع کارشناسی، آنچنان رشته‌ی خاصی برای حوزه‌ی دیتا ماینینگ وجود نداره.
معمولا افراد، با مدرک کارشناسی توی داده کاوی کار می‌کنن و طبیعتا کسی از شما انتظار نداره که مدرک خاصی داشته باشین.

رشته‌هایی مثل:

  • نرم افزار
  • سخت افزار
  • IT
  • علوم کامپیوتر
  • و تقریبا همه‌ی رشته‌های مهندسی

می‌تونن وارد این حوزه مخصوصا توی قسمت آنالیزش بشن.

ولی اگر می‌خوان وارد قسمت Machine learning و Deep learning بشن، معمولا باید ارشد داشته باشن.


شرکت‌های خارجی دوست دارن که حتی شما دکتری این حوزه رو داشته باشین و حتما توش تجربه داشته باشین. حق هم دارن چون این موارد، کارهای بسیار پیچیده‌تریه.

برای یادگیری این حوزه، دوره‌های مختلفی در این حوزه در اینترنت هست.  سایت هایی مثل  Coursera و edX و udacity هستند که دوره‌های این چنینی دارند.

Coursera دوتا از معروف‌ترین دوره‌های این حوزه رو داره.

یکی برای آقای Geoffrey Hinton هست به اسم Neural networks in machine learning که کلاسش رایگانه.

یکی دیگه هم برای آقای Andrew Ng به اسم Deep learning هست.

افرادی هستند که می‌خوان آموزش داده کاوی رو شروع کنن. به نظرت مسیر تبدیل شدن به یک متخصص دیتا ماینینگ چیه؟ چه مهارت‌ها و چه نرم افزارهایی برای داده کاوی باید بلد باشیم.

این مسئله در هر کدوم از ۳ بخشی که توضیح دادم متفاوته.

در حالت اول که بخش مهندسی داده بود، معمولا باید بچه‌های نرم افزاری و سخت افزاری باشن. به این دلیل که بتونن با سیستم‌های کامپیوتری کارهای پیشرفته‌ای انجام بدن.

این گروه معمولا لازم دارن که با نرم افزارهای مثل:

  • hadoop
  • Spark

کار کنن و به دیتابیس‌ها و برنامه نویسی مسلط باشن.

این شد برای مهندس داده که وظیفه‌اش ذخیره سازی حجم زیاد دیتا هست.
قسمت دوم که کارش آنالیز داده‌ها بود، دونستن آمار و احتمالات و کمی برنامه نویسی لازمه.

توی این قسمت نرم افزارهای زیادی استفاده می‌شن ولی به طور معمول:

  • پایتون
  • R

زبان‌های اصلی در حوزه‌ی آنالیز هستن.

R برای تحلیل‌های آماری استفاده میشه و پایتون هم برای برنامه نویسی و هم برای تحلیل‌های آماری کاربرد داره.

قرار نیست که از اول از اینا شروع کنید و احساس کنید که سخته.

من خودم اول از زبان Woolfram شروع کردم. یک زبانی هست که شاید خیلی‌ها اسمش حتی به گوششون هم نخورده باشه. توی نرم افزار Mathemathica کد می‌زدم.

خود نرم افزار Mathematica ابزار خوبی برای کارهای آماری و نمایش داده‌ها داشت.

بعدا هم رفتم روی پایتون کار کردم و کار می‌کنم که بتونم باهاش برنامه نویسی هم انجام بدم.

اطلاعات کلی از دیتابیس در این قسمت هم خیلی می‌تونه کمک کنه.

یک مهارت نرمی که خیلی اینجا لازمه تفکر نقّادانه یا همون Critical thinking هست. بعضی وقتا لازمه که تو سخت گیرانه به دیتاهایی که داری نگاه کنی تا یه وقتی گمراه نشی و مدیران شرکت رو هم گمراه نکنی.

خوب هست که دید کلی در بیزینس و کارهای مدیریتی داشته باشین.

البته یک مسئله‌ی مهم هم این هست که توانایی ارتباطی خوبی باید داشته باشین چون باید یک نفر رو نسبت به موضوعی قانع کنین که با توجه به داده‌ها این کار خوبه یا این کار بده. برخلاف تصور عامه که فکر می‌کنن متخصص داده کاوی یه گوشه‌ای نشسته و فقط با کامپیوتر سر و کار داره، اتفاقا افراد در این حوزه، احتیاج به مهارت ارتباطی بالایی دارن.

اون قسمت Deep learning و Machine learning، نیاز به اطلاعات ریاضی سفت و سختی داره. معادلات جبری و آماری سنگینی در این قسمت استفاده میشن.

کسی که در این حوزه می‌خواد که کار کنه باید فهم عمیقی از این موضوعات داشته باشه.

خیلی از افرادی که به این حوزه میان رشته‌شون ریاضی یا فیزیک بوده، چون احتیاج به محاسبات سنگینی داره. شاید مجبور باشین یک معادلاتی رو RUN کنین و یک هفته بعد بیاین ببینین که نتیجه‌ی این محاسبات چی شده.

توی این مقام هم لازمه که برنامه نویسی بلد باشین. البته نه در حد زیاد فقط در حدی که ابزارهای Machine learning دنیا مثل:

  • Tensorflow
  • keras
  • Open CV

رو بشناسین و بتونی با این‌ها چیزهایی که می‌خواین رو پیاده کنین.

یک فهم کلی از دیتابیس در این قسمت هم لازمه.

توی داده کاوی باید حتما برای جایی کار کنیم یا می‌تونیم به صورت فریلنسر یا شرکت خصوصی کار کنیم؟ و اگر می‌تونیم این کار رو بکنیم چطوری و از کجا باید اقدام کنیم؟

در حوزه‌ی داده کاوی طبیعتا هر سه نوع کار کردن وجود داره ولی در حالت‌های مختلف درجه‌شون فرق می‌کنه.

مثلا در مهندسی داده فریلنسر خیلی زیاده چون خیلی از شرکت‌ها می‌خوان یک زیرساخت بسازن که بتونن این حجم از پردازش رو مدیریت بکنن.

مهندس داده یکبار اینو می‌سازه که می‌تونه به صورت فریلنسر یا شرکت باشه. فرد می‌تونه شرکتی بزنه که کارش تامین این زیرساخت‌ها باشه یا به صورت فریلنسر کار کنه.

در همین حالت هم شرکت‌ها برای تامین زیرساخت و پشتیبانی فردی رو استخدام می‌کنن.

در بخش آنالیز هم خیلی از شرکت‌ها هستن که نرم افزار تحلیل داده می‌سازن. من زیاد در مورد فریلنسرهای این حوزه اطلاعی ندارم و ندیدم زیاد کسی در این بخش کار فریلنسری بکنه. توی این قسمت استخدامی خیلی زیاد دیدم.

در قسمت Deep learning من فریلنسر کم دیدم چون کاری که قراره صورت بگیره یک کار طولانیه. این کار لزوما جواب نهایی نداره که شرکتی کار رو به فریلنسر بده و رهاش کنه. در این قسمت هم بخش استخدامی و هم شرکت زدن مرسومه.

شرکت زدن توی این حوزه جالبه مخصوصا توی آمریکا این اتفاق زیاد میوفته.

مثلا افراد یک شرکت رو تاسیس می‌کنن و نشون میدن که توانایی‌هایی دارن. هیچ استفاده‌ای لزوما از شرکت ندارن ولی با اون توانایی‌ها خیلی از مواقع شرکت‌های بزرگ این شرکت‌ها رو می‌خرند و افراد از این راه کسب درآمد می‌کنن.

یکی از معروف‌ترین مثال‌هاش هم شرکت Deep Mind هست.

شرکتی بود که در حوزه‌ی Deep learning کار می‌کرد و چندسال پیش گوگل این شرکت رو خرید.

در اخبار هم خیلی سر و صدا کرد و گفته شد که این خرید بعد از خرید اندروید و Adwords بهترین خرید گوگل بوده. 

چه آینده‌ی شغلی رو برای داده کاوی در ایران و جهان متصور هستی؟

داده کاوی در ایران، شاید در حال حاضر یک مقدار ضعیف باشه ولی خیلی داره پیشرفت می‌کنه.

من حدود یک سال پیش با دکتر اخلاق پور صحبت می‌کردم. دکتر اخلاق پور، خودشون یکی از متخصص‌ترین افراد ایرانی و حتی جهانی در این حوزه هستن.

ایشون استارتاپ در حوزه‌ی هوش مصنوعی در بخش پزشکی در آمریکا ایجاد کرده بودن و استارتاپ کاملا موفقی هم بود.

دکتر اخلاق‌پور در حال حاضر یکی از موسس‌های استارتاپ استادکار هستن.

من از ایشون پرسیدم که شما با اینکه در اوج تکنولوژی دنیا استارتاپ موفق داشتین چرا اینجا اومدین و در حوزه‌ی خدمات که کار غیر تکنولوژیکی هست کار می‌کنین.

اون زمان ایشون گفتند که با خیلی از شرکت‌ها در مورد داده کاوی و علم داده صحبت کردن و به نتیجه نرسیدن.

ولی شرکت‌های بزرگ ما که داده دارن و نمی‌دونستن که باید ازش استفاده کنن، دارن به این سمت گرایش پیدا می‌کنن.

دکتر اخلاق پور می‌گفتن که من نمی‌تونستم صبر کنم تا این‌ها به این مرحله برسن. خودم یک بیزینس زدم و از داده کاوی برای کمک به بیزینس‌ام استفاده می‌کنم.

در حال حاضر روز به روز شرکت‌های بیشتری به این سمت میان.

با اینکه کلمه Data science اولین بار در سال۲۰۰۱ مطرح شده، یک سال پیش بود که مجله‌ی کسب و کار هاروارد (HBR) یک مقاله با عنوان «Data science جذاب‌ترین شغل قرن ۲۱» چاپ کرد و از ابعاد مختلف مزایای این شغل رو بررسی کرد.

این شغل خیلی در حال رشده و دلیلش هم اینه که حجم داده‌ها روز به روز داره بیشتر میشه. این موضوع موجب شده که تقاضا برای متخصص داده کاوی در حالت‌های مختلف زیاد بشه.

از طرفی هم با بالا رفتن حجم داده‌ها تحلیل‌ها هم دقیق‌تر میشن و شاید به جایی برسیم که تجربه‌ی کامپیوترها اونقدر قوی بشه که خیلی از کارهای تخصصی رو دیگه به انسان نسپرن.

درآمد داده کاوی در ایران چقدره؟ به طور کلی این شغل در کسب و کارها جا افتاده؟

کسایی که در داده کاوی کار می‌کنن حقوق خوبی دارن چون کارشون سریع تبدیل به پول یا ارزش برای شرکت میشه و معمولا خوب پول می‌گیرن.

البته من آمار دقیق ندارم ولی فکر می‌کنم از حدود ۳٫۵ الی۴ میلیون شروع میشه به بالا.

چون هر شرکتی می‌تونه اعداد مختلفی بده، حقوق‌ها کاملا متفاوته. شرکت‌هایی در ایران هستن که خیلی اعداد بالایی در این حوزه میدن.

ما می‌دونیم که هرکاری سختی‌های خودشو داره، سختی‌هایی که خودت توی دیتا ماینینگ تجربه کردی چیا بوده.
از سختی‌ها و مشکلات داده کاوی به ما بگو.

یک مقدار ناشناخته بودن حوزه داده کاوی مشکلاتی رو به وجود میاره.

من خودم وقتی رفتم سر کار، دوست داشتم که روی Deep learning کار کنم ولی وقتی توی شرکت اومدم دیدم که کلی کار آنالیز هست که اول باید این‌ها رو انجام بدم.

البته چیز بدی هم نبود ولی چیزی که من انتظار داشتم نبود.

از طرفی، اگر مدیران شما ندونن که علم داده و داده کاوی چیه، خیلی وقت‌ها شما در شرکت سردرگم توی می‌شید.

خیلی وقت‌ها مدیر نمی‌دونه که از شما چی بخواد و اگر تو هم ندونی که چه چیزی رو باید به مدیر بدی، گیج میشی و شاید احساس کنی که اصلا مفید نیستی.

در مواردی پیش میاد که مدیر از شما انتظارات زیاد داشته باشه. مدیران فکر می‌کنن شما همیشه باید جواب نهایی و درست بدید ولی به این صورت نیست.

خیلی بستگی به مدیر داره ولی من خوش شانس بودم که مدیر خوبی داشتم که این حوزه رو خوب می‌فهمید.

معمولا کسایی که داده کاوی کار می‌کنن، چه چیز هیجان انگیزی به دست میارن؟
یکی از خوبی‌هایی که داره اینه که بعضی وقتا ما آنالیزهایی انجام میدیم و این آنالیزها به سرعت در شرکت خلق ارزش می‌کنه.

به نظرم این خیلی جذابه.

حالا من تبدیل به فردی شدم که داده کاوی بلده. بدون سابقه شغلی چطوری می‌تونم شغل پیدا کنم؟

توی این حوزه نمیشه گفت که من فلان مدرک رو دارم و باید یه جورایی با سابقه کاری خودتونو اثبات کنین.

این یعنی اینکه شما توی دور تجربه و کار می‌افتید. پیشنهاد من برای اینجا کارآموزیه.

من خودم اون دوره دوهفته‌ای رو رفته بودم و خودم برای خودم پروژه انجام می‌دادم. اینکه شما خودتون پروژه انجام بدید هم بد نیست ولی به نظرم اپلای کردن برای کارآموزی در یک شرکت راه خوبیه برای اینکه داده کاوی رو تجربه کنین.

یک برتری که کارآموزی داره اینه که شما با مسائل واقعی شرکت‌ها دست و پنجه نرم می‌کنین.

مثلا چون من این مرحله رو نرفته بودم، وقتی وارد شرکت شدم تا حدودی جا خوردم چون اون چیزی که از داده کاوی در ذهن من بود این نبود.

کارآموزی از لحاظ مهارت‌های ارتباطی هم خیلی کمک می‌کنه و شما در یک کیس واقعی تا حدودی مجبورین با مدیران در ارتباط باشین که قطعا می‌تونه تجربه‌ی مفیدی باشه.

افراد یا شرکت‌های موفق در حوزه‌ی داده کاوی رو معرفی می‌کنی؟

توی حوزه‌ی داده کاوی، افراد زیادی رو در ایران نمی‌شناسم فقط دکتر اخلاق پور رو می‌شناسم و خیلی هم ایشون رو قبول دارم.

در دنیا باز به دلیل اینکه بمب‌های خبری در حوزه‌ی Deep learning هست، آدم‌های معروف این حوزه معمولا افرادی هستن که در این حوزه کار می‌کنن.

سلبریتی این حوزه Andrew Ng هست که گفتم یک دوره هم در Coursera داره.

یک کتاب خوبی هم به اسم Machine learning yearning داره و حول این هست که این حوزه رو چطوری جلو ببریم.

دونفر دیگه هم توی این حوزه خیلی قوی هستن.

یکی Geoffrey Hinton هست که ایشون هم در Coursera دوره‌ای در این حوزه دارن.

نفر بعدی هم Yann LeCun هست که توی این حوزه فرد قدرتمندی محسوب میشه.

از نظر شرکتی هم خیلی از شرکت‌ها به داده کاوی نیاز دارن مخصوصا شرکت‌هایی که اطلاعات و دیتاهای زیادی دارن.

ولی طبق معمول بزرگ‌ترین شرکت در حوزه‌ی داده کاوی Google هست.

هر شغلی روحیات مختلفی رو می‌طلبه، کار داده کاوی با چه روحیه‌ای سازگارتره؟

یک روحیه‌ای که خیلی مهمه اینه که بتونی ابهام رو قبول کنی.

از طرفی یک ذهن پرسش‌گر هم لازمه که از این دریای دیتایی که وجود داره، پیدا کنه که کدوم‌ها می‌تونن کمکش کنن.

خوبه که یه مقدار سلیقه داشته باشین چون در آخر باید این دیتاها رو در معرض نمایش بذارین. باید تا حد امکان این داده‌ها رو ساده و قابل فهم به نمایش بذارین و بتونین افراد رو در مورد یک موضوع قانع کنین.

مسیر یادگیری داده کاوی رو خیلی خلاصه بهمون توضیح بده. اینکه از کجا باید شروع به کار در حوزه داده کاوی کنیم و چه مسیری رو طی کنیم؟

واقعیت‌اش اینه که مسیر دقیقی برای این کار وجود نداره ولی میشه تا حدودی برای آشنایی اولیه مسیر مشخص کرد.

اول اینکه شما باید مشخص کنین قراره در کدوم قسمت از داده کاوی کار کنین.

     – مهندسی داده

    –  آنالیز داده

    –   Machine learning یا همون Deep learning

 مسیر هر کدوم تا حدودی متفاوته.

کسی که می‌خواد مهندس داده بشه، باید درس‌های سخت افزاری و نرم افزاری رو خوب بخونه و شاید اگر دانشگاه بره بهتره.

نرم افزارها رو مشخص کردم که چیا هستن ولی دوره‌های آموزشی برای hadoop و spark رو نمی‌شناسم ولی اگر بگردین قطعا پیدا می‌کنین.

اما در مهندسی داده بیشتر از اینکه مدرک مهم باشه، تجربه‌ست که اهمیت داره. مثلا اگر بتونین بگین دو یا سه بار زیرساخت رو ایجاد کردین، قطعا برای موقعیت‌های کاری می‌تونه خیلی با ارزش باشه. البته این مسئله توی اکثر کارهای کامپیوتری صادقه.

در قسمت آنالیز داده‌ها همون‌طوری که گفتم آمار و مقداری برنامه نویسی، تفکر انتقادی و تا حدودی مدیریت یا بیزینس لازمه. این موارد هیچ پیش نیازی نسبت به هم ندارن و میشه این‌ها رو در کنار هم پیش برد.

آمار و احتمال رو من خودم از دانشگاه یاد گرفتم. نمی‌دونم دوره‌هایی برای آموزش این مورد هست یا نه.

برای تفکر انتقادی اگر بخوام جایی رو معرفی کنم، میگم که قسمت تفکر انتقادی سایت متمم رو بخونین.

برای برنامه نویسی من خودم پایتون کار می‌کنم. من هیچ وقت دوره‌ی آموزشی پایتون نگذروندم.

هر موقع که پروژه‌ای برام تعریف میشد، می‌رفتم اون مورد رو یاد می‌گرفتم، مدل ساده شده‌ی طرح رو پیدا می‌کردم و کار می‌کردم تا مسلط می‌شدم. پس میشه بدون هیچ دوره‌ای این موارد رو یاد گرفت.

البته این رو هم بگم که تا حدودی الگوریتم نویسی رو من از قبل بلد بودم و با زبان‌های برنامه نویسی دیگه تا حدودی کار کرده بودم.

باز با این حال با سرچ کردن و گشتن در گوگل، الان به نسبت پایتون رو خوب بلدم.

یکسری ویدیو هم هست که نسیم طالب در یوتیوب خودش منتشر می‌کنه. اسمش رو Probability Moocs گذاشته که یه جورایی ترکیب تفکر نقّادانه و آماره که ویدیوهای جالبی هم هست. البته چیزی نیست که اگر ببینین کامل این موارد رو یاد بگیرین ولی دید خوبی بهتون میده.

در آخر نکته‌ای اگر در دیتا ماینینگ مونده که نگفتین، خوشحال می‌شیم که بشنویم.
یک نکته‌ای که پیش زمینه‌ی خیلی از مسائل هست، بلد بودن زبان انگلیسیه. باید سعی کنین زبان‌تون رو خوب کنین تا بتونین اطلاعات بیشتری رو استخراج کنین.

این نکته‌ای بود که البته در خیلی از جاها لازمه ولی میشه گفت در بحث داده کاوی و دیتا ماینیننگ به دلیل جدید بودن این حوزه، احتیاج بیشتری به زبان انگلیسی پیدا خواهید کرد.