مفهوم‌های اصلی آمار که تحلیل گران علم داده باید بدانند

آمار، ابزاری موثر و قدرتمند برای انجام تحلیل داده محسوب می‌شود. هر چند بعضی معتقدند که علم داده یک هنر محسوب می‌شود ولی در آن از ابزارات علمی بسیاری زیادی کمک گرفته می‌شود. آمار به عنوان شاخه‌ای از ریاضیات، در بسیاری از تحلیل‌های مربوط به علم داده به کار می‌رود. شیوه‌های «تصویری سازی داده‌ها» (Data Visualization) که به کمک نمودارهای آماری صورت می‌پذیرد یکی از مراحل اولیه در عملیات تحلیل داده‌ها در نظر گرفته می‌شود. به عنوان مثال نمودارهایی مانند «نمودار میله‌ای» (Bar Chart)، نمودار دایره‌ای (Pie Chart) و … از شیوه‌های نمایش داده‌ها به شکل تصویری هستند که امکان انتقال اطلاعات را با سرعت بیشتری به کاربران می‌دهند. به این ترتیب به جای حدس و گمان در مورد اطلاعاتی که داده‌ها به ما می‌دهند می‌توانیم آن‌ها را در نمودارهای ترسیم شده به راحتی ببینیم. استفاده از آمار، امکان دریافت عمیق‌تر و درک شهودی‌تری از داده‌ها و رفتارشان به ما می‌دهد. در نتیجه انتخاب روش و تکنیکی که باید در علم داده به کار گرفته شود،‌ راحت‌تر خواهد شد.

مفهوم‌های اصلی آمار

در این مطلب به بررسی پنج مفهوم یا روش آماری می‌پردازیم که هر تحلیل‌گر داده باید از آن اطلاع داشته تا در کارش بتواند موثرتر از قبل باشد. شیوه محاسبه بعضی از این شاخص‌های آماری در مطلب مفاهیم آماری – شاخص‌های توصیفی قابل مشاهده است.

1- شاخص‌های آماری

انواع ویژگی‌ها یا شاخص‌های آمار توصیفی به عنوان یک مفهوم، از اهمیت خاصی برخوردار است. شناخت از انواع شاخص‌های آماری و به کارگیری آن‌ها روی داده‌هایی که می‌خواهید تحلیل کنید، اولین گام در اجرای تکنیک‌های علم داده محسوب می‌شود. برای مثال اندازه‌های «میانگین» (Mean)، «اریبی» (Bias)، «واریانس» (Variance) و «چندک‌ها» (Quantiles) می‌توانند از شاخص‌های آماری محسوب شوند. در تصویر زیر به یک نمونه از نمودارهای آماری اشاره شده است که به مقایسه بعضی از این شاخص‌ها می‌پردازد. به این نمودار، «نمودار جعبه‌ای» (Boxplot) یا «جعبه و خط» (Box and Whisker) گفته می‌شود.

comparing statistical features

نمودار جعبه‌ای – Boxplot

این نمودار که اولین بار توسط دانشمند آمار «توکی» (Tukey) معرفی شد دارای دو بخش «جعبه» (Box) و «خطوط» (Whisker) است. خطی افقی که در وسط جعبه در نمودار دیده می‌شود، میانه است که نسب به میانگین به داده‌های پرت حساسیت کمتری دارد و مقاوم‌تر است. چارک اول که همان صدک ۲۵ام است یکی از خطوط افقی پایینی نمودار است که بیانگر نقطه‌ای است که ۲۵ درصد داده‌ها از آن کوچک‌تر هستند. از طرف دیگر چارک سوم نیز برابر با صدک ۷۵ است که نقطه‌ای را نشان می‌دهد که ۷۵ درصد داده‌ها از آن کوچکتر هستند. این مقدار توسط یک خط افقی در قسمت بالای جعبه قرار گرفته است. همچنین فاصله بین حداقل و حداکثر (بیشترین و کمترین مقدار) که انتها و ابتدای خط عمودی (Whisker) را تشکیل می‌دهند، دامنه تغییرات کل را برای داده‌ها محاسبه و نشان می‌دهد. به عنوان یک برآورد مقاوم در برابر داده‌های پرت، حداکثر میزان پراکندگی را می‌توان براساس «دامنه بین چارکی» (Inter Quartile Range) نیز محاسبه کرد. گاهی این مقدار را با IQR نشان داده و به نام «میان برد چارکی» نیز معرفی می‌کنند. طول جعبه در این نمودار همان IQR است. نمودار جعبه‌ای بطور کامل شاخص‌های آماری مهم و موثر را محاسبه و نمایش می‌دهد. برای درک بهتر این نمودار به نکات زیر دقت کنید.

 

  • اگر ارتفاع جعبه در این نمودار کوتاه باشد، متوجه می‌شویم که داده‌ها همگن و مشابه هستند زیرا تعداد زیادی داده در یک ارتفاع کوتاه قرار گرفته‌اند.
  • اگر قسمت جعبه‌ نمودار دارای ارتفاع زیادی باشد، خواهیم فهمید که پراکندگی در داده‌ها زیاد و دامنه تغییرات برایشان بزرگ است. بنابراین تنوع داده‌ها زیاد خواهد بود.
  • نزدیک بودن میانه (Median) به انتهای نمودار، بیانگر زیاد بودن تراکم داده‌ها در مقدارهای کم است. برعکس، اگر تمایل میانه به انتهای نمودار باشد، متوجه خواهیم شد که بیشتر داده‌ها، مقدارهای بزرگی هستند و تراکم داده‌های کوچک، کمتر است. هر دو این حالات، نشانگر وجود چولگی در داده‌ها است. همچنین اگر میانه درست در وسط نمودار قرار بگیرد، تقارن در داده‌ها وجود داشته و میزان چولگی صفر محسوب خواهد شد.
  • طولانی بودن «خطوط انتهایی» (Whiskers) (پایین‌تر از چارک اول و بالاتر از چارک سوم) بیانگر وجود واریانس یا انحراف استاندارد بزرگ است. بنابراین داده‌ها پراکندگی زیادی دارند. اگر یکی از خطوط انتهایی طولانی‌تر از دیگری باشد،‌ پراکندگی داده‌ها در آن جهت رخ داده است. برای مثال اگر خط انتهای بالایی نمودار کشیده‌تر از پایینی باشد، میزان پراکندگی داده‌های بزرگ بیشتر از داده‌های کوچک است.

همه این اطلاعات در یک نمودار ساده آماری جمع‌آوری شده است. این شیوه نمایش با وجود سادگی بیشترین اطلاعات را نشان می‌دهد که با دیدن خود داده‌ها هرگز بوجود نمی‌آمد. در حقیقت، هنر و اهمیت رسم نمودار در اینجا به وضوح دیده می‌شود.

2- توزیع‌های احتمال

معمولا به شکل ساده، احتمال را شانس رخداد یک پیشامد برحسب درصد بیان می‌کنند. در علم داده، این مقدار به جای درصد به صورت عددی بین ۰ تا ۱ مشخص می‌شود. مقدار ۰ برای احتمال، نشانگر عدم رخداد و مقدار ۱ نشان دهنده رخداد قطعی یک پیشامد است. در این حالت، توزیع احتمال، تابعی است که مقدار احتمال را برای هر پیشامد آزمایش تصادفی نشان می‌دهد.

توزیع یکنواخت (Uniform Distribution)

این توزیع، یکی از مهم‌ترین و کاربردی‌ترین توزیع‌های احتمالی در علم داده محسوب می‌شود. مقداری در فاصله پارامترهای این توزیع یعنی (a,b) را در نظر بگیرید. مقدار احتمال برای وقوع چنین مقداری برابر با $1/(b-a)$ است و برای هر مقداری خارج از بازه (a.b) مقدار احتمال برابر با صفر خواهد بود. پس به نظر می‌رسد نتیجه احتمال برای این توزیع به صورت دو مقداری است. این تابع احتمال را می‌توان به صورت تابعی دو ضابطه‌ای در نظر گرفت. به این ترتیب توزیع یکنواخت متغیر تصادفی X روی فاصله (a,b) به صورت زیر نوشته می‌شود.

 

$\large {\displaystyle f(x)={\begin{cases}{\frac {1}{b-a}}&\mathrm {for}\; \ a\leq x\leq b\\[8pt]0&\mathrm {for}\; \ x<a\ \mathrm {or} \ x>b\end{cases}}}$

اگر تعداد حالات مقداری که این توزیع می‌تواند اختیار کند بیشتر از ۲ حالت باشد، به شکل تابع چند ضابطه‌ای نوشته خواهد شد.

uniform distribution
تابع احتمال متغیر تصادفی یکنواخت در فاصله های ۱ تا ۶ و ۴ تا ۱۲

نکته: مشخص است که متغیر تصادفی یکنواخت معرفی شده در رابطه بالا، از نوع پیوسته محسوب می‌شود، زیرا تکیه‌گاه آن اعداد حقیقی است.

توزیع نرمال (Normal Distribution)

این توزیع احتمال به نام «توزیع گاوسی» (Gaussian Distribution) نیز شناخته شده است. پارامترهای این توزیع که توسط آن شناسایی می‌شود، میانگین ($\mu$) و انحراف استاندارد ($\sigma$) هستند. مقدار میانگین، پارامتری است که مکان توزیع احتمال را نشان می‌دهد و در مقابل انحراف استاندارد، مقیاس یا پراکندگی داده‌ها را کنترل می‌کند. خصوصیت متمایزی که این توزیع نسبت به توزیع‌های دیگر مانند توزیع پواسن دارد، یکسان بودن پراکندگی در دو طرف توزیع یا نسبت به میانگین است. به این ترتیب براساس این دو پارامتر محل تمرکز و همچنین متوسط میزان پراکندگی داده‌ها حول مرکز مشخص می‌شود.

می‌توان شکل تابع احتمال چنین متغیر تصادفی را به صورت زیر نوشت:

$\large {\displaystyle f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}}$

که در آن $\mu$ میانگین و $\sigma$ انحراف استاندارد توزیع است.

normal distribution
تابع احتمال نرمال با میانگین ($\mu$) و انحراف استاندارد ($\sigma$) مختلف

نکته: مشخص است که متغیر تصادفی نرمال معرفی شده در رابطه بالا، از نوع پیوسته محسوب می‌شود، زیرا تکیه‌گاه آن اعداد حقیقی است.

توزیع پواسن

شکل منحنی احتمال برای این توزیع به مانند توزیع نرمال است با این تفاوت که میزان پراکندگی نسبت به نقطه مرکزی در دو طرف منحنی یکسان نیست و دارای مقداری چولگی به سمت چپ است. به این ترتیب به نظر می‌رسد که تراکم داده‌ها در یک طرف زیاد و در طرف دیگر کم است. با افزایش پارامتر این توزیع، از میزان چولگی کاسته و به توزیع نرمال نزدیک می‌شود.

شکل تابع احتمال برای چنین متغیر تصادفی به صورت زیر است:

$\large {\displaystyle P(k{\text{ events in interval}})=e^{-\lambda }{\frac {\lambda ^{k}}{k!}}}$

poisson distribution
توزیع احتمال متغیر تصادفی پواسن با پارامترهای مختلف

نکته: برای این متغیر تصادفی، مجموعه مقادیر یا تکیه‌گاه، اعداد طبیعی هستند. در نتیجه آن را می‌توان یک متغیر تصادفی گسسته در نظر گرفت.

3- کاهش بعد

هرچند واژه «کاهش بعد» (Dimensionality Reduction) به نظر قابل فهم می‌آید ولی روش اجرای آن در آمار پیچیده و البته با بار محاسباتی زیاد همراه است. فرض کنید که با یک مجموعه داده مواجه هستید که دارای ابعاد زیادی است. در حقیقت در اینجا،‌ خصوصیات اندازه‌گیری شده برای هر مشاهده زیاد و گسترده است. روش کاهش بعد کمک می‌کند که با متغیرهای کمتری برای تحلیل‌های مربوط به علم داده‌ها مواجه باشید. برای آشنایی با این روش آماری، به تصویر زیر توجه کنید.

Dimension Reduction
روش‌های کاهش بعد

استفاده از ابعاد کمتر: فرض کنید مکعب بالا، مجموعه داده را در سه بعد نشان می‌دهد که گنجایش ۱۰۰۰ نقطه را دارد. یعنی هر نقطه می‌تواند با سه مولفه مشخص شود. با این حجم اطلاعات ممکن است محاسبات بسیار زمان‌بر و طولانی شوند. با توجه به نمایش اطلاعات به صورت دو بعدی، می‌توان رنگ‌ها را ملاک تفکیک نقاط در نظر گرفت. پس عملاً وجود بعد سوم برای طبقه‌بندی داده‌‌ها مناسب نیست. اگر از فضای دو بعدی به فضای یک خط (یک بعدی) داده‌ها توجه کنیم، گروه‌بندی مناسب، ممکن است با خطای قابل اغماض و بار محاسباتی کمتر، حاصل شود.

حدف ابعاد غیر مرتبط: شیوه دیگر برای کاهش بعد، با «هرس کردن ویژگی‌» (Feature Pruning) صورت می‌گیرد. ویژگی‌هایی که بیشترین پراکندگی را بیان می‌کنند، مشخصات موثر در شناخت داده‌ها محسوب می‌شوند. در بیشتر تحلیل‌های علم داده، به بررسی رابطه بین متغیرهای توصیفی (explanatory variable) و «پاسخ» (Respond) می‌پردازیم. بنابراین اگر بعضی از متغیرها یا ویژگی‌ها توصیفی دارای همبستگی کم با متغیر پاسخ باشند،‌ بهتر است که آن‌ها را حذف کرده و محاسبات را براساس متغیرهایی توصیفی انجام داد که بیشترین وابستگی را با متغیر پاسخ دارند.

روش تحلیل مولفه‌های اصلی: معمول‌ترین روش آماری برای کاهش بعد یک مسئله، استفاده از تکنیک تحلیل مولفه‌های اصلی (Principal Component Analysis) است. این روش به PCA معروف بوده و در روش‌های مربوط به علم داده‌ها، بسیار به کار می‌رود. با استفاده از این روش، ترکیب‌های خطی از متغیرهای توصیفی ایجاد می‌شود که بیشترین وابستگی را با متغیر پاسخ دارند. به هر یک از این ترکیبات، یک مولفه‌ می‌گویند. میزان همبستگی بین مولفه‌ها بسیار کم است بطوری که در اکثر موارد می‌توان آن را صفر در نظر گرفت. این شیوه کاهش بعد هر دو عمل قبلی که به عنوان تقلیل یا کاهش بعد معرفی شد را بصورت یکجا انجام می‌دهد.

4- بیش‌نمونه‌گیری و کم‌نمونه‌گیری

یکی از تکنیک‌ها و روش‌هایی که در مسائل طبقه‌بندی به کار می‌رود، روش «بیش‌نمونه‌گیری و کم‌نمونه‌گیری» (Over and Under Sampling) است. گاهی داده‌های طبقه‌بندی شده تمایل به قرارگیری در یک گروه را دارند. برای مثال فرض کنید ۲۰۰۰ مشاهده برای گروه ۱ و ۲۰۰ مشاهده برای گروه دوم در مجموعه داده ثبت شده‌اند. از روش «یادگیری ماشین» (Machine Learning) که یکی از تکنیک‌های علم داده محسوب می‌شود، برای شناسایی اعضای این دو گروه استفاده می‌کنیم. مشخص است وجود تعداد مشاهدات بیشتر در یکی از گروه‌ها، نتایج یادگیری ماشین را تحت تاثیر بیشتری قرار خواهد داد و برعکس گروهی که تعداد مشاهدات کمتری دارد، نمی‌تواند در نتایج تاثیرگذار باشد. برای روشن‌تر شدن موضوع به تصویر زیر توجه کنید.

over and undersampling

در هر دو تصویر سمت راست و چپ، گروه آبی دارای مشاهدات بیشتری نسبت به گروه نارنجی هستند. در این حالت، دو روش پیش‌پردازش برای انجام مراحل مدل یادگیری ماشین وجود دارد.

کم‌نمونه‌گیری: کم‌نمونه‌گیری به معنی انتخاب تعداد مشاهدات از گروه اکثریت به تعداد گروه اقلیت است. در حالی‌که تعداد این نمونه باید با توجه به تابع احتمال انجام شود. به این ترتیب نقش گروه نارنجی و آبی در برآوردها یکسان خواهد شد.

بیش‌نمونه‌گیری: بیش‌نمونه‌گیری به معنی ایجاد نسخه‌هایی از گروه اقلیت است تا بتوان تعداد اعضای نمونه را برای گروه آبی و نارنجی یکسان در نظر گرفت. این کار را می‌توان به صورت نمونه‌گیری با جایگذاری یا بازنمونه‌گیری انجام داد.

5- آمار بیز

اگر درک درستی از آمار بیز و روش‌های آن داشته باشیم، متوجه می‌شویم که در چه جاهایی آمار برمبنای فراوانی دچار مشکل می‌شود. آمار برمبنای فراوانی (Frequency Statistics) شاخه‌ای از آمار است که بیشتر به نام احتمال شناخته شده است. در این بخش به محاسبه احتمال برای پدیده‌ها پرداخته می‌شود و فقط از اطلاعات مشاهده شده در مورد آن پدیده استفاده شود.

برای مثال، پرتاب یک تاس را در نظر بگیرید. اگر بخواهیم احتمال مشاهده ۶ را در پرتاب این تاس محاسبه کنیم کافی است که برای مثال ۱۰ هزار بار آن را پرتاب کرده و تعداد دفعاتی که شش مشاهده شده را بر ۱۰هزار تقسیم کنیم. با استفاده از این روش مقدار احتمال مشاهده عدد شش روی تاس تقریبا برابر $\tfrac{1}{6}$ خواهد شد. اما اگر کسی به شما بگوید که این تاس بخصوص، به شکلی ساخته شده که بیشتر عدد شش مشاهده شود، احتمال مشاهده ۶ را چند محاسبه می‌کنید؟ از آنجایی که در محاسبه احتمال برمبنای فراوانی، به مشاهدات تکیه می‌شود، از اطلاعات اضافه‌ای که در اختیارتان قرار داده شده، استفاده‌ای نخواهد شد.

برعکس در آمار بیز احتمال رخداد یک پیشامد، علاوه بر مشاهدات به اطلاعاتی اضافه‌ای که وجود دارد نیز پرداخته می‌شود. بنابراین شکل محاسبه احتمال برمبنای بیز به صورت احتمال شرطی است.

Bayesian probability

همانطور که دیده می‌شود احتمال پیشین یعنی $P(H)$، اطلاعاتی است که از قبل در مورد پیشامد وجود داشته و از طریق آزمایش‌های قبلی بوجود آمده است. $P(E|H)$ احتمالی است که با توجه به شواهد جمع‌آوری شده توسط داده‌ها بوجود آمده است و نشان می‌دهد که احتمال مطابقت مشاهدات با فرضیه H چقدر است. این قسمت شاهدی برای مطابقت داده‌های جمع‌آوری با فرض H است. همچنین در مخرج نیز احتمال حاشیه‌ای برای پیشامد E بدست آمده است. در اینجا هدف محاسبه احتمال پسین است، یعنی محاسبه احتمال H با توجه به شرایط و فرضیات قبلی و شواهدی که از داده‌ها داریم.

حال با به مسئله تاس برمی‌گردیم. اگر می‌خواهید می‌توانید ۱۰هزار بار تاس را بیاندازد ولی اگر در هزار پرتاب اول مشاهده کردید که همیشه شش دیده شده، متوجه خواهید شد که تاس سالم نیست. به این ترتیب اگر $P(E|H)$‌ احتمال مشاهده شش با فرض ناسالم بودن تاس باشد، احتمال درست بودن نظر فرد با توجه به مشاهده ۱۰۰۰ بار شش برابر با ۱ خواهد بود. به این ترتیب آیا گفته آن فرد که در مورد تاس به شما اطلاعات داده بود را قبول دارید یا فکر می‌کنید که حقه‌ای در کار بوده است؟

در نتیجه می‌توان دید که در آمار بیز هم به شواهدی که توسط داده‌ها وجود دارد اهمیت داده شده و هم از اطلاعات قبلی که در دسترس بوده استفاده شده است. بنابراین بهتر می‌توان به کمک آمار بیز دست به قضاوت زد. البته استفاده از آمار بیز، زمانی موثر است که اساسا در مورد یک پیشامد اطلاعات قبلی وجود داشته باشد.