تابع توزیع تجربی در آمار

به کمک متغیر تصادفی، برای هر پیشامد، یک عدد از اعداد حقیقی در نظر گرفته می‌شود. از آنجایی که پیشامدها به صورت تصادفی رخ می‌دهند، طبیعی است برای هر کدام از آن‌ها، مقداری تصادفی در نظر بگیریم. برای متغیرهای تصادفی و توصیف رفتار تصادفی آن‌ها از تابع توزیع تجمعی که به اختصار CDF‌ نامیده می‌شود، استفاده می‌کنیم. برای برآورد «تابع توزیع تجمعی» (Cumulative Distribution Function) براساس داده‌های مشاهده شده، از تابع توزیع تجربی در آمار استفاده می‌کنیم. این تابع را با ECDF که مختصر عبارت Empirical Cumulative Distribution Function است، می‌شناسیم. تابع ECDF یکی از ابزارهای مهم در تجزیه و تحلیل داده‌ها در حوزه آمار و «داده‌کاوی» (Data Mining) محسوب می‌شود.

 

تابع توزیع تجربی در آمار

ساختار داده‌ها و تمرکز و پراکندگی آن‌ها در «تحلیل توصیفی داده‌ها» (Explanatory Data Analysis) مشخص می‌شود. جدول فراوانی و ساختار آن اطلاعات زیادی در مورد پراکندگی داده‌ها و بخصوص فراوانی درصدی مربوط به هر رده در اختیارمان قرار می‌دهد. به این ترتیب می‌توانیم مشخص کنیم که احتمال مشاهده هر یک از رده‌ها یا مقدارها چقدر است. البته این کار را به شیوه تصویری نیز می‌توان انجام داد. معمولا برای نمایش داده‌ها و توصیف تصویری آن‌ها از «هیستوگرام» (Histogram) یا نمودار بافت‌نگار استفاده می‌کنیم. در ادامه یک نمودار فراوانی را مشاهده می‌کنید که براساس شاخص اقتصاد آزاد (Free Economy Index) با مقدارهای مختلف (از ۲ تا ۹) روی محور افقی و تعداد کشورها در محور عمودی، ترسیم شده است.

summary index

از آنجایی که این اطلاعات در بازه سال‌های 1970 تا 2015 تهیه شده است، مقدار شاخص یک کشور تقریبا 22 بار شمارش می‌شود، در نتیجه تعداد یا مجموع فراوانی‌ها در محور عمودی نمودار فراوانی از تعداد کشورها (مثلا ۲۰۵ کشور) بیشتر شده است. همچنین برای حالتی که بخواهیم رابطه بین دو متغیر کمی را مشخص کنیم و مثلا متغیر تصادفی $X$ دو بُعدی باشد، می‌توان از نمودار نقطه‌ای (Scatter Plot) استفاده کرد. در ادامه چنین نموداری را برای نمایش رابطه بین شاخص اقتصاد آزاد و اندازه دولت مشاهده می‌کنید.

scatter plot

در نمودار بالا، نوع رابطه و شدت رابطه بین شاخص‌ اقتصادی کشورها و بزرگی دولت‌ها توصیف شده است، در نتیجه یک نمودار دو بعدی داریم که رابطه شاخص‌های اقتصادی را با بزرگتر شدن دولت‌ها نشان می‌دهد. این نمودار تاییدی بر رابطه مستقیم بین این متغیر را نشان می‌دهد به نوعی که مشخص است با بزرگ شدن شاخص اقتصاد آزاد (محور افقی) میزان بزرگی دولت (محور عمودی) نیز افزایش خواهد یافت. گونه دیگری از روش‌های توصیفی داده‌ها نیز وجود دارد که احتمال وقوع هر یک از مقدارها را پیش‌بینی می‌کند. تابع توزیع تجمعی تجربی یکی از ابزارهای مفید برای توصیف رفتار تصادفی داده‌ها است که کمک می‌کند براساس احتمال، رخداد مقدار یا بازه‌ای از مقدارها را برای یک متغیر تصادفی محاسبه کنیم. در این نوشتار با تابع توزیع تجربی در آمار، شیوه استفاده از آن و به کارگیری ECDF در حل مسائل آماری صحبت خواهیم کرد.

تابع توزیع تجربی چیست؟

همانطور که در ابتدا توضیح داده شد، برای برآورد تابع توزیع احتمال یا همان CDF، برمبنای داده‌ها ECDF را محاسبه و مورد استفاده قرار می‌دهیم. در گام اول می‌توان تابع توزیع تجربی را ابزاری برای ترسیم مقدارهای یک ویژگی در نظر گرفت. ترسیم چنین نموداری با یک محور افقی آغاز می‌شود که داده‌ها یا مقدار یک ویژگی را از کم به زیاد در بر می‌گیرد. در محور عمودی نموداری که برای نمایش ECDF به کار می‌رود، درصد فراوانی تجمعی را مطابق با «جدول فراوانی» (Frequency Table) ترسیم می‌کنیم. هر نقطه در این نمودار روی محور عمودی بیانگر درصد مشاهداتی روی محور عمودی است که از آن نقطه کمتر هستند. برای مثال نمودار زیر، شاخص‌ اقتصادی کشورها در سال ۲۰۱۵ را نشان می‌دهد. این نمودار نشان می‌دهد که اکثر کشورها (مثلا حدود ۹۰٪ کشورها) شاخص اقتصادی کمتر از ۸ دارند. بنابراین مقدار برآورد تابع احتمال تجمعی در نقطه ۸ برابر با 90٪ است.

اگر به کمک داده‌ها یک جدول فراوانی ایجاد کنیم، ستون فراوانی نسبی تجمعی، همان تابع توزیع تجربی را نشان می‌دهد. به این ترتیب می‌توان براساس این تابع یا نمودار حاصل از آن، احتمال برای متغیر تصادفی را تا یک نقطه را محاسبه کرد. فرض کنید سوالی به این صورت مطرح شود که برای مثال چه درصدی از کشورها دارای شاخص اقتصادی کمتر از ۶ هستند؟ برای پاسخ به این سوال کافی است از روی نمودار زیر خطی عمود بر محور افقی در نقطه ۶ ترسیم کنیم تا نمودار را قطع کند. از محل تقاطع این خط با نمودار خطی عمود بر محور عمودی رسم می‌کنیم. مقدار مشخص شده روی محور عمودی پاسخ سوال را مشخص می‌کند. که در اینجا برابر با حدود 0.2 یا همان ۲۰٪ است.

ecdf plot

در این نمودار همچنین میزان پراکندگی و واریانس شاخص‌های اقتصادی نیز به خوبی دیده می‌شود. جاهایی که نقاط متراکم و نزدیک به یکدیگر هستند، کشورهای بیشتری حضور دارند و در جاهایی که نقطه‌ها با فاصله و دور از هم هستند واریانس بیشتر است. از جنبه دیگر با توجه به این نمودار مشخص است که بیشتر کشورها دارای شاخص اقتصادی بین ۵ تا ۹ هستند و هیچ کشوری شاخصی برابر با ۱۰ یا ۱ ندارد. در نمودار بعدی همین اطلاعات را برای سال ۲۰۱۴ ترسیم کرده‌ایم. با استفاده از این نمودار به سوالات زیر پاسخ خواهیم داد.

 

  1. چه درصدی از کشورها شاخص اقتصادی کمتر از ۶ دارند؟ – پاسخ: حدود 20٪
  2. حدود چند درصد از کشورها شاخص اقتصادی کمتر از ۸ دارند؟ پاسخ: حدود 97-98٪

ecdf plot for country summary

حال به منظور مقایسه بین دو سال ۲۰۱۴ و ۲۰۱۵ فراوانی نسبی تجمعی را در یک نمودار نمایش می‌دهیم.

mutiple ecdf plot

همانطور که دیده می‌شود به نظر می‌رسد در سال‌های ۲۰۱۴ و ۲۰۱۵ کشورهای با شاخص اقتصادی حدود ۷ تا ۸ ثابت بوده‌اند و تغییری در تعدادشان وجود ندارد. ولی در این سال‌ها شاخص اقتصادی در بازه ۶ تا ۷ شامل کشورهای بیشتری شده است و رشد اقتصادها را شاهد هستیم. به این ترتیب احتمال اینکه کشوری شاخص اقتصادی کمتر از ۷ داشته باشد در سال ۲۰۱۵ بیشتر از سال ۲۰۱۴ است. به این معنی که کشورهای با شاخص اقتصادی کمتر از ۷ در سال ۲۰۱۵ بیشتر از کشورهایی هستند که در سال ۲۰۱۴ شاخص کمتر از هفت داشته‌اند.

برای یک مقایسه کلی، شاخص‌های اقتصادی در بین کشورها از سال 1970 تا ۲۰۱۵ (در بازه ۵ ساله و یکساله) در نمودار زیر ترسیم شده است. هرچند این نمودار مقداری پیچیده به نظر می‌رسد ولی بواسطه آن می‌توان دید که در بین این سال‌ها، کشورها رشد اقتصاد خوبی داشته‌اند و کشورها با شاخص‌های کوچک تبدیل به کشورهایی با شاخص‌های بزرگتر شده‌اند.

mutiple ecdf plot between times

در ادامه نموداری به منظور مقایسه شاخص‌های اقتصادی در سال‌های 1970-1985-2000 و 2015 ترسیم کرده‌ایم تا مقایسه به خوبی انجام شده و نتایج روشن‌تر دیده شوند. مشخص است که روند تغییرات در شاخص اقتصاد در این سال‌ها رو به رشد بوده است. در سال ۲۰۱۵ نیز روند رشد شدت گرفته و کشورهای پیشرو بیشتر شده‌اند.

mutiple ecdf plot between times 15 years