مقایسه معیارهای تمرکز (میانگین، میانه، نما)
اغلب با توجه به نوع دادهها برای محاسبه نقطه تمرکزشان از معیارهای متفاوتی استفاده میشود. با توجه به شهرت و کاربرد فراوان شاخصهای آماری «میانگین» (Mean)، «میانه» (Median) و «نما» (Mode)، در این نوشتار، به معرفی آنها پرداخته و خصوصیاتشان را با هم مقایسه میکنیم.
میانگین
غالباً در صحبتهای روزمره از عبارت «معدل» (Average) به جای میانگین استفاده میشود. در حقیقت معدل و «میانگین» (Mean) در مفهوم ریاضی بسیار شبیه هستند. میانگین نشان دهنده مقداری است که میتواند به عنوان نماینده یا برآیند دادهها باشد. در فیزیک در مبحث نیروها نیز از مفهوم برآیند برای نشان دادن نیرویی استفاده میشود که میتواند جایگزین همه نیروهای وارد شده بر جسم باشد. به این ترتیب میانگین (برآیند دادهها) مقداری است که از آن میتوان به عنوان جایگزین همه دادهها به منظور مقایسه یا شناخت بیشتر رفتار آنها استفاده کرد. معدل یا میانگین همچنین نقش مرکز ثقل دادهها را هم دارند به شکلی که متوسط فاصله مقدارها از میانگینشان برابر با صفر است. در فیزیک نیز مرکز ثقل، نقطهای از جسم است که گشتاور نیروها بر آن برابر با صفر باشد.
از آنجایی که میانگین از تقسیم حاصل جمع مقدارها بر تعدادشان ساخته میشود، مقیاس یا واحد آن با دادهها یکی است. به این معنی که اگر همه دادهها از جنس وزن با واحد کیلوگرم باشند، میانگین نیز عددی با واحد کیلوگرم خواهد بود. اگر همه مقدارها با هم برابر باشند میانگینشان نیز با آنها برابر است.
میانگین یکی از متعالیترین معیارهای تمرکز است زیر همه دادهها در محاسبه آن نقش دارند. به شکلی میتوان آن را مشابه نقطه اجماع یا بیعت دادهها نامید زیرا همه در تعیین آن دخیل هستند. نماد میانگین $\bar{X}$ است.
مزایا و معایب
- مزایا
- نقش همه دادهها در محاسبه آن
- محاسبه براساس جمع و تقسیم (سادگی محاسبه)
- متناسب با واحد اندازهگیری دادهها
- معایب
- تاثیر پذیری از مقدارهای خیلی بزرگ یا کوچک و تمایل به سمت آنها
- امکان محاسبه فقط برای دادههای کمی
- محاسبه زمانبر برای لیستهای طولانی از اعداد
میانه
یکی دیگر از شاخصهای تمرکز، «میانه» (Median) است. اگر دادهها ترتیب داشته باشند، نقطه وسط، میانه خواهد بود. به این ترتیب میتوان میانه را، نقطه اعتدال برای دادهها نامید زیرا نقطهای است که تقریبا نصف دادهها (۵۰٪) از آن بیشتر یا کمتر هستند. از این شاخص برای دادههای کمی و همچنین کیفی که قابلیت مرتب سازی داشته باشند (ترتیبی) استفاده میشود. نماد میانه، m است.
فرض کنید لیست مرتب شدهای به صورت a1,a2,a3,a4,a5 داشته باشیم. برای پیدا کردن میانه کافی است که از ابتدا و انتهای لیست، یکی یکی مقدارها را حذف کنیم تا نقطه وسط باقی بماند.در این حالت مقدار سوم، میانه خواهد بود.
a1,a2,a3,a4,a5
اگر تعداد دادهها در لیست مرتب شده، فرد باشد این کار به راحتی میسر است ولی اگر تعداد عناصر لیست، زوج باشد، دو مقدار در وسط لیست باقی خواهند ماند که برای دادههای کمی، وسط آنها (میانگین دو مقدار) به عنوان میانه در نظر گرفته میشود که برای مثال قبلی وسط نقطه سوم و چهارم میانه خواهد بود. در صورتی که دادهها کیفی باشند، هر دو مقدار را به عنوان میانه مشخص میکنند که در مثال قبل به هر دو نقطه سوم و چهارم میانه گفته میشود.
a1,a2,a3,a4,a5,a6
به طور کلی میتوان شکل محاسباتی زیر را برای میانه دادههای کمی که به صورت صعودی مرتب شده باشند (a1<a2<…<an) در نظر گرفت:
$Median = a_{(\frac{n+1}{2})}$ فرد باشد n
$Median = \frac{a_{(\frac{n}{2})}+a_{(\frac{n+2}{2})}}{2}$ زوج باشد n
برای مثال اگر دادهها به صورت ۱و6و۷و۳و۱۲ باشند، مقدار میانه برای آنها برابر با 6 و میانگین برابر با 5.8 خواهد بود. اگر مقدار ۱۲ به ۱۲۰ تغییر یابد میانه تغییری نکرده ولی میانگین تبدیل به 27.4 خواهد شد. با اضافه شدن مقدارهای ۲ و 5 نیز میانه تبدیل به 5 خواهد شد که تغییر زیادی نسبت به مقدار میانه قبلی نیست ولی میانگین به 20.57 کاهش خواهد یافت.
مزایا و معایب
- مزایا
- محاسبه میانه براساس ترتیب (سادگی محاسبه)
- استفاده از الگوریتمهای سریع مرتبسازی برای محاسبه آن
- عدم تاثیر پذیری از مقدارهای خیلی بزرگ یا کوچک
- معایب
- امکان محاسبه فقط برای دادههای کمی و کیفی ترتیبی
- عدم در نظر گیری مقدار دادهها
- نقش فقط یک یا دو داده در محاسبه میانه
نما
«نما» (Mode) از سادهترین شاخصهای تمرکز است. گاهی به نما، مُد گفته میشود. برای محاسبه آن کافی است تعداد تکرارهای مقدارها شمارش شود. مقداری که بیشترین تکرار را داشته باشد، نما یا مُد خواهد بود. باید توجه داشت که مقداری از مشاهدات که بیشترین تکرار را دارد نما محسوب میشود نه تعداد تکرار آنها. از نما میتوان برای شاخص تمرکز دادههای کمی و کیفی استفاده کرد. از آنجایی که برای محاسبه آن از مقدار یا ترتیب دادهها استفاده نمیشود، برای دادههای کیفی از نوع اسمی (مثل رنگ مورد علاقه) نیز قابل استفاده است. نماد نمایشی برای نما یا مُد به شکل M است.
یکی از اشکالات استفاده از نما، امکان وجود بیش از یک مقدار برای آن است. ممکن است تعداد تکرار برای دو یا چند مشاهده یکسان باشد. در نتیجه نما یک مقدار واحد نخواهد بود و همه مقدارهایی که دارای تکرار یکسانی باشند به عنوان نما خوانده میشوند. همچنین ممکن است تغییر در تکرار یک مقدار، آن را به نما تبدیل کند یا نما را از مقدار قبلی تغییر دهد.
برای مثال برای دادههای ۱،۱،۱،۲،40،۸،۸،۹ مقدار نما برابر با ۱ است زیرا دارای بیشترین تکرار (۳ بار) است ولی اگر یک مقدار تغییر یابد (مثلا ۹ به ۸ تبدیل شود)، مقدار نما برابر با هر دو مقدار ۸ و ۱ خواهد بود. همچنین با اضافه شدن یک هشت به مقادیر پیشتر آمده، نما از ۱ به ۸ تبدیل میشود. همانطور که دیده میشود با تغییر یا اضافه شدن مقدار، ممکن است تغییر زیادی در نما حاصل شود.
هرچند در مکالمات روزمره چیزی که تازه به بازار وارد شده مُد نامیده میشود ولی از لحاظ آماری چیزی که بیشتر از اجناس دیگر دیده می شود مُد به حساب میآید. برای مثال اگر در مبحث آماری گفته شود، خودروهای دیفرانسیل جلو مُد است، به این معنی است که بیشتر خودروها از سیستم دیفرانسیل جلو بهره میبرند. همچنین برای سنجش نظرات جامعه از طریق کسب آرا، نتیجه انتخابات نشان دهنده نمای جامعه در سنجش صورت پذیرفته است که آن را میتوان انتخاب اکثریت دانست.
مزایا و معایب
- مزایا
- سادگی در شیوه محاسبه (از طریق جدول فراوانی)
- امکان محاسبه برای همه نوع داده کمی و کیفی
- عدم تاثیر پذیری از مقدارهای خیلی بزرگ یا کوچک
- معایب
- عدم در نظر گیری مقدار دادهها
- امکان وجود بیش از یک نما برای دادهها
- حساسیت زیاد به تغییر تعداد تکرارها
رابطه بین میانگین، میانه، نما
اگر دادهها به شکل مناسبی توزیع شده باشند (متقارن) هر سه شاخص تمرکز میانگین، میانه و نما در یک نقطه قرار میگیرند. حتی اگر میزان کمی انحراف از تقارن نیز وجود داشته باشد، باز میتوان رابطه تقریبی زیر را برای میانگین، میانه و نما نوشت.
$ \bar X – M = 3\times (\bar X-m)$
ولی اگر تغییری در میان دادهها بوجود آید که باعث ایجاد عدم تقارن در شکل توزیع دادهها شود، ممکن است مقدار این سه شاخص تمرکز، فرق کند. برای مثال اگر مقدارهای خیلی بزرگ در دادهها وجود داشته باشد، میانگین به سمت آنها منحرف شده و ترتیب قرارگیری این سه شاخص به مانند شکل زیر تغییر خواهد کرد.
همچنین اگر دادههای خیلی کوچک در مقدارها، مشاهده شود، ترتیب قرارگیری این سه شاخص تمرکز طبق شکل زیر است.