واریانس و اندازههای پراکندگی — به زبان ساده
مثال
فرض کنید نمرات دانشجویان دو مدرس در تدریس آمار طبق جدول زیر ثبت شده باشد.مدرس | دانشجو۱ | دانشجو۲ | دانشجو۳ | دانشجو۴ | دانشجو۵ | دانشجو۶ | دانشجو۷ | دانشجو۸ | میانگین |
مدرس الف | 15 | 18 | 12 | 13 | 17 | 14 | 16 | 15 | 15 |
مدرس ب | 10 | 18 | 20 | 10 | 20 | 20 | 12 | 10 | 15 |
دامنه تغییرات
یکی از روشهای اندازهگیری پراکندگی بین دادهها، محاسبه «دامنه تغییرات» (Range) است. این شاخص، حداکثر میزان پراکندگی را نشان میدهد و برای محاسبه آن کافی است که تفاوت بین بزرگترین و کوچکترین مقدار را بدست آورد. اگر دامنه تغییرات را با R نشان دهیم، فرمول محاسباتی آن برای دادههای a1,a2,a3,a4,a5 به صورت زیر است:مزایا و معایب
- مزایا
- سادگی در محاسبه دامنه تغییرات
- نمایش حداکثر میزان پراکندگی
- معایب
- عدم محاسبه پراکندگی حول یک مرکز
- تاثیر پذیری زیاد از مقادیر خیلی بزرگ و یا خیلی کوچک
هر چند سادگی محاسبات برای این شاخص از ویژگیهای مهم آن است. ولی متاسفانه فقط بر اساس دو مقدار محاسبه میشود و بقیه مقدارها در تعیین این معیار نقشی ندارند.
دامنه میان چارکی
برای آنکه بتوان مشکل تاثیر پذیری دامنه تغییرات از مقدارهای بزرگ و کوچک را از بین برد، میتوان فاصله بین بزرگترین و کوچکترین مقدار را براساس چارکها محاسبه کرد. به این ترتیب برای دادههایی که دارای مقدارهای دور افتاده هستند، فاصله بین چارک اول و سوم، میتواند برآورد بهتری برای محاسبه حداکثر پراکندگی دادهها بدست دهد. به این شاخص «دامنه میان چارکی» (InterQuartile Range – IQR) میگویند. شکل محاسباتی دامنه میان چارکی به صورت زیر است:
مزایا و معایب
- مزایا
- عدم تاثیر پذیری زیاد از مقادیر خیلی بزرگ و یا خیلی کوچک (حذف اثرات نقاط دور افتاده)
- سادگی در محاسبه (براساس مقدار چارک اول و سوم)
- معایب
- عدم محاسبه پراکندگی حول یک مرکز
- مقدارهای به جز چارک اول و سوم در محاسبه آن نقشی ندارند.
متوسط قدر مطلق انحرافات
معمولاً در صحبتهای روزمره، زمانی که از فاصله یا پراکندگی صحبت میشود، میگویم این دو شهر نسبت به هم دور هستند یا روستاهای این استان نسبت به مرکز شهرستان فاصله زیادی دارند. همانطور که دیده میشود پراکندگی یا فاصله را نسبت به یک نقطه در نظر میگیریم. دامنه تغییرات و دامنه میان چارکی، معیارهای مناسبی برای اندازهگیری پراکندگی نیستند زیرا پراکندگی را نسبت به نقطهای خاص در نظر نمیگیرند. برای رفع این مشکل بهتر است نقطهای از دادهها را به عنوان مرکز در نظر گرفت و فاصله بقیه دادهها را نسبت به آن سنجید.
از آنجایی که میانگین، نقطهای است که میانگین فاصله دادهها نسبت به آن صفر است، برای محاسبه MD از قدر مطلق فاصلهها استفاده میشود تا فقط مقدار فاصله، بدون در نظر گرفتن جهت آن، به کار رود. پس میتوان فرمول محاسباتی زیر را برای MD یا A.D نوشت:
نکته: اگر به جای میانگین از میانه به عنوان نقطه مرکزی استفاده شود به آن «متوسط قدر مطلق انحرافات از میانه» (Median Absolute Difference- MAD) میگویند. با توجه به تعریف میانه، مشخص میشود که مجموع فاصلههای
براساس مثال نمرات دانشجویان میزان پراکندگی براساس میزان MD برای کلاس «مدرس الف» برابر با 1.5 و برای «مدرس ب» 4.5 خواهد بود. همچنین میزان پراکندگی بر منبای MAD نیز برای «مدرس الف» و برای «مدرس ب» با مقدار MD آنها برابر است (میانه و میانگین نمرات هر دو مدرس با هم برابر هستند).
مزایا و معایب
- مزایا
- استفاده از یک نقطه مرکزی برای سنجش انحرافات
- نقش همه مقدارها در محاسبه پراکندگی
- معایب
- تاثیرپذیری از مقدارهای خیلی بزرگ و یا خیلی کوچک
- وابستگی به واحد اندازهگیری دادهها
- پیچیدگی در استفاده از روشهای ریاضی
واریانس
از آنجایی که کارهای محاسباتی نظیر انتگرال و مشتق برای تابع قدر مطلق با مشکلاتی همراه است، برای نامنفی کردن فاصلهها نسبت به میانگین، میتوان از مربع آنها استفاده کرد. به این صورتِ محاسبه میزان پراکندگی، «واریانس» (Variance) میگویند. اگر میانگین جامعه آماری را با
نکته: با توجه به تعریف میانگین و مشتقگیری میتوان نشان داد که مجموع فاصلههای

فرمول ذکر شده در بالا برای محاسبه واریانس جامعه آماری به کار میرود. ولی اگر به جای جامعه آماری از یک نمونه آماری استفاده شود، ابتدا باید میانگین جامعه آماری (
محاسبه واریانس نمونهای که
با توجه به مثال نمرات دانشجویان، واریانس نمرات برای «مدرس الف» برابر با 3.5 و برای «مدرس ب» 21 است. اگر فرض شود که این کلاسها نمونهای از کلاسهای این دو مدرس باشند، واریانس نمونهای برای «مدرس الف» برابر با ۴ و برای «مدرس ب» ۲۴ محاسبه میشود.
نکته: اگر دادهها در مقدار ثابتی مثل b ضرب یا تقسیم شوند، واریانس آنها در b2 ضرب یا تقسیم میشود ولی تغییر مکان دادهها در میزان واریانس آنها تاثیری ندارد.
مزایا و معایب
- مزایا
- قابلیت استفاده در بیشتر مفاهیم ریاضی
- محاسبه پراکندگی حول میانگین
- نقش همه دادهها در محاسبه میزان پراکندگی
- معایب
- مربع شدن واحد اندازهگیری برای میزان پراکندگی
- تاثیر پذیری زیاد از دادههای بسیار بزرگ یا کوچک
انحراف معیار یا انحراف استاندارد
با توجه استفاده از توان ۲ در محاسبه واریانس، واحد اندازهگیری برای این شاخص به صورت مربع در خواهد آمد. برای مثال، اگر دادهها برحسب گرم باشند، واریانس برحسب گرم مربع (گرم به توان ۲) خواهد بود. این موضوع باعث میشود که نتوان واریانس را با خود دادهها مقایسه کرد.
برای رفع این مشکل کافی است که جذر واریانس را محاسبه کنیم تا واحد اندازهگیری این شاخص پراکندگی با واحد اندازهگیری دادهها یکی شود. به حاصل این کار «انحراف معیار» (Standard Deviation) میگویند. انحراف معیار جامعه آماری با
در مثال نمرات دانشجویان، انحراف معیار نمرات برای «مدرس الف» برابر با 1.87 و برای «مدرس ب» 4.58 است. اگر فرض شود که این کلاسها نمونهای از کلاسهای این دو مدرس باشند، انحراف معیار نمونهای برای «مدرس الف» برابر با 2 و برای «مدرس ب» 4.9 محاسبه میشود.

مزایا و معایب
- مزایا
- قابلیت استفاده در بیشتر مفاهیم ریاضی
- محاسبه پراکندگی حول میانگین
- نقش همه دادهها در محاسبه میزان پراکندگی
- قابلیت استفاده در بیشتر مقایسههای آماری
- معایب
- تاثیر پذیری زیاد از دادههای بسیار بزرگ یا کوچک
- عدم ثبات در هنگام تغییر واحد دادهها
ضریب تغییرات
برای مقایسه پراکندگی دو گروه داده که با واحدهای اندازهگیری متفاوتی جمعآوری شده باشند، استفاده از انحراف معیار، واریانس، متوسط قدرمطلق انحرافات از میانگین، دامنه میان چارکی و دامنه تغییرات صحیح نیست. زیرا میدانیم که این اندازهها با تغییر مقیاس دادهها، تغییر میکنند. برای رفع این مشکل از «ضریب تغییرات» (Coefficient of Variation- CV) استفاده میشود زیرا معیاری است که میزان نسبی پراکندگی را نشان میدهد.
برای محاسبه آن کافی است که نسبت انحراف استاندارد را به میانگین بدست آورد. از آنجایی که صورت و مخرج این کسر هم واحد هستند، حاصل کسر مقداری بدون واحد است که به صورت درصدی نیز میتواند بیان شود. بنابراین ممکن است برای یک سری داده گفته شود که ضریب تغییرات ۱۵٪ است. این امر به معنی آن است که انحراف معیار ۱۵ درصد میانگین است.
محاسبه ضریب تغییرات برای جامعه آماری به شکل زیر است:اگر در مثال نمرات دانشجویان بخواهیم اثر سختی یا سادگی آزمون (که در میزان میانگین نهفته است) را از بین ببریم و پراکندگی را برحسب میانگین هر کلاس بسنجیم، کافی است ضریب تغییر را برای هر یک محاسبه کنیم. مدرسی که دارای ضریب تغییرات کمتری است، نمرههای یکدست و همگنی داشته.
به این ترتیب ضریب تغییرات برای «مدرس الف» برابر با 12.47٪ و برای «مدرس ب» 30.55٪ است. اگر فرض شود که این کلاسها نمونهای از کلاسهای این دو مدرس باشند، ضریب تغییرات نمونهای برای «مدرس الف» برابر با 13.33٪ و برای «مدرس ب» 32.66٪ محاسبه میشود.

مثال
دمای متوسط دو شهر در طول ۵ روز از سال برحسب سانتیگراد و فارنهایت در جدول زیر آورده شده است.دمای شهرها | روز اول | روز دوم | روز سوم | روز چهارم | روز پنجم | میانگین | انحراف معیار | ضریب تغییرات |
الف (سانتیگراد) | 0 | 10 | 20 | 30 | 40 | 20 | 15.81 | 0.79 |
ب (فارنهایت) | 32 | 50 | 68 | 86 | 10 | 68 | 28.46 | 0.42 |
با توجه به تفاوت واحد اندازهگیری دما در این دو شهر برای مقایسه میزان پراکندگی شاید ضریب تغییرات مناسب به نظر برسد. همانطور که دیده میشود «شهر ب» دارای ضریب تغییرات بیشتری است پس احتمال دارد این طور تصور شود که دما در آن به نسبت میانگین تغییرات زیادی دارد. ولی با توجه به اینکه دما با واحد سانتیگراد یا فارنهایت یک کمیت از نوع فاصلهای است، استفاده از CV در اینجا صحیح نیست. (کمیت فاصلهای، کمیتی است که در آن صفر به صورت قراردادی در نظر گرفته میشود و به معنی هیچ نیست.)
اگر به جای سانتیگراد و فارنهایت از واحد کلوین برای دمای این دو شهر استفاده شود جدول زیر حاصل میشود. (برای تبدیل دمای سانتیگراد به کلوین مقدار 273.5 باید به همه دادهها اضافه شود. همچنین برای تبدیل فارنهایت به کلوین نیز دما برحسب فارنهایت را با 459.67 جمع کرده و نتیجه را به 1.8 تقسیم میکنیم.)دمای شهرها (کلوین) | روز اول | روز دوم | روز سوم | روز چهارم | روز پنجم | میانگین | انحراف معیار | ضریب تغییرات |
الف | 273.5 | 283.5 | 293.5 | 303.5 | 313.5 | 293.5 | 15.81 | 0.054 |
ب | 273.15 | 283.15 | 293.15 | 303.15 | 313.15 | 293.15 | 15.81 | 0.054 |
مزایا و معایب
- مزایا
- نقش همه دادهها در محاسبه میزان پراکندگی
- ثبات در هنگام تغییر واحد دادهها
- امکان مقایسه بین دو گروه از دادهها با واحدهای متفاوت
- معایب
- تاثیر پذیری زیاد از دادههای بسیار بزرگ یا کوچک
- پیچیدگی و طولانی بودن محاسبه
- عدم قابلیت محاسبه برای دادههای منفی
- نامعتبر شدن مقدار ضریب تغییرات زمانی که میانگین به سمت صفر نزدیک شود