نمودار هیستوگرام | Histogram
نمودار هیستوگرام | Histogram
بافتنگاشت
نمودار ستونی،بافتنگاشت یا هیستوگرام نمایشی از توزیع دادههای کمی پیوستهاست که میتواند تخمینی از توزیع احتمال باشد و نخستین بار توسط کارل پیرسون به کار گرفته شد.بافتنگاشت یکی از ۷ ابزار کنترل کیفیت است. تفاوت بافتنگاشت (نمودار ستونی) با نمودار میلهای در آن است که نمودار میلهای مربوط به توزیع دو متغیر تصادفی است ولی بافتنگاشت مربوط به یک متغیر است.
برای رسم بافتنگاشت ابتدا باید دادهها را به بازههای کوچک افراز (معمولاً طول بازهها برابر در نظر گرفتهمیشود)، سپس تعداد دادههای هر بازه را محاسبه کرد.
پس از آن اگر طول بازهها برابر بود، روی هر بازه یک مستطیل با ارتفاع متناسب فراوانی آن بازه کشیده میشود.
اگر طول بازهها برابر نبود، روی هر بازه یک مستطیل با مساحت متناسب فراوانی آن بازه کشیده میشود. در این حالت محور عمودی دیگر نشاندهنده فراوانی نیست، بلکه نشاندهنده چگالی فراوانی – تعداد پیشامدها بر واحد متغیر تصادفی روی محور افقی – است.
تعریف ریاضیاتی بافتنگاشت
بافت نگاشت مجموعهای از توابع $ f_{i}$ است که تعداد پیشامدهای مشاهدهشده از هر بازه را برمیگرداند؛ لذا نمودار بافتنگاشت فقط یک راه از نمایش بافتنگاشت است. اگر $n$ تعداد کل پیشامدهای مشاهدهشده و $k$ تعداد بازهها باشد، آنگاه معادلهٔ زیر برای بافتنگاشتهای $f_{i}$ برقرار است:
$n=\sum _{i=1}^{k}f_{i}$
بافتنگاشت تجمعی
بافت نگاشت تجمعی مجموعهای از توابع $F_{i}$ است که فراوانی تجمعی پیشامدهای مشاهدهشده هر بازه را برمیگرداند پس بافتنگاشت تجمعیِ بافتنگاشت$f_{i}$ به صورت زیر تعریف میشود:
$F_{i}=\sum _{j=1}^{i}f_{i}$
تعداد و طول بازهها
حالتهای مختلفی برای تعیین بازهها وجود دارد که هرکدام ویژگیهای مختلفی از داده را آشکار میکنند لذا برهم برتری ندارند. هرچه طول بازهها بیشتر باشد، تراکم نقاط کمتر میشود و نویز ناشی از نمونهگیری تصادفی را کاهش میدهد. از طرف دیگر هرچه طول بازهها کمتر باشد، تخمین بهتری از توزیع میتوان پیدا کرد. بعضی تلاش کردهاند تا مقداری بهینه برای تعداد بازهها بیابند، ولی این روشها معمولاً شامل فرضی قوی روی توزیعاند. با توجه به توزیع واقعی دادهها و اهداف تحلیل آنها، مقدار متفاوتی برای طول بازهها مناسب خواهدبود.
مجذور
$ k=\lceil {\sqrt {n}}\rceil$
فرمول استرجس
برای استفاده از فرمول استرجس دادهها باید توزیع تقریباً نرمال داشته باشند. معمولاً این فرمول در حالتی که $n<30$باشد یا توزیع دادهها نرمال نباشد، کاربردی ندارد
$k=\lceil \log _{2}n\rceil +1$
قانون رایس
$ k=\lceil 2{\sqrt[{3}]{n}}\rceil$
فرمول دوآن
فرمول دوآن بهبودیافتهٔ فرمول استرجس است که کابرد فرمول استرجس را برای دادههای غیرنرمال افزایش دادهاست.
$ k=1+\log _{2}n+\log _{2}(1+{\frac {|g_{1}|}{\sigma _{g_{1}}}})$
که $g_{1}$تخمین گشتاور سوم چولگی توزیع است و
$ \sigma _{g_{1}}={\sqrt {\frac {6(n-2)}{(n+1)(n+3)}}}$
قانون اسکات
$ h={\frac {3.5{\widehat {\sigma }}}{\sqrt[{3}]{n}}}$
که $ {\widehat {\sigma }}$انحراف معیار دادهها و $ h$ طول بازه است. قانون اسکات برای دادههای با توزیع نرمال بهینه است و خطای میانگین مربعات تخمین چگالی را کمینه میکند
قانون فریدمن – دیاکونیس
$ h={\frac {2IQR(x)}{\sqrt[{3}]{n}}}$