وکا (WEKA) ابزاری برای یادگیری ماشین و داده کاوی
سال 1993 در دانشگاه Waikato کشور نیوزیلند، طرح اولیه برای تولید نرمافزاری که بتواند عملیات «دادهکاوی» (Data Mining) را انجام دهد مطرح شد. در سال ۱۹۹۷ نیز این برنامه از پایه با زبان برنامه نویسی JAVA نوشته شد و توسعه یافت. در سال ۲۰۰۵، نرمافزار WEKA که مخفف Waikato Environment for Knowledge Analysis به معنی «محیط وایکاتو برای تحلیل دانش» است، جایزه بهترین خدمات دادهکاوی و کشف دانش (SIGKDD) را گرفت. در سال 2006 شرکت Pentaho مجوز بهرهبرداری از WEKA را برای «هوش تجاری» یا BI مخفف Business Intelligence خریداری کرد.
وکا (WEKA) ابزار یادگیری ماشین و داده کاوی
«وکا» (WEKA) را میتوان یک ابزار پیشرفته «یادگیری ماشین» (Machine Learning) و «دادهکاوی» (Data Mining) برشمرد. این نرمافزار رایگان تحت مجوز عمومی «گنو» (GNU- General Public License) قابل استفاده است. این نرمافزار شامل مجموعهای از ابزارهای «بصری سازی» (Visualization)، روشهای تحلیل دادهها و مدلهای پیشبینی است که در یک رابط گرافیکی گرد هم آمدهاند تا کاربر بهترین شیوه اجرای دستورات را در اختیار داشته باشد.
خصوصیات وکا
نسخههای اولیه وکا را به نامهای Tcl/Tk میشناسیم که بدون استفاده از زبان برنامه نویسی جاوا تولید شده بودند و بیشتر برای انجام تحلیلهای دادههای کشاورزی مورد استفاده قرار میگرفتند. امروز نسخه مدرن و به روز WEKA 3 در همه زمینههای یادگیری ماشین و دادهکاوی به کار میرود.
مزایا و خصوصیات وکا در ادامه فهرست شدهاند.
- دسترسی ساده و رایگان تحت مجوز عمومی گنو GNU General Public License.
- قابلیت انتقال از یک بستر سختافزاری به بستر دیگر به علت استفاده از زبان برنامه نویسی جاوا در کدهای این نرمافزار که بصورت مستقل از ماشین نوشته میشوند. در نتیجه قابلیت اجرای این برنامه روی کامپیوترهای مدرن امروزی نیز به راحتی وجود دارد.
- روشهای تحلیل داده و تکنیکهای مدلسازی قابل درک و ساده
- کاربری ساده به علت رابط گرافیکی مناسب
بسیاری از تکنیکهای دادهکاوی در نرمافزار WEKA پیادهسازی شده است. از جمله «خوشهبندی» (Clustering)، «دستهبندی» (Classifications)، «رگرسیون» (Regression)، «بصریسازی» (Visualization) و «انتخاب ویژگی» (Feature selection) همگی قابل اجرا در نرمافزار WEKA هستند. دسترسی به اطلاعات موجود در بانکهای اطلاعاتی SQL به واسطه ارتباط جاوا با بانکهای اطلاعاتی (Java Database Connectivity) امکانپذیر است. به این ترتیب خروجیهای حاصل از پرسوجوهای SQL نیز در وکا قابل استفاده هستند. برای اجرای تحلیلهای مربوط به یادگیری عمیق (Deep Learning) نیز کافی است که از نرمافزار Deeplearning4j که متصل به وکا است، استفاده کنید.
ابزارهای وکا
با استفاده از گزینه Explorer قادر هستید که به مجموعهای از ابزارهای تحلیل وکا دسترسی داشته باشید. در ادامه به معرفی بعضی از این ابزارها میپردازیم.
پیشپردازش Reprocessing
مرحله اول برای انجام عملیات دادهکاوی، پیشپردازش دادهها (Data Reprocessing) است. دادهها ممکن است از بانکهای اطلاعاتی مختلف با قالبهای متفاوت جمعآوری شده باشند. در این بخش با استفاده از ابزارهای وکا قادر هستید عملیات پیشپردازش را روی دادهها اجرا کنید.
دستهبندی Classify
در قسمت Classify امکان اجرای تکنیکهای «دستهبندی» (Classification) و «رگرسیون» (Regression) وجود دارد. همچنین اندازهگیری دقت مدلهای پیشگو، تصویرسازی خطای حاصل از برآورد و همچنین رسم نمودار ROC از دیگر امکانات این قسمت است.
قوانین پیوند Associate
به منظور ایجاد و بررسی «قوانین پیوند» (Association Rule) از فهرست دستورات، گزینه Associate را به کار بگیرد. به این ترتیب میزان همبستگی و ارتباطات مهم بین متغیرها و دادهها را کشف خواهید کرد.
خوشه Cluster
اگر هدف از انجام تحلیل دادهها، شناسایی مشاهدات همگن و تشکیل خوشهها است، وکا ابزارهای خوشهبندی مانند خوشهبندی k-means را دارا است. همچنین برای انجام خوشهبندی برمبنای مدل (Model-based clustering) نرمافزار وکا از تکنیک EM $(Expectation\; and\; Maximization)$ استفاده میکند.
انتخاب ویژگی Select Attributes
الگوریتمهای مختلف و متنوعی در وکا به منظور شناسایی متغیرها و ویژگیهای موثر در مدل وجود دارد. به این ترتیب مدل ساخته شده دارای کمترین پیچیدگی است و از طرفی نیز مدل ساخته شده، دچار بیشبرازش یا کمبرازش نشده است.
بصریسازی Visualize
برای نمایش ارتباط بین نقاط، «نمودار پراکندگی» (Scatter Plot) نمودار مناسبی است. در وکا میتوانید اینگونه نمودارها را ایجاد و در جهت دلخواه خود بزرگ یا چرخش دهید.
برای دریافت این نرمافزار و مشاهده مطالب بیشتر در این زمینه به سایت رسمی این نرمافزار در دانشگاه Waikato که در اینجا (+) مشخص شده است، مراجعه کنید.