این پروژه با استفاده از نرم افزار داده کاوی رپیدماینر تهیه شده است. هدف اصلی این پروژه انجام فرایند طبقه بندی یا پیش بینی داده های دیابت با استفاده از الگوریتم یادگیری ماشین یا طبقه بندی آدابوست(adaboost) در نرم افزار داده کاوی رپیدماینر است. در این پروژه از برخی از مهمترین کنترل ها و امکانات داده کاوی جهت طبقه بندی یا پیش بینی داده های دیابت مربوط به ابزار داده کاوی رپیدماینر استفاده شده است که تنها با کمی بررسی عمقی میتوان سایر روش ها را پیاده سازی نمود. بنابراین پروژه فوق میتواند بعنوان یک الگوی منطقی و قابل قبول جهت یادگیری و ارائه پروژه های درسی استفاده گردد.
روال پیاده سازی پروژه طبقه بندی یا پیش بینی داده های دیابت با استفاده از الگوریتم آدابوست(adaboost) در ابزار داده کاوی رپیدماینر بدین صورت است که ابتدا دیتاست مربوطه از طریق کنترل Read Excel به مدل تهیه شده وارد می شود. کنترل Read Excel به دو طریق داده را به مدل Import میکند که عبارتند از:
1. ورود مستقیم: تنها با انتخاب فایل دیتاست
2. ورود دیتاست از طریق Import Configuration wizard :که بتوان برروی دیتاست تغییراتی را نیز اعمال نمود.
بنابر این در این پروژه از طریق مورد دوم یعنی Import Configuration wizard، دیتاست به مدل طراحی شده اعمال می گردد. نکته بسیار مهم و حائز اهمیتی که وجود دارد این است که فیلد های ورودی و فیلد خروجی در همین مرحله میبایست تعیین گردد. بدین منظور کافیست در آخرین مرحله در هنگام وارد نمودن دیتاست، نوع فیلد را label و نوع مقادیر را با توجه به نیاز مسئله Binominal یاPolynomial یاRead و غیره تعیین نمود. بنابراین تا این مرحله دیتاست به صورت دقیق به مدل وارد میشود. در مرحله بعد، خروجی این کنترل به ورودی کنترل Replace Miss Value جهت اعمال و پیش پردازش بر روی دیتاست وارد میگردد. جهت قرار دادن این کنترل در قسمت Process کافیست نام آن را در کادر جستجو وارد نمایید. از مهم ترین وظایف این کنترل جایگزینی مقادیر پیش فرض به جای مقادیر پرت یا Miss Value در داده ها است. جهت اعمال تنظیمات مربوطه بر روی این کنترل کافیست برروی آن کلیک نموده ودر پنجره Parameters تنظیمات مورد نیاز را اعمال نمایید.
پس از اینکه داده ها پیش پردازش شدند و مقادیر پرت از دیتاست اصلی نیز حذف شد، کافیست الگوریتم اصلی شبیه سازی شود. به منظور شبیه سازی الگوریتم های یادگیری ماشین و بخصوص الگوریتم های آدابوست(adaboost) میبایست از کنترل Validation در نرم افزار داده کاوی رپیدماینر استفاده گردد. این کنترل بسیار مهم است و برای شبیه سازی الگوریتم های یاد گیری ماشین و ارزیابی نتایج استفاده میگردد بدین منظور در شبیه سازی انجام شده از منوی جستجو کافیست کلمه Validation را تایپ کرده و کنترلی به نام Bootstrapping-validation را به صفحهprocess اضافه نمود. بنابراین پس از اضافه کردن این کنترل به صفحه میبایست خروجی کنترل Replace Miss Value به ورودی این کنترل وارد شود. سپس دو خروجی از خروجی های کنترل Bootstrapping-validation بنام Avg, mod را به خروجی Process متصل میکنیم.
تا اینجا به شبیه سازی مدل پیشنهادی به اتمام میرسد. حال نوبت به این رسیده است که الگوریتم آدابوست(adaboost) بر روی دیتاست اجرا شود. بدین منظور کافیست بر روی کنترل Bootstrapping-validation دابل کلیک نموده تا صفحه مربوطه برای شبیه سازی الگوریتم باز شود. پس از دابل کلیک کردن بر روی کنترل اعتبار سنجی، محیطی باز خواهد شد که دارای دو قسمت کلی بنام های Train,Test است. همانطور که میدانید الگوریتم های داده کاوی و یادگیری ماشین دو نوع داده را دریافت میکند که عبارتند از:
1. داده های Test یا آزمایشی
2. داده های Train یا آموزشی
از داده های آموزشی که 80% از داده ها هستند، جهت آموزش مدل های مربوط به الگوریتم های یادگیری ماشین و از داده های آموزشی که 20% داده هایی هستند برای ارزیابی نتایج الگوریتم یادگیری ماشین استفاده میگردد. لازم به ذکر است که در این پروژه 80% از داده ها را قبل از شبیه سازی به عنوان داده های آموزشی و 20% از داده ها را به عنوان داده های آزمایشی تفکیک نموده و در دو فایل اکسل مختلف قرار میدهیم. در نهایت نیز الگوریتم آدابوست(adaboost) را به بخش Train اضافه نموده و ورودی این بخش را به ورودی الگوریتم آدابوست(adaboost) اعمال میکنیم. خروجی الگوریتم آدابوست(adaboost) به خروجی بخش Train نیز تصل می گردد. جهت اعمال هرگونه تنظیمات بر روی الگوریتم شبیه سازی شده کافیست بر روی این الگوریتم کلیک نمود و در Parameters تنظیمات لازم را اعمال نمایید.
بنابراین در این بخش داده های Train با الگوریتم آدابوست(adaboost) اعمال شده و مدل مربوطه تولید میگردد. در بخش بعد که بنام Test است، میبایست داده های آزمایشی یا Test که 20% از داده ها است به کنترل apply model وارد شود. این کنترل دو ورودی و یک خروجی دارد. به یکی از ورودی های این کنترل داده های تست و به یکی از ورودی های دیگر نیز خروجی الگوریتم آدابوست(adaboost) وارد میشود. از مهمترین کاربرد این کنترل این است که داده های جدید را طبقه بندی یا پیش بینی می کند.
بر اساس طبقه بندی یا پیش بینی های صورت گرفته لازم است که نتایجی محاسبه و ارزیابی شود. در این پروژه معیار های زیر محاسبه شده و پس از پایان شبیه سازی در خروجی نمایش داده می شوند:
1. معیار دقت یا Accuracy: این معیار میزان دقت طبقه بندی را محاسبه می کند. یا در واقع مشخص میکند که الگوریتم یادگیری استفاده شده تا چه میزان طبقه بندی نمونه های تست را درست انجام داده است.
2. معیار صحت یا Precision: این معیار نیز که مکمل معیار دقت است، صحت طبقه بندی الگوریتم یاد گیری آدابوست(adaboost) را سنجش می کند.
3. معیار فراخوانی یا Recall: این معیار نیز مکمل معیار ارزیابی صحت است که جنبه دیگری از میزان درستی الگوریتم آدابوست(adaboost) را مورد سنجش قرار می دهد.
4. معیار خطای طبقه بندی یاClassification Error: این معیار میزان خطای طبقه بندی آدابوست(adaboost) را جهت طبقه بندی دیتاست داده های دیابت مشخص می کند.
علاوه بر معیار های فوق، معیار های RMSE یا مجذور میانگین خطا ها و معیار MAE یا خطای واقعی نیز بررسی میگردد که در این شبیه سازی در خروجی نمایش داده می شود.
بنابر این در این پروژه، برای محاسبه معیار های فوق از کنترل Performance Classification استفاده میگردد. خروجی کنترل Apply model به این کنترل داده شده و در نهایت خروجی کنترل Performance به خروجی نهایی Test داده میشود. جهت محاسبه معیار های فوق کافیست بر روی این کنترل کلیک نمود از قسمت Parameters معیار های فوق و انتخاب و در نهایت شبیه سازی را اجرا نمود. بنابراین از این پروژه میتوان در کاربرد های مختلف و دروس متنوع اعم از داده کاوی، مباحث ویژه، هوش مصنوعی و غیره استفاده نمود.
توجه:
جهت سفارش پروژه دیگر با سایر الگوریتم ها و سایر ابزار های داده کاوی مثل Weka, SPSS Modeler, Matlab,… بر روی سایر دیتاستها کافیست با پشتیبانی سایت تماس حاصل نموده و سفارش خود را ثبت نمایید.