این پروژه با
استفاده ار نرم افزار داده کاوی رپیدماینر(rapidminer)
تهیه شده است. همانطور که از عنوان پروژه مشخص است در این پروژه الگوریتم درخت
تصمیم بروی داده های animals یا
حیوانات باغ وحش که از وب سایت محبوب UCI
دانلود شده، اعمال می گردد.
دیتاست حیوانات
را می توان از لینک https://archive.ics.uci.edu/ml/machine-learning-databases/zoo/ دانلود نمود. پس
از دانلود دیتاست مربوطه ملاحظه می گردد که یک ساختار نامناسب داشته و برای
استفاده در سایر برنامه های داده کاوی می بایست به فرم قابل قبول تبدیل گردد. در
این پروژه ابتدا به بررسی کامل دیتاست حیوانات باغ وحش که از سایت UCI دانلود شده است می پردازیم. سپس داده های آموزش و داده های تست را
تفکیک نموده و پی از آماده سازی داده ها اقدام به تولید مدل درخت تصمیم با استفاده
از نرم افزار داده کاوی رپیدماینر می کنیم.
دیتاست:
برای اینکه
بتوانیم در نرم افزار رپید ماینر از این داده های استفاده نماییم به فرمت دیتاست
اکسل تبدیل خواهیم نمود. پس از تبدیل داده های به فرمت اکسل چندین نمونه از داده
ها به شکل زیر است. کلیه ویژگی ها که شامل 18 مشخصه های مربوط به حیوانات است شامل
داده های بولین می باشد. لیست ویژگی های عبارتند از :
1. animal
name: Unique for each instance
2. hair Boolean
3.
feathers Boolean
4. eggs Boolean
5. milk Boolean
6.
airborne Boolean
7.
aquatic Boolean
8.
predator Boolean
9.
toothed Boolean
10.
backbone Boolean
11.
breathes Boolean
12.
venomous Boolean
13. fins Boolean
14. legs Numeric (set of values:
{0,2,4,5,6,8})
15. tail Boolean
16.
domestic Boolean
17.
catsize Boolean
18. type Numeric (integer values in
range [1,7])
همانطور که
ملاحظه می گردد تعداد کل نمونه ها 101 رکورد است که در این پروژه 70% از داده ها
معادل 70 نمونه و 30% از داده ها معادل 31 نمونه را به عنوان داده های Train , Test تفکیک می کنیم. اولین ویژگی دسته حیوان را مشخص نموده و 17 ویژگی
بعد نیز مشخه حیوانات را بیان می کند.