این پروژه به که با زبان برنامه نویسی سی شارپ تهیه شده است یک دیتاست مربوط به متون بیماری و مجموعه لغات مربوطه که بیش از 1 میلیون نمونه است را در قالب داده های آزمایشی و داده های آموزشی دریافت کرده و با استفاده از الگوریتم خوشه بندی k-means و معیارهای شباهت اقلیدوسی و سینوسی عملیات خوشه بندی بروی متون و لغات را انجام داده و لفات مربوط به هر خوشه را تعیین نموده و دسته بندی میکند.
بنابراین هدف
اصلی این پروژه خوشه بندی متون در خالب دسته های مختلف و تشخیص نوع سندی است که
حاوی متون مورد نظر می باشد. در این پروژه متن کاوی با خوشه بندی، ابتدا تعداد k به عنوان تعداد خوشه ها از کاربر دریافت شده و پس از پیمایش متون
و تعیین خوشه برای هر متن، خروجی و خوشه های تعیین شده در قالب لیست باکس نشان
داده می شود. لازم به ذکر است که کلیه کدهای نوشته شده دارای کامنت است که پس از
خرید در اختیار شما قرار داده می شود. دیتاست مربوطه نیز به صورت رایگان در اختیار
خریدار قرار داده می شود.