این پروژه متشکل از دو نوع سیستم پیشنهاد دهنده و مشارکتی یا Collaborative filtering و محتوا محور یا Content-Base است که با تلفیق این دو نوع سیستم پیشنهاد دهنده یک سری فیلم که
قبلا توسط کاربران موجود در سیستم رتبه داده شده اند، به کاربر جدید الورود مشکل
شروع سرد دارد، پیشنهاد می شود. یکی از مهمترین چالش هایی که در سیستم های پیشنهاد
دهنده و بخصوص وب سایت ارائه دهنده خدمات و محصولات مطرح هست مشکل شروع سرد
کاربران یا آیتم ها است. شروع سرد کاربران یا آیتم ها (Cold Start) زمانی اتفاق می افتد که
کاربر جدیدی به سیستم وارد شده و هیچ
عملیات یا فرآیندی در سیستم برای آنها ثبت نشده است و تنها اطلاعات دموگرافیک،
نمایه یا پروفایل آنها در اختیار است. مشکل شروع سرد آیتم ها نیز همانند مشکل شروع
سرد کاربران میباشد با این تفاوت که برای آیتم هیچ فرآیند و رکوردی در سیستم ذخیره
نشده است.
معیار های ارزیابی:
در این پروژه که بسیار کاربرد فراوانی در عرصه ها و زمینه های مختلفی
دارد مشکل شروع سرد کاربران را مرتفع نموده و فیلم های جذابی را به کاربر
جدید الورود پیشنهاد میدهد. خروجی این شبیه سازی دو معیار بسیار مهم RMSE و MAE
است. این دو معیار که در بسیاری از سیستم های پیشنهاد دهنده مورد استفاده قرار گرفته و در واقع ارزیابی این سیستم ها را مورد
سنجش قرار می دهد. معیار RMSE بیانگر مجذور مربع خطاها و معیار MAE بیانگر میانگین
خطای واقعی است. بنابراین از این دو معیار نیز می توان در مقالات و پژوهش های خود
استفاده نمایید.
اطلاعات دیتاست:
این پروژه دارای یک دیتاست بسیار جالب در رابطه با فیلم و کاربران
است. دیتاست قابل دسترس در سایت Movilens قابل دسترس بوده اما با پسوند .dat می باشد. ما با اعمال پیش
پردازش و آماده سازی داده این دیتاست را به صورت اکسل در دسترس قرار داده ایم که
با خرید پروژه نیز قابل دسترس می باشد.
مراحل پیاده سازی سیستم پیشنهاد دهنده فیلم:
- در شبکه سازی انجام شده روال کاربدین صورت است که ابتدا دیتاست
کاربران که شامل 6020 کاربر است به سیستم پیاده سازی شده وارد شده و اطلاعات
دموگرافیک آنها در ست باکس نمایش داده می شود. یکی از مراحل موجود در این شبیه
سازی انتخاب یک دسته برای کاربر جدید الورود است. قبل از این مرحله ابتدا یک خوشه
بندی بر روی کاربران انجام می شود. الگوریتم انتخاب شده جهت خوشه بندی کاربران و
این شبیه سازی الگورتیم معروف و محبوب K-Means است. یکی از مهم ترین
عملیا تی که در این مرحله صورت گرفته است این است که در مراحل مختلف تعداد خوشه
های متفاوتی الگورتیم K-Means در نرم افزار داده کاوی Weka یا و کا داده شده و تعداد خوشه های
بهینه محاسبه می شود. همانطور میدانید در الگورتیم K-Means تعداد خوشه ها میبایست از
قبل تعیین شود به همین دلیل میبایست تعدادی خوشه را به الگوریتم خوشه بندی K-Means داده و خطا های مورد نظر را
محاسبه نموده و در نهایت تعدادی خوشه های تعیین می شود که دارای کمترین میدان خطا
است. بنابراین پس از اینکه یک خوشه بندی اولیه برروی داده ها صورت گرت تعدادی خوشه
به هر کاربر تعیین میشود.
- در مرحله بعد میبایست برای کاربر جدیدالورود یک خوشه یا دسته تعیین
شود . بدین منظور به جای اینکه از خوشه بندی K-Means استفاده شود و زمان زیادی
را نگیرد از الگورتیم های دسته بندی یا Classifier مانند درخت تصیم یا شبکه
عصبی و غیره به صورت یادگیری تقویتی استفاده
نموده تا بتوان یک دسته را برای کاربر جدید الورود تعیین نمود. بنابراین نحوه
انتخاب دسته ها با نرم افزار داده کاوی ریپد ماینر یا rapidminer صورت گرفته و سورس موجود
علاوه بر شبیه سازی انجام با #c تحویل می گردد.
- پس از اینکه دسته مربوط به کاربر جدید تعیین شد میبایست کلیه کاربران
موجود در آن خوشه یا دسته را استخراج نموده و روش های شباهت را اجرا نموده در
نهایت کاربرانی را که میزان مشابهت بیشتری با کاربر جدید الورود دارد از آن دسته استخراج نموده و به عنوان
کاربران همسایه بر میگرداند . الگورتیم های محاسبه شباهت بین کاربر جدید الورود و
کاربران موجود در خوشه ها تعیین شده بر اساس سن جنسیت و شغل است),
- پس از این مرحله ماتریس مجاورتی بین کاربر جدید وکاربران همسایه ای که
در مرحله قبل استخراج شد تشکیل می گردد. در این مرحله دیتاست مربوط به فیلم هایی
توسط سایر کاربران RATE داده شده اند بارگزاری می گردد . یکی از بهینه سازی هایی
که در این مرحله انجام شده است این بوده که کلیه رکورد های این دیتا ست بصورت یک
جا بارگزاری نمی شوند یا زیر این دیتا ست در حدود 1000000 رکود داشته ودر صورت بارگزاری
یک آن زمان و حافظه زیادی را از خود می گیرد. بنابر این شبیه سازی تنها رکورد هایی
از دیتاست rating.txt بازیابی می شود که مخصوص کاربران همسایه است و از بارگزاری حجم
عظیم داده ها خود داری می کند.
- پس از اینکه ماتریس محاوراتی بین کاربران همسایه کاربر جدید لورود و
فیلم هایی که توسط این کاربران امتیاز دهی شده اند میبایست فرمول پیش بینی فیلم ها
برای کاربر جدید اجرا شده و امتیازات مربوط به هر فیلم کاربر جدید محاسبه شده و در
نهایت فیلم هایی را که دارای بیشترین امتیاز پیش بینی شده است و به کاربر جدید لورود
توصیه شده و در نهایت معیار RMSE و MAE محاسبه میشود.
- در این شبیه سازی سناریو های
مختلفی تعریف شده است که فرآیند پیشنهادات فیلم برای کاربران با تعداد 100و 500و
900 صورت گرفته است. همان طور که0 در مقا له پایه مشاهده می گردد این سناریو ها
وجود داشته و هر سناریو دارای یک جدول و خروجی می باشد.
مقاله استفاده شده در این پروژه از ژورنالهای ISI و الزیور(Elsevier) و مربوط به سال 2014
میباشد. یکی از قابلیت های مهم این شبیه سازی این است که ضمن نمایش خروجی های
موجود در مقاله نتایج مربوطه نیز با ارائه یک ایده و نوآوری پیاده سازی شده و
نتایج مربوطه نیز بهبود یافته اند.
لازم به ذکر است که یکی از مهمترین زمینه های که امروزه در بسیاری از پژوهشهای ارشد و دکتری مورد توجه قرار گرفته است سیستم پیشنهاد دهنده در شبکه های اجتماعی و بر خط هستند . در صورت نیاز به توصیه هر پژوهشی در سطوح ارشد و دکتری در زمینه سیستم های پیشنهاد دهنده در شبکه های اجتماعی، شبکه های بر خط، وب سایت های ارائه دهنده محصولاتی مثل فیلم، موزیک، محصولات فروشگاهی، گردشگری، دوست یابی و غیره یا تهیه بروپوزال جهت اخذ درجه کارشناسی ارشد و دکتری یا اخذ بورسیه تحصیلی در کشور های مختلف یا نگارش مقاله و پایان نامه یا شبیه سازی مشابه با پشتیبانی وب سایت رسمی ناب پروژه از طریق Telegaram تماس حاصل فرمایید.