پروژه امنیت در رایانش ابری که با متلب پیاده سازی شده در واقع امنیت در
محاسبات ابری را با استفاده از تکنیکهای داده کاوی پیاده سازی میکند. این پروژه یک
دیتاست آموزشی را دریافت کرده و عملیات داده کاوی را بروی دیتاست با استفاده از
تکنیک طبقه بندی KNN
انجام میدهد. سپس یک دیتاست test
را دریافت کرده و داده های پرت محلی را کشف میکند.
یکی از چالشهای محاسبات ابری، بحث امنیت و حفظ حریم خصوصی در آن ها است. طرفداران
حفظ حریم خصوصیها مدل ابر را مورد انتقاد قرار میدهند، زیرا ارائه دهندگان
سرویسهای ابر میتوانند کنترل و نظارت کامل قانونی ویا غیر قانونی بر روی دادهها
و ارتباطات بین کاربران سرویس و میزبان ابر داشته باشند. رویدادهایی همچون برنامه
مخفی آژانس امنیت ملی ایالات متحده آمریکا به همراه شرکتهای AT&T و ورایزون که بیش از ده میلیون
مکالمه تلفنی شهروندان امریکایی را ضبط نمودند، باعث بوجود آمدن بیاعتمادی میان
طرفداران حفظ حریم خصوصی شدهاست. امنیت نسبی رایانش ابری موضوعی بحث انگیز است که
ممکن است پذیرش رایانش ابری را به تأخیر بیندازد. گروهی بر این باورند که امنیت
دادهها وقتی که در داخل سازمان اداره شوند بالاتر است، در حالی که گروهی دیگر عقیده
دارند که ارائه دهندگان سرویس انگیزهای قوی برای حفظ اعتماد دارند و از این رو
سطح امنیت بالاتری را بکار میگیرند. در این تحقیق، نحوه کاربرد روش ضریب داده پرت
محلی برای حفظ امنیت محاسبات ابری بررسی شده است.
در دهه های اخیر، توانايي های فنی بشر برای توليد و جمع آوری دادهها به سرعت
افزايش يافته است. عواملی نظير استفاده گسترده از توانایی های کامپيوتر در علوم
مختلف، پیشرفت تجهیزات آزمایشگاهی، پيشرفت در وسایل جمع آوری داده ها، از اسکن
کردن متون و تصاوير تا سيستم های سنجش از راه دور ماهواره ای، در اين تغييرات نقش
مهمی داشته اند. اين رشد انفجاری در دادههای ذخيره شده، باعث پیدایش تکنولوژی های
جديد و ابزارهای خودکار شده است تا اين حجم زياد داده را به اطلاعات و دانش تبديل
کند. داده کاوی به عنوان يک راه حل برای اين مسائل مطرح مي باشد. داده کاوی
با بهره گیری از ابزارهای تجزیه و تحلیل دادهها به منظور کشف الگوها و روابط
معتبری که تا کنون ناشناخته بودهاند، اطلاق میشود. این ابزارها ممکن است مدل های
آماری، الگوریتمهای ریاضی و روشهای یاد گیرنده
باشند. داده کاوی منحصر به گردآوری و مدیریت دادهها نبوده و تجزیه و تحلیل
اطلاعات و پیش بینی را نیز شامل میشود. تا کنون تعاریف متعددی از داده کاوی ارائه
شده است که در زیر به برخی از آنها اشاره شده است:
- دادهکاوی
پل ارتباطی میان علم آمار، علم کامپیوتر، هوش مصنوعی، الگوشناسی، فراگیری
ماشین و بازنمایی بصری داده است.
- دادهکاوی
فرآیندی پیچیده جهت شناسایی الگوها و مدلهای صحیح، جدید و به صورت بالقوه
مفید، در حجم وسیعی از داده است، به طریقی که این الگوها و مدلها برای انسانها
قابل درک باشند.
- دادهکاوی
به صورت یک محصول قابل خریداری نمیباشد، بلکه یک فرآیندی است که بایستی به
صورت یک پروژه پیادهسازی شود.
داده کاوی دارای مراحلی است که در زیر به آنها به صورت مختصر اشاره شده است:
کشف
دانش دارای مراحل تکراری زير است:
- پاکسازی
داده ها (از بين بردن نويز و
ناسازگاری داده ها).
- يکپارچه
سازی داده ها (چندين منبع داده ترکيب
می شوند).
- انتخاب
داده ها (داده های مرتبط با آناليز
از پايگاه داده بازيابی می شوند).
- تبديل
کردن دادهها (تبديل داده ها به فرمی
که مناسب برای داده کاوی باشند مثل خلاصه سازی و همسان سازی)
- داده
کاوی (فرايند اصلی که روال های هوشمند برای استخراج الگوها از داده ها به کار
گرفته مي شوند.)
- ارزيابی
الگو (برای مشخص کردن الگوهای صحيح و
مورد نظر بوسيله معيارهای اندازه گيری)
ارائه دانش (يعنی نمايش بصری،
تکنيکهای بازنمايي دانش برای ارائه دانش کشف شده به کاربر استفاده می شود)
در قسمت زیر حروجی ها نشان داده شده است:
ورودی های تابع عبارتند از:
- dataset: این متغیر یک ساختار (structure) است که خود شامل دو متغیر trainx (داده های آموزشی) و testx (داده های آزمون) است.
- params: یک ساختار برای داده های آموزشی است
که خود شامل متغیرهای زیر است:
- params.minptslb: کران پایین
برای minpts (تعداد همسایه ها)
- params.minptsub: کران بالا
برای minpts (تعداد همسایه ها)
- params.ptsStep: گام افزایشی
برای مقدار پارامتر k
(تعداد همسایه ها). مقدار پیش فرض 1 است.
- params.theta: مقدار
پارامتر آستانه برای ضریب LOF.
کلاس 2 (داده پرت) و کلاس 1 (داده نرمال) است.
خروجی های تابع عبارتند از:
- خروجی resultsخود یک ساختار است که شامل متغیرهای زیر است:
- results.yprob: ضریب LOF محاسبه شده برای هر داده
- results.y: کلاس داده تخمین زده شده برای هر
نمونه. . کلاس 2 (داده پرت) و کلاس 1 (داده نرمال) است.
- results.lof: یک ماتریس که
شامل ضرایب LOF
محاسبه شده برای هر مقدار پارامتر k
(تعداد همسایه ها) است. هر ستون مشخص کننده ضرایب LOF برای یک مقدار k است.