روشها و متدهای بسیار زیاد دیگری نیز در زمینه بهبود روش کلی پالایش گروهی مطرح می­باشد که در ذیل به صورت فهرست وار اسامی این روشها بیان می­گردد و به دلیل خروج از محدوده تحقیق، جزئیات آنها بیان نمی­گردد:
Significance Weighting[27]
Inverse User Frequency[21]
weighted majority prediction[30]
imputation-boosted CF[31]
۲-۲-۲- پالایش گروهی مبتنی بر مدل(Model Based)
در این تکنیک به کمک تخمین پارامترهای مدل آماری که بر اساس نظرات کاربران ایجاد گردیده است، ارائه پیشنهاد به کاربران یا پیش ­بینی امتیازدهی کاربر مقصد به یک آیتم خاص صورت می پذیرد به عنوان مثال یکی از ابتدایی­ترین روشها، روش تبدیل پالایش گروهی به یک مسئله “طبقه ­بندی[۴۴]” می­باشد. در این حالت یک “تمایز دهنده[۴۵]” برای کاربر مقصد به صورتی ایجاد می­گردد که در آن آیتم­ها به عنوان بردار معیارها روی کاربران تعریف و امتیازهای موجود به صورت برچسب کلاس در نظر گرفته می­ شود و به کمک تکنیک­های “کاهش بعد[۴۶]” مشکل کمبود اطلاعات[۴۷] نیز برطرف می­گردد. در سالهای اخیر تکنیک­های “فاکتور نهان[۴۸]” و “مدل فاکتورگیری ماتریسی[۴۹] “به عنوان بهترین روش های موجود در این زمینه شناخته و عرضه شده ­اند[۳۲].
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

بر خلاف مدلهای مبتنی بر حافظه که بر اساس تشابه میان کاربران یا آیتم­ها و اطلاعات آماری موجود، نسبت به تولید پیشنهاد، اقدام می­نمایند تکنیکهای مبتنی بر مدل تشابه میان کاربران یا آیتم­ها را، نتیجه وجود یک ساختار سطح پایین نهفته درون داده ­ها می­دانند. در این تحقیق سعی در استفاده از تکنیک­های مبتنی بر حافظه می باشد لذا از ارائه توضیحات بیشتر در این خصوص پرهیز شده است.
۲-۳- پالایش محتوایی (Content Based Filtering)
سیستمهای توصیه­گر تولید شده با بهره گرفتن از تکنیکهای پالایش گروهی، تنها بر اساس ماتریس امتیازات کاربران به آیتم­های مختلف یا بر اساس یک مدل تولید شده از اطلاعات موجود، نسبت به محاسبه و ارائه پیشنهاد اقدام می­ کنند همچنین کاربران و آیتم­ها به صورت موجودیتهای مجزا در نظر گرفته می­شوند و خصوصیات و مشخصه­های کاربران و آیتم­ها تاثیری در نتیجه پیشنهادات نخواهند داشت در حالیکه با کسب اطلاعات بیشتر در خصوص یک کاربر و شناخت علایق و سلایق وی، می توان پیشنهادات دقیق تر و مناسبتری را به وی ارائه نمود[۸] به عنوان مثال با داشتن اطلاعات در خصوص کارگردان یا سبک یک فیلم سینمایی می­توان پیشنهادات مناسبتری را به کاربر مقصد ارائه نمود[۳۳]. این تکنیک که در آن با توجه به خصوصیات و علایق یک کاربر یا مشخصات و ویژگیهای یک آیتم و با توجه به محتوا و مفاهیم، پیشنهاداتی ارائه می­گردد تحت عنوان “سیستمهای توصیه­گر مبتنی بر محتوا” یا “پالایش محتوایی[۵۰]” نامگذاری شده ­اند.
تحقیقات بسیار زیادی در این زمینه، خصوصا در مورد پیشنهاد آیتم­هایی که اطلاعات متنی بسیاری در مورد آنها موجود می­باشد مانند کتابها، فیلم­ها و صفحات وب انجام گردیده است و به این مسئله از دیدگاه “بازیابی اطلاعات[۵۱]” نگاه شده است و جمع آوری اطلاعات و محتوای مرتبط با ترجیحات و سلایق کاربر در قالب یک “پرس­و­جو[۵۲]” بر روی اطلاعات مطرح می­ شود، به عنوان مثال کتابی که توسط کاربر مقصد امتیازی به آن داده نشده است بر اساس تشابه با پرس­و­جوی انجام شده امتیاز­ دهی می­گردد[۳۴].
به عنوان راه حل جایگزین روش های بازیابی اطلاعات، می توان مسئله پیشنهاد دهی به کاربران را به عنوان یک مسئله دسته­بندی در نظر گرفت که در آن محتوای هر آیتم به عنوان مشخصه­ها و معیار­ها مطرح می­گردند و امتیاز داده شده توسط کاربر به هر کدام از آیتم­ها به عنوان برچسب کلاس بکار می­رود­. به عنوان مثال در سایتهای فروش کتاب می­توان از اطلاعات عنوان کتاب، نویسنده، ناشر، تعداد دفعات چاپ و غیره برای آموزش[۵۳] یک چند جمله­ای کلاسه­بند بیزین ساده[۵۴] استفاده نمود[۳۵] و امتیازات در بازه ۱ تاk را مستقیما به k دسته نگاشت[۳۳].
سایر الگوریتمهای دسته­بندی مانند روش k نزدیکترین همسایه[۵۵]، درختهای تصمیم ­گیری[۵۶] و شبکه ­های عصبی[۵۷] نیز برای تولید سیستمهای توصیه­گر مبتنی بر محتوا مورد استفاده قرار می­گیرند[۳۶].
۲-۴- تکنیکهای ترکیبی
با ترکیب انواع روشها و تکنیکها می­توان مدلهای نوینی تولید نمود که دارای نقاط قوت روش های ترکیب شده باشند و در مقابل دارای نقاط ضعف کمتری نسبت به هر یک از روشها باشند. روش های متعدد و گوناگونی توسط محققان مطرح شده است که به عنوان ساده­ترین روش می توان روش های پالایش گروهی و پالایش محتوایی را با یکدیگر ترکیب نمود و لیستهای پیشنهادی توسط هر کدام از روشها را با یکدیگر ترکیب نمود یا در روشی دیگر می توان به نتایج حاصل از دو روش وزن انتساب داد و به کمک میانگین وزنی نتایج را با یکدیگر ترکیب نمود[۳۳].
۲-۵- سیستمهای توصیه­گر مبتنی بر رابطه اعتماد میان کاربران
با ظهور شبکه ­های مبتنی بر اعتماد میان کاربران و با توجه به ویژگیها و خصوصیات اینگونه شبکه­ ها، روشها و الگوریتمهای جدیدی در خصوص ایجاد و بهبود سیستمهای توصیه­گر به نام روش های مبتنی بر اعتماد مطرح گردید[۱۰][۱۵].
سیستمهای توصیه­گر مبتنی بر اعتماد، سیستمهای توصیه­گری هستند که اطلاعات ارزشمندی را به کاربران خود و بر اساس رابطه اعتماد ارائه می­نمایند. اعتماد، در واقع اندازه میزان باور کاربران نسبت به یکدیگر است که بر اساس معیارهایی همچون توانایی، قدرت و خوبی افراد شکل می­گیرد. رابطه اعتماد، لزوما یک رابطه دو طرفه نیست و در اکثر مواقع به صورت یک رابطه یک طرفه بیان می­گردد که در آن به کاربری که به سایر کاربران اعتماد می­ کند “اعتماد کننده[۵۸]” و فردی که در واقع مقصد و هدف رابطه اعتماد می باشد “مورداعتماد­[۵۹]” نامیده می­ شود.
مقوله اعتماد و اطمینان میان کاربران به دو صورت کلی “اعتماد آشکارا[۶۰]” و “اعتماد ضمنی[۶۱]” مطرح می­باشد. اعتماد آشکارا، بیانگر وجود رابطه صریح اعتماد در میان خود کاربران و بر اساس نظرات ایشان می­باشد. در اینگونه اعتماد، افراد و کاربران، خود مشخص می­ کنند که به چه افراد، گروه، سازمان یا کاربرانی اعتماد دارند و به نظرات، پیشنهادات یا آرای ایشان اطمینان دارند و نظرات آنها می ­تواند مبنا و پایه تصمیم ­گیری قرار گیرد در حالیکه در اعتماد ضمنی کاربران صراحتا رابطه اعتماد میان خود را بیان نمی­کنند بلکه بر اساس پاره­ای از شواهد، مدارک و تشابهات، وجود رابطه اعتماد میان کاربران احساس می­گردد. به عنوان نمونه، ارسال ایمیل میان دو کاربر، هم­کلاسی بودن دو فرد، جنسیت یکسان، شغل مشابه، عضویت در یک گروه مشترک، سطح سوادی و طبقاتی مشابه و مثالهایی از این دست، می­توانند بیانگر وجود یکی رابطه اعتماد ضمنی باشند.
در مورد اعتماد آشکارا نیز، دو مقوله ” اعتماد مستقیم[۶۲]” و ” اعتماد غیر­مستقیم[۶۳]” مطرح می­باشد. اعتماد مستقیم، در واقع توسط یک رابطه مستقیم فی مابین دو کاربر بیان می­ شود در حالیکه در اعتماد غیر­مستقیم، بر اساس قانون تعدی و انتقال اعتماد، رابطه اعتماد میان دو کاربر غیر همسایه، شکل می­گیرد. یکی از مسائل اصلی در سیستمهای مبتنی بر اطمینان چگونگی محاسبه اعتماد غیر­مستقیم می­باشد. دو رویکرد متفاوت برای محاسبه اعتماد غیر­مستقیم مطرح می­باشد که عبارتند از:
بر پایه مدل[۶۴] : در این روش یک مدل به همراه پارامترهایش برای محاسبه اعتماد غیر­مستقیم آموزش می­بیند[۳۷][۳۸].
بر پایه حافظه[۶۵] : در این روش از مدل استفاده نمی­ شود بلکه از روش های اکتشاف[۶۶] و ابتکاری[۶۷] استفاده می­گردد[۱۵][۳۹].
در این تحقیق رابطه اعتماد میان کاربران از نوع آشکارا در نظر گرفته می­ شود تا بتوان به نتایج دقیق و قابل اعتمادی دست یافت چرا که تعیین و میزان رابطه اعتماد ضمنی، خود به عنوان یکی از موضوعات تحقیق می ­تواند مطرح گردد.
۲-۵-۱- چگونگی کارکرد سیستم توصیه­گر مبتنی بر اعتماد
سیستمهای توصیه­گر سنتی[۶] پیش ­بینی نظر کاربر u در خصوص آیتم i را بر اساس امتیازات و نظرات کاربران مشابه محاسبه و بیان می­نمایند. در این سیستمها یک همسایگی از کاربرانی که در خصوص آیتم i دارای نظر می­باشند و از نظر پروفایل دارای شباهت با کاربر u می باشند جستجو می­گردد و سپس از تجمیع نظرات ایشان، پیش ­بینی امتیاز نهایی صورت می­پذیرد. در سیستمهای توصیه­گر مبتنی بر اعتماد، بجای شباهت کاربران از شبکه اعتماد جهت یافتن همسایگان استفاده می­گردد و برای پیش ­بینی امتیاز به یک آیتم خاص، ابتدا از همسایگان مستقیم در خصوص اینکه آیا آنها در مورد آیتم مورد نظر دارای امتیاز می باشند یا خیر، پرسش می­ شود و در صورتیکه امتیازی موجود باشد به عنوان جواب بازگردانده می­ شود و در غیر اینصورت به صورت بازگشتی، از همسایگان مستقیم خود این پرسش را مطرح می­ کنند و به این ترتیب شبکه اعتماد به جهت یافتن پاسخ، جستجو و پیمایش می­ شود.
همسایگی در یک سیستم توصیه­گر مبتنی بر اعتماد، به صورت مجموعه ­ای از کاربران دارای نظر و امتیاز در خصوص یک آیتم خاص، مطرح می­باشد که می توانند به صورت مستقیم یا غیر مستقیم مورد اعتماد کاربر مبدا قرار گیرند. امتیازات این کاربران به یک آیتم خاص، تجمیع می­گردد تا نهایتا پیش بینی امتیاز نهایی صورت پذیرد.
کاوش و پیمایش شبکه اعتماد، لزوما باعث افزایش و بهبود دقت سیستم نمی­گردد اما به زوجهای<u,i> بیشتری می تواند پاسخ دهد که طبیعتا باعث افزایش و بهبود درصد پوشش می­گردد. شکل ۲-۲ ساختار یک شبکه اعتماد و چگونگی عملکرد آنرا نمایش می­دهد.
شکل ۲-۲ : نمایش یک شبکه اعتماد به همراه امتیازات بیان شده توسط کاربران در خصوص آیتمهای مختلف[۲۰]
همان طور که در شکل فوق مشخص است شبکه اعتمادی میان کاربران وجود دارد که باعث ارتباط ایشان می­گردد. در این شبکه کاربر مبدا u به دنبال پیش بینی امتیاز، برای آیتم هدف i (الماس سبز رنگ) می­باشد که در این شبکه تنها تعداد اندکی از کاربران، دارای امتیاز در خصوص آن می­باشند و سایر کاربران، دارای امتیاز برای سایر آیتمهایی می باشند که ممکن است توسط u به آنها امتیازی داده شده باشد و یا اینکه شبیه آیتم i باشند.
۲-۵-۲- مزایا و معایب
تکنیکهای مبتنی بر اعتماد، قادر به حل مشکلات بیان شده در خصوص سیستمهای توصیه­گر مبتنی بر تکنیکهای پالایش گروهی و پالایش محتوایی می­باشند[۴۰][۴۱]. به عنوان مثال مشکل “کمبود اطلاعات[۶۸]” به دلیل وجود امکان انتقال اعتماد در شبکه میان کاربران، قابل کاهش و حل می باشد[۳۳][۴۲] مثلا اگر کاربر A به کاربر B و کاربر B به کاربر C اعتماد داشته باشد در نتیجه کاربر A به کاربر C نیز تا حدودی اعتماد خواهد داشت بنابراین در صورتیکه رابطه اعتماد مستقیمی میان کاربر هدف و سایر کاربران وجود نداشته باشد اما با توجه به توضیح فوق، کاربر هدف می تواند به واسطه توزیع و انتشار اعتماد، یک رابطه اعتماد غیر مستقیم را با سایر کاربران ایجاد نماید که این مسئله باعث افزایش درصد پوشش این تکنیکها به نسبت سایر تکنیکهای موجود خصوصا پالایش گروهی می­گردد. در کنار کلیه مزایا و بهبودهای موجود در روش مبتنی بر اعتماد باید به نکاتی نیز در مورد این روش توجه نمود:
در یک شبکه مبتنی بر اعتماد، با توجه به کمی تعداد یا کمبود اطلاعات همسایگان کاربر مبدا در خصوص آیتم مورد نظر وی، الگوریتم نیازمند این است تا علاوه بر بررسی نظرات کاربرانی که به طور مستقیم مورد اعتماد می­باشند نظرات کاربرانی نیز که به طور غیر­مستقیم مورد اطمینان می­باشند را بررسی نماید که این امر می ­تواند باعث کاهش دقت شود.
از سوی دیگر، زمانیکه در جستجوی نظرات کاربران مختلف در مورد آیتم هدف در شبکه مبتنی بر اعتماد، پیشروی می­کنیم با افزایش فاصله از کاربر مبدا، درجه اطمینان به طرز قابل ملاحظه­ای کاهش می­یابد که این امر می ­تواند باعث تولید داده ­های غیر قابل اعتماد گردد.
مدلهای مبتنی بر اعتماد دارای محدودیتها و نواقصی نیز می­باشند[۴۳]. به عنوان مثال، از نظر پیچیدگی محاسبات و منابع مورد نیاز، بهینه نبوده و دارای هزینه بسیار زیادی می­باشند و در برخی موارد نمی­ توان به صورت همزمان دقت نتایج و درصد پوشش را بهبود داد، همچنین اکثر مدلهای موجود بر وجود رابطه اعتماد مستقیم میان کاربران، بنا نهاده شده ­اند و تنها وجود یا عدم وجود رابطه اعتماد مد نظر قرار می­گیرد در حالیکه در مدل کردن دنیای واقعی، میزان رابطه اعتماد، عددی فازی و در محدوده ۰ تا ۱ می­باشد.
۲-۵-۳- انتشار اعتماد[۶۹] و تجمیع اعتماد[۷۰]
با توجه به بزرگی شبکه ­های اعتماد موجود در سایتهای مختلف، این امر کاملا مشخص است که تمامی کاربران نمی توانند روی یکدیگر شناخت داشته باشند و طبیعتا یک کاربر با تمامی کاربران دیگر ارتباط ندارد که معنی آن این است که اگر کاربر فرضی a بخواهد در رابطه با کاربر x، اعتماد خود را بیان کند به دلیل عدم وجود رابطه مستقیم با آن کاربر، باید از طریق سایر کاربران مانند کاربر b و ادامه این روند تا رسیدن به کاربر x میزان اعتماد خود را بیان نماید. به روند پیش ­بینی اندازه اعتماد میان کاربر a و کاربر x از طریق مسیر موجود میان آنها،”انتشار اعتماد” گفته می­ شود.
با توجه به این نکته که مسیرهای متعددی از کاربر a به کاربر x می ­تواند وجود داشته باشد باید مکانیزمی نیز برای تجمیع اندازه اعتماد محاسبه شده از طریق مسیرهای مختلف وجود داشته باشد که به این مکانیزم ” تجمیع اعتماد” اطلاق می­گردد.
دو مفهوم فوق پایه و اساس شبکه اعتماد و محاسبه اعتماد میان دو کاربر ناشناس را پایه­ریزی می­نمایند و روشها و تکنیکهای متعددی برای محاسبه آنها توسط محققان مطرح شده است.
۲-۶- چالش ها و محدودیتهای موجود
در این بخش پاره­ای از مشکلات، محدودیتها و چالش­های موجود در زمینه توسعه و بهبود سیستمهای توصیه­گر بیان می­گردد.
۲-۶-۱- نقصان و کاستی اطلاعات[۷۱]
به دلیل امتیاز دهی کاربران به اندکی از آیتم­های موجود و عدم وجود اطلاعات کافی در خصوص تمامی کاربران و امتیازات آیتم­ها­، در توسعه سیستمهای توصیه­گر در اکثر مواقع با مشکل کمبود اطلاعات مواجه خواهیم بود. این امر در تکنیکهای پالایش گروهی مشکلات بیشتری ایجاد می­ کند چراکه احتمال یافتن مجموعه ­ای از کاربران دارای ساختار امتیازدهی مشابه را کاهش می­دهد. مشکل نقصان اطلاعات خصوصا در ابتدای کار یک سیستم توصیه­گر که اطلاعات بسیار محدودی در اختیار می­باشد بیشتر نمایان می­گردد. برای حل این مشکل یا کاهش آن می توان از سایر اطلاعات موجود در حوزه مورد فعالیت استفاده نمود[۴۴] یا در روند تولید داده ها از مقادیر پیش فرض و مفروضات از پیش تعیین شده­ای استفاده نمود[۳۱].
۲-۶-۲- مشکل کاربران تازه وارد[۷۲]
کاربران تازه وارد یا مشتریانی که برای اولین بار از یک سایت تجاری بازدید می­ کنند و همچنین آیتم­ها و محصولات جدید، سیستمهای توصیه­گر را با یک چالش جدی مواجه می­ کنند که به صورت کلی از آن به عنوان مشکل کاربران تازه وارد یاد می­گردد[۴۵].
یکی از ابتدایی ترین اشکال این مسئله در روش پالایش گروهی ظهور می­ کند زیرا آیتم­هایی که توسط کاربران به آنها امتیازی داده نشده باشد قابل توصیه به سایر کاربران نمی­باشند یا آیتم­های خاص که مورد توجه کاربران قرار نمی­گیرند دسته­ دیگری از این مشکلات را ایجاد می­ کنند. در مقابل سیستمهای توصیه­گر مبتنی بر محتوا به دلیل تمرکز بر روی ویژگی­های یک آیتم و عدم نیاز به امتیاردهی کاربران[۳۶] می­توانند برای تمامی آیتم­ها بکار روند و در خصوص کاربران مشابه نیز باعث بهبود پیشنهادات ارائه شده به کاربر هدف گردند.
ارائه پیشنهاد به کاربران تازه وارد از پیچیدگی و دشواریهای بیشتری برخوردار است چراکه بدون داشتن اطلاعات کافی در خصوص سلایق و ترجیحات یک کاربر پیدا نمودن کاربران مشابه یا ساختن یک پروفایل برای کاربر مقدور نمی ­باشد­.
۲-۶-۳- کلاهبرداری و تقلب
با توجه به پذیرش و استفاده عملیاتی از سیستمهای توصیه­گر در وب سایتهای تجاری و نقش کلیدی و تاثیرگذار این سیستمها در سود آوری صاحبان سرمایه، باعث بروز انواع روش های کلاهبرداری در بکارگیری سیستم توصیه­گر برای تامین منافع کلاهبرداران گردیده است. به عنوان نمونه می توان به روش “حمله فشاری[۷۳]” اشاره نمود که در آن کلاهبرداران و فروشندگان متقلب سعی می­ کنند محصولات خود را دارای محبوبیت بیشتری در میان کاربران جلوه دهند یا در روش “حمله اتمی[۷۴]” سعی می­ شود تا از امتیازات کالاها و آیتم­های معرفی شده توسط رقیبان کاسته شود. این روشها و متدهای کلاهبرداری به صورت کلی تحت عنوان “حمله طولانی[۷۵]“[۴۶] و “حمله تزریق پروفایل[۷۶]“[۴۷] توسط محققین مورد مطالعه قرار گرفته است.
مطالعات نشان داده است که روش های فوق می­توانند تاثیرات مخربی بر روی امتیازات پیش ­بینی شده داشته باشند ولی متدهایی همچون پالایش گروهی مبتنی بر آیتم در مقابل چنین حملاتی مقاومت بیشتری از خود بروز می­دهد[۴۶] و طبیعتا متدهای مبتنی بر محتوا نیز که بر سابقه و گذشته امتیازدهی یک کاربر تکیه دارند در مقابل حملات تزریق پروفایل دارای مصونیت می­باشند.
در حالیکه تکنیکهای مبتنی بر محتوا در مقابل برخی از روش های کلاهبرداری مقاومت می­ کنند روش های پالایش گروهی در برخی موارد دارای برتری های نسبی نیز می­باشند، به عنوان مثال روش های پالایش گروهی می­توانند در محیطهایی فعالیت کنند که اطلاعات محتوایی قابل ملاحظه­ای در خصوص آیتم ها در دسترس نباشد یا محتوای موجود مانند ایده­ ها و عقاید به سادگی قابل آنالیز و فهم توسط سیستمهای کامپیوتری نباشد، همچنین توانایی پیشنهاد آیتم­هایی را دارند که اگرچه بر خلاف سلایق و ترجیحات قبلی کاربر می­باشد ولی باعث جلب توجه و رضایتمندی کاربران می­گردد.
۲-۶-۴- پیچیدگیهای محاسباتی و زمانی

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...