منابع علمی پایان نامه : منابع پایان نامه درباره تشخیص هرزنامه وب به ... - منابع مورد نیاز برای پایان نامه : دانلود پژوهش های پیشین |
(۲-۸)
h(k+1)=Aq a(k+1)
از این رو ]۲۹[:
A(k+1)= AqT Aq a(k)
h(k+1)=Aq AqT Aq h(k)
h(k) و a(k) به h و a همگرا می شوند. در عمل چند صد تکرار برای این همگرایی لازم است.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
۲-۴- هرزنامه وب :
جستجوی در وب در عصر اطلاعات بسیار مهم شده است. افزایش صفحات وب می تواند باعث دستاوردهای مالی و یا شهرت برای سازمانها شود. رتبه در وب شاید مهم ترین شاخص در مواجهه با صفحات وب باشد. اگر کاربری از اطلاعاتی که مربوط به صفحه وب خود است را جستجو نماید، اما صفحه اش توسط موتورهای جستجو دارای رتبه پایینی باشد، کاربر ممکن است صفحه خود را نبیند. این امر توسط سازمانها، اشخاص و حتی افراد پذیرفته شده نیست. به همین دلیل، درک الگوریتم های رتبه بندی و ارائه اطلاعاتی در صفحات فردی زمانی که اصطلاحات متناسب با محتویات آنها مورد جستجو واقع می شود که صفحات رتبه بالایی داشته باشند، امری مهم است.
متاسفانه این امر منجر به هرزنامه نگاری شده است که به فعالیتهای بشری به منظور گمراه کردن موتورهای جستجو برای رتبه بندی صفحات بالاتر از مکانی که سزاوار آن هستند، اشاره می کند.
همه صفحات مطابق با مقادیر اطلاعاتی شان رتبه بندی شده اند. هرزنامه نگاری عملی است که به مقادیر اطلاعات صفحه چیزی اضافه نمی کند اما مکان آن را در رتبه بندی با گمراه کردن الگوریتم های متورهای جستجو افزایش می دهد.
الگوریتم های موتورهای جستجو محتویات اطلاعات صفحه را درک نمی کنند، آنها از ویژگی های نحوی و یا ظاهری برای ارزیابی ارزش اطلاعات روی صفحه استفاده می کنند. هرزنامه نگاران از این ضعف به منظور افزایش رتبه صفحات خود استفاده می کنند.
اسپم برای کاربران آزاردهنده است زیرا باعث می شود آنها سخت تر به اطلاعات مفید دسترسی پیدا کنند و تجربه جستجویی خسته کننده را داشته باشند. اسپم هم چنین برای موتورهای جستجو نیز مناسب نیست زیرا باعث مصرف پهنای باند کاوشگر، آلوده شدن وب و تحریف رتبه بندی جستجو می شود.
در واقع شرکتهای های زیادی هستند که به بهبود رتبه بندی کمک می کنند. این شرکت ها ، شرکت های بهینه سازی موتورهای جستجو نامیده می شوند ([۲۳]SEO). الگوریتم های جستجو فاکتورهای مبتنی بر محتوا و مبتنی بر اعتبار را در نمره هر صفحه در نظر می گیرند، در اینجا تعدادی از روش های هرزنامه نگاری را که از این عوامل بهره برداری می کنند را شرح می دهیم] ۲۱[.
۲-۴-۱- هرزنامه محتوا:
اکثر موتورهای جستجو از تغییر پذیری TF-IDF برای ارزیابی ارتباط یک صفحه با پرسش کاربر استفاده می کنند. روش های هرزه نگاری مبتنی بر محتوا، محتویات فیلدهای متنی در صفحات HTML را با تعدادی از پرسش ها متناسب می کنند. از آنجا که TF-IDF بر اساس اصطلاحات محاسبه می شود هرزنامه نگاری محتوا، هرزنامه نگاری عبارات نیز خوانده می شود.
دو تکنیک اصلی برای هرزنامه عبارت موجود است که به سادگی محتوای غیرواقعی برای هرزنامه را ایجاد می کند.
تکرار تعدادی عبارات مهم: این روش TFعبارات تکرارشده در سند را افزایش می دهد و به این ترتیب ارتباط این سند را با این عبارات افزایش می دهد. از آنجا که تکرار ساده به راحتی قابل تشخیص می باشد ، هرزنامه عبارت می تواند با تعدادی جملات ساخته شود که ممکن است از منابع دیگر کپی شده باشد و عبارات هرزنامه به صورت تصادفی در این جملات قرار گرفته اند. برای نمونه اگر یک هرزنامه نویس، نیاز به تکرار کلمه “mining” داشته باشد، به جای تکرار چند باره متوالی آن که به آسانی قابل تشخیص است، می تواند جمله نامربوط “the picture mining quality of this camera mining is amazing “ را به کار ببرد ]۳۱[.
انبار کردن اصطلاحات نامرتبط زیاد: این روش برای مرتبط کردن صفحه با تعداد زیادی از پرس و جو ها استفاده می شود. به منظور ایجاد سریع محتوای هرزنامه، هرزنامه نویس می تواند به سادگی عبارات را از صفحات مرتبط روی وب کپی کرده و آنها را در کنار هم قرار دهد.
آگهی ها هم می توانند تعدادی عبارت مورد جستجو را مورد سوء استفاده قرار دهند و آنها را در صفحات هدف قرار دهند، به طوری که وقتی کاربر عبارت مورد نظر را جستجو می کند، صفحات هدف به آن مربوط می شوند. برای مثال برای تبلیغ بسته های تعطیلات کروز، هرزنامه نویسان اصطلاح ” تام کروز ” را در صفحات تبلیغ خود قرار می دهند، زیرا تام کروز بازیگر مشهور آمریکا می باشد که نام او به دفعات زیاد مورد جستجو واقع می شود.
هرزنامه عبارات می تواند در هر فیلد متنی قرار داده شود:
عنوان: از آنجایی که موتورهای جستجو معمولاً وزن بالایی را به عبارات عنوان اختصاص می دهند، با توجه به اهمیت عنوان در صفحه، هرزنامه عنوان رایج و متداول است.
متابرچسب ها[۲۴]:
متابرچسب های HTMLدر سر صفحه[۲۵]، مالک صفحه را قادر می سازد بعضی از اطلاعات نظیر نویسنده، چکیده، کلمات کلیدی و زبان محتوا را قرار دهد. متابرچسب ها به مقدار زیاد در هرزنامه نگاری استفاده می شوند ]۳۱[.
* متابرچسب های توصیفی (description):
این تکنیک مشابه برچسب عنوان می باشد. متابرچسب های توصیفی به طراح صفحه اجازه می دهند تا توصیف کوتاهی راجع به صفحه داشته باشد. اگر کلمات نامرتبط در این جا قرار داده شوند، الگوریتم های موتور جستجو که شاخص سازی را بر این اساس انجام می دهند، صفحات با این کلمات نامرتبط را هدف قرار می دهند.
* متابرچسب های کلمات کلیدی : متابرچسب های کلمات کلیدی، برای نشان دادن کلمات کلیدی صفحه هستند. تعدادی از موتورهای جستجو ممکن است وزن بالایی به کلمات موجود در اینجا (کلمات کلیدی) اختصاص دهند، بنابراین هرزنامه نویسان می توانند از کلمات نامرتبط در این برچسب سوء استفاده کنند] ۳۳[.
بدنه : اصطلاحات هرزنامه می تواند در بدنه به منظور افزایش رتبه قرار داده شود ]۳۱[.
متن لنگر[۲۶]:
صفحات وب دارای ویژگی های خاص در بازیابی اطلاعات وب هستند: فوق پیوندها روی صفحه وب با چند کلمه متن لنگر همراه هستند. این متن های کوتاه، معمولاً اطلاعات شخصی درباره ی صفحه ی مورد اشاره را در بر می گیرد. موتورهای جستجوی وب، متن فوق پیوندها را علاوه بر صفحه ی در برگیرنده، به عنوان محتوای صفحه ی هدف شاخص سازی می کنند. همچنین وزن در صفحه هدف به طور کلی بالاتر است] ۲۴[.
آنها در شاخص سازی صفحاتی که آنها را در بر می گیرند و صفحاتی که به آنها اشاره می کنند تاثیر گذار هستند. بنابراین هرزنامه نگاری روی متن لنگر روی رتبه بندی هر دو نوع صفحات تاثیر گذار خواهد بود.
برای هرزنامه نویسی متن لنگر، هرزنامه نویسان نمی توانند صفحه هدف را تغییر دهند، در عوض صفحات دیگری با لینک هایی به صفحه هدف ایجاد می کنند و اصطلاحات هرزنامه را به متن های لنگر این صفحه اضافه می کنند.
URL:
برخی از موتورهای جستجو URL صفحات را به عبارات می شکنند و آنها را در رتبه بندی در نظر می گیرند. بنابراین اسپم می تواند دربرگیرنده عبارات در URL شود.
۲-۴-۲-هرزنامه لینک:
از آنجا که لینک ها نقش مهمی را در تعیین نمره یک صفحه بازی می کنند، هرزنامه نویسان روی فوق پیوندها هرزنامه نگاری می کنند. در واقع هرزنامه لینک، دستکاری ساختار لینک یا متن لنگر به منظور دستیابی به رتبه بالاتر است ]۳۱[.
۲-۴-۲-۱- هرزنامه لینک های خروجی:
اضافه کردن لینک های خروجی به صفحات شخصی که به صفحات معتبر[۲۷] اشاره می کنند، آسان است. یک صفحه هاب، صفحه ای است که به تعداد زیادی صفحه معتبر اشاره کند. برای ایجاد لینک های خروجی به شکل وسیع، هرزنامه نویسان می توانند از تکنیکی به نام شبیه سازی دایرکتوری استفاده کنند. دایرکتوری های زیادی موجود است مانند یاهو، دایرکتوری باز DMOZ که حاوی تعداد زیادی لینک به سایر صفحات هستند که با توجه به برخی سلسله مراتب موضوعی مشخص، سازماندهی شده اند. هرزنامه نویسان، به سادگی بخش بزرگ دایرکتوری را برای ایجاد لینک های خروجی به صورت سریع، در صفحات هرزنامه خود تکرار می کنند ]۳۱[.
۲-۴-۲-۲- هرزنامه لینک ورودی:
هرزنامه نویسی لینک ورودی سخت تر است، زیرا که اضافه کردن فوق پیوندها روی صفحات وب دیگران آسان نیست. هرزنامه نویسان یک یا تعدادی از تکنیک های زیر را استفاده می کنند ]۳۱[.
*مزرعه لینک[۲۸]:
هرزنامه نویسان الگوریتم های مبتنی بر لینک نظیر “رتبه صفحه” و “HITS” را هدف قرار می دهند. هرزنامه نویسان می توانند با هزینه کم تعداد زیادی صفحه که به صفحه هدف متصل می شوند را ایجاد کنند. صفحات این مزرعه لینک باید از طریق کاوشگر موتور جستجو قابل دسترس باشد و این امر با اضافه کردن لینک ها روی صفحه ای که در حال حاضر در دسترس است، امکان پذیر می باشد. موتورهای جستجو از الگوریتم های مبتنی بر لینک استفاده می کنند اما این الگوریتم ها می توانند توسط ساختارهای لینک بزرگ دستکاری شوند.
برای ساخت ساختارهای لینک پیچیده به صفحات وب به عنوان گره های پشتیبان[۲۹] نیاز دارند. هرزنامه نویسان از دو نوع صفحه استفاده می کنند:
صفحات شخصی که تحت کنترل کامل هرزنامه نویسان هستند. این صفحات توسط هرزنامه نویسان ایجاد شده اند. محتوا، URL و ساختار لینک این صفحات توسط هرزنامه نویسان ایجاد شده است.
صفحات دسترس پذیر که مالک آنها، هرزنامه نویسان نیستند اما هر شخصی اجازه افزودن محتوای خود را دارد. این صفحات می تواند انجمن ها[۳۰] و پست های بلاگ ها باشد. هرزنامه نویسان می توانند لینک هایی را به عنوان “نظر” برای انتشار اعتبار صفحات دسترس پذیر به صفحات هدف اضافه کنند. فرض کنید که هرزنامه نویسان می خواهند الگوریتم “رتبه صفحه” را مورد حمله قرار دهند و نیاز به افزایش مقدار “رتبه صفحه” صفحه t در مزرعه لینک G دارند. برای آنالیز این سناریو، مقدار رتبه صفحه کلی G هست ]۳۰[:
PR(G)=PRstatic(G) + PRin(G)-PRout(G)-PRsink(G)
که PRstatic(G) مقدار رتبه صفحه جمع آوری شده به وسیله رَندم سورفر می باشد. PRin(G) به وسیله صفحات دیگر که به G لینک می شوند، دریافت می شود. PRout(G) به وسیله صفحات دیگر (لینک های خارجی) ارسال می شود. PRsink (G) رتبه صفحه در صفحات بدون لینک خروجی است.
ما یک مزرعه لینک ساده را شرح می دهیم که فرمول بالا را بیشینه می کند و هم چنین رتبه صفحهt G را بیشینه می کند.
صفحات شخصی به منظور افزایش PRsinkبه G اضافه می شوند.
همه صفحات دسترس پذیر به منظور افزایش PRin به G می پیوندند .
فرم در حال بارگذاری ...
[چهارشنبه 1401-04-15] [ 06:36:00 ق.ظ ]
|