مطابق فرمول ۳-۸
ماتریس ، ماتریس تشابه معنایی از روی الگوریتم ۳ تشکیل می شود.

ماتریسM از طریق دو ماتریس بالابه صورت زیرتشکیل می شود.
فاکتور وزنی شباهت خطی و فاکتور وزنی شباهت معنایی است. که . هر کدام از این ضرایب اگر صفر در نظر گرفته شوند ماتریس مربوطه در محاسبه ماتریس مجموع M لحاظ نمی شود. اگر این ضرایب هر دو ۰٫۵ باشند یعنی شباهت خطی و معنایی هر دو به یک میزان اهمیت دارند. عنصر با ماکزیمال ارزش، در ماتریس Mاستخراج می شود.
اگر این مقدار بزرگتراز صفربود به لیست اضافه می شود، . سطر و ستون مربوط به آن از ماتریس حذف می شود. این کار تا زمانی که و یا ادامه پیدامی کند.
۶- تمام مقادیرو هم جمع می شوند . طبق فرمول میزان شباهت چند گانه با ضرب در مجموع m و n و تقسیم بر دو برابر ضریب آنها به مقداری بین صفر و یک بالانس می شوند. در این روش می توان از هرکدام از روش ها و مقادیر شباهت صرفه نظر کرد. مثلا از معیار شباهت کلمات متداول با صفر اعلام کردن صرفه نظر کرد و یا اینکه با صفر در نظر گرفتن اهمیت نحوی را نادیده گرفت]۲۳ [.
۵٫۲٫۳ . نمونه توضیح روند کار
دو تکه متن مورد نظر برای مقایسه و محاسبه ضریب شباهت به روش فوق با R وP مشخص شده است.

مرحله ۱ : جدا کردن کلمات اصلی و مشخص
m=5
n=6
مرحله ۲ : کلمه هایی که در هر دو مجموعه مشترک است حذف می شوند.

مرحله ۳ : ماتریس تشابه خطی با محاسبه تشابه خطی تک تک کلمات بر اساس فرمول ۳-۸ تشکیل می شود.

مرحله ۴ :ماتریس تشابه معنایی نیز تشکیل می شود.

مرحله ۵ : ماتریس M از طریق دو ماتریس قبل به کمک فرمول زیر تشکیل می شود.

سپس مقدار ماکزیمم به مجموعه ρ اضافه می شود و سطر و ستون آن حذف می شود. این کار تا زمانی که و یا ادامه پیدا می کند.

ρ = {۰٫۷۷۱}

ρ = {۰٫۷۷۱, ۰٫۴۴۷}

ρ = {۰٫۷۷۱, ۰٫۴۴۷, ۰٫۴۴۵}

ρ = {۰٫۷۷۱, ۰٫۴۴۷, ۰٫۴۴۵, ۰٫۱۵۴}
مرحله ۶: و در نهایت محاسبه ضریب تشابه ترکیبی برای دو جمله R وS

فرمول۳-۹

۳٫۳٫ خوشه بندی داده ها
۱٫۵٫۲٫ الگوریتم K-means
با توجه به ]۲۷ [الگوریتم K-means یک الگوریتم ساده تکرار شونده است، که مجموعه داده ها را به K خوشه تقسیم می کند. این الگوریتم در سالهای مختلف در زمینه های گوناگون توسط افرادی مانند LIoyd (1982،۱۹۵۷)، Forgey (1965)، Friedman و Rubin (1967) و McQueen (1967) توسعه یافته است. الگوریتم روییک مجموعه از بردار های d بعدی تعریف می شود، که و نشان دهنده i امین نقطه داده است.
تکنیک مورد استفاده برای انتخاب نمونه های اولیه برای تشکیل K دسته، شامل نمونه گیری تصادفی از مجموعه داده هاست. سپس الگوریتم دو قدم زیر را به صورت مکرر انجام می دهد.
گام اول، تخصیص داده:
هر نقطه داده ها به نزدیک ترین مرکز جرم اختصاص داده می شود. اختصاص داده با بهره گرفتن از یک سری روابط قراردادی و دلخواه انجام می گیرد. این فرایند منجر به دسته بندی داده ها می شود.
گام دوم، جابجایی دسته ها:
نمایندگی در دسته به مرکزی ترین نقطه در دسته اختصاص داده می شود. اگر میزان احتمال داده ها یک اندازه باشد. پس جابجایی ها به اندازه انتظار یعنی به اندازه میانگین وزنی خواهد بود. با توجه به این مطلب الگوریتم اگر انتساب داده ها ارزشCj در معادله تغییر زیادی نداشته باشد، همگرا خواهد بود.

اصول الگوریتم در روند زیر دنبال شده است.
الگوریتم ۴ : الگوریتم K-means

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...