(۳-۷)

شاخص DBK میانگین شباهت بین هر خوشه و شبیه‏ترین خوشه به آن می‏باشد. مقادیر کوچک برای این شاخص فشردگی و تفکیک شدگی مناسب خوشه‏ها را نشان می‏دهد. فشردگی بیشتر خوشه‏ها و تفکیک شدگی مناسب آنها می‏تواند نشان دهنده‏ی خوشه‏بندی‏ای با کیفیت مناسب باشد. با کمینه نمودن شاخص DB می‏توان تعداد خوشه‏های مناسب برای یک مجموعه داده‏ای را نیز تعیین نمود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

مقداری که این شاخص به عنوان نتیجه بدست می‏آورد در بازه‏ی مشخصی قرار ندارد. از اینرو، جهت قرار دادن مقادیر شاخص DB به ازاء هر خوشه‏بندی در یک بازه‏ی مشخص، باید این مقادیر نرمال سازی شوند. ما از نرمال سازی Min-Max جهت محدود نمودن مقادیر شاخص DB در بازه‏ی ۰٫۰۰۱ تا ۰٫۹۹۹ استفاده می‏نماییم. رابطه (۳-۸) نحوه‏ی نرمال سازی شاخص DB را نشان می‏دهد:

(۳-۸)

در رابطه (۳-۸)، مقدار شاخص DB برای خوشه‏بندی πi با Ki خوشه می‏باشد.
همانطور که گفته شد مقدار کوچکتر برای شاخص DB نشان‏دهنده‏ی خوشه‏هایی با فشردگی و تفکیک شدگی بیشتر است. بنابراین جهت تعیین وزن هر خوشه با بهره گرفتن از شاخص DB به طوری که مقدار بزرگتر نشان‏دهنده‏ی خوشه‏بندی‏ای با کیفیت بالاتر باشد، وزن هر خوشه‏بندی به صورت رابطه (۳-۹) تعریف می‏گردد.

(۳-۹)

دلیل انتخاب بازه‏ی ۰٫۰۰۱ تا ۰٫۹۹۹ به جای بازه‏ی ۰ تا ۱ این است که خوشه‏بندی‏هایی با کیفیت پایین‏تر نسبت به دیگر خوشه‏بندی‏ها، دارای وزن صفر نشوند و به طور کل هیچ تأثیری بر روی خوشه‏بندی نهایی نداشته باشند. به همین ترتیب خوشه‏بندی‏هایی با کیفیت بالاتر نسبت به دیگر خوشه‏بندی‏ها، دارای وزن یک نشوند و تأثیر مطلقی بر روی خوشه‏بندی نهایی داشته باشند. به عبارت دیگر تعیین چنین بازه‏ای به منظور ایجاد تعادل بین تأثیر گذاری رأی خوشه‏بندی‏هایی با کیفیت پایین‏تر و خوشه‏بندی‏هایی با کیفیت بالاتر در خوشه‏بندی نهایی است.
همانطور که در فصل قبل به آن اشاره گردید یکی از ویژگی‏هایی که اغلب روش‏های خوشه‏بندی توافقی دارا می‏باشند، عدم نیاز به صفات خاصه‏ی (ویژگی‏های) داده‏های اصلی جهت انجام خوشه‏بندی است. بنابراین ممکن است این ابهام به وجود آید که در روش پیشنهادی جهت محاسبه‏ی وزن خوشه‏بندی‏ها باید صفات خاصه‏ی داده‏ها در دسترس باشند. از اینرو لازم به ذکر است که می‏توان از منابعی که وظیفه‏ی تولید خوشه‏بندی‏های اولیه را به عهده دارند در خواست نمود تا شاخص DB را هم به عنوان نتیجه‏ی خوشه‏بندی ارائه دهند. بدین صورت نیازی به صفات خاصه‏ی داده‏ها جهت انجام خوشه‏بندی توافقی با بهره گرفتن از راهکار پیشنهادی نمی‏باشد.
۳-۲-۳- خوشه‏بندی توافقی بر روی داده های توزیع شده ناهمگن
در دو بخش قبل به بررسی نحوه‏ی یافتن خوشه‏های نظیر به نظیر و چگونگی وزن‏دار نمودن خوشه‏بندی‏ها پرداخته شد. در این بخش قسمت اصلی کار یعنی الگوریتم خوشه‏بندی توافقی به صورت وزنی ارائه خواهد شد. در الگوریتم پیشنهادی جهت انجام خوشه‏بندی توافقی به ازاء هر یک از اشیاء داده‏ برداری به صورت مورد استفاده قرار می‏گیرد. هر یک از ابعاد این بردار نشان‏دهنده‏ی شماره خوشه‏ای است که داده‏ی xi در یک خوشه‏بندی مشخص در آن قرار گرفته است. مجموعه داده‏هایی که الگوریتم بر روی آنها کار می‏کند نیز به صورت Y={y1, y2, …, yN} می‏باشد.
الگوریتم پیشنهادی از دو گام اصلی تشکیل شده است. در گام اول نماینده‏ی (مرکز) هر یک از خوشه‏های موجود تعیین می‏گردد. در گام دوم نیز هر یک از داده‏ها به خوشه‏ای که کمترین فاصله را با نماینده آن خوشه دارند، تخصیص می‏یابند. نماینده‏ی هر خوشه در گام اول با بهره گرفتن از تشخیص اکثریت آراء به ازاء هر خوشه‏بندی، تعیین می‏گردد. در شکل ۳-۳ نحوه‏ی تعیین نماینده‏ی یک خوشه‏ی فرضی از خوشه‏بندی نهایی آورده شده است. در گام دوم نیز فاصله‏ی هر بردار yi با نماینده‏ی هر یک از خوشه‏ها محاسبه می‏گردد. شبه کد الگوریتم خوشه‏بندی توافقی بر روی داده های توزیع شده ناهمگن[۱۵۲] ( COHD) در الگوریتم ۳-۳ آورده شده است.

π۳

π۲

π۱

۱

۱

۱

y1

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...