شکل ۳-۶ نواحی مثبت، منفی، مرزی و تقریب­های مجموعه
۳-۵- انتخاب ویژگی[۱۴۹]
اغلب ویژگی­های زیادی در یک پایگاه­داده وجود دارد. طبعاً انتظار می­رود هرچه ویژگی­های بیشتری در نظر گرفته می­شوند، اطلاعات کامل­تری برای دسته­بندی داشته باشیم. اما اگر همزمان با افزودن هر ویژگی، حجم مجموعه ­داده­ی آموزشی[۱۵۰] زیاد نشود، این برداشت صحیح نخواهد بود. به این وضعیت اصطلاحاً «دردسر ابعادی»[۱۵۱] گفته می­ شود. در مجموعه­های داده­ای با ابعاد بالا، بیشتر ممکن است حالتی پیش بیاید که در آن داده ­کاوی الگوهای نادرستی را پیدا کند که عمومیت ندارند (Jensen, 2005).

مدیریت دانش، عنصر کلیدی در استخراج ارزش است. فرایند کشف دانش به ویژه کشف دانش در یک پایگاه­داده، موضوع مهمی است. این فرایند از مراحل زیر تشکیل شده است (Düntsch, 2000):

    1. انتخاب داده[۱۵۲]
    1. پیش پردازش داده ­ها[۱۵۳]
    1. کاهش داده ­ها[۱۵۴]
    1. داده کاوی[۱۵۵]
    1. ارزشیابی[۱۵۶]

از آنجا که در اغلب موارد یک پایگاه داده­ فاقد منابع معنایی است، سومین گام از فرایند کشف دانش، یعنی کاهش ویژگی­ها، موضوع مهمی در هنگام مواجهه با حجم زیاد داده است (Jensen, 2005).
بسیاری روش­ها هستند که تا حدی به کاهش ابعاد داده کمک می­ کنند. ولی با توجه به آنچه گفته شد ما نیاز به روشی کارآمد و مؤثر برای کاهش ابعاد داده داریم. استفاده از نظریه مجموعه­های ژولیده، رویکردی است که در این مرحله به سادگی مورد استفاده قرار می­گیرد. کاهش ویژگی مجموعه­ ژولیده[۱۵۷] ابزاری را فراهم می­ کند که توسط آن دانش از اطلاعات قابل استخراج است. مزیت اصلی مجموعه­ ژولیده این است که هیچ­گونه پارامتر اضافه­ای را برای انجام عملیات لازم ندارد و تنها ساختار حبّه­ای[۱۵۸] داده ­های در دسترس را بکار می­گیرد (Jensen and Shen, 2004). حبّه یک جزء بنیادی از دانش است که برای ما قابل درک است (Suraj, 2004). یک مجموعه­ داده­ای با مقادیر گسسته در اختیار است. با بهره گرفتن از نظریه‌ی مجموعه­های ژولیده، یافتن زیرمجموعه­ای از ویژگی­های اصلی که بیشترین اطلاعات را در اختیار ما قرار می­دهد و فاقد افزونگی است امکان­ پذیر است؛ این زیرمجموعه فروکاست[۱۵۹] نامیده می­ شود. سایر ویژگی­ها با از دست رفتن کمترین اطلاعات می­توانند از سامانه حذف شوند (Jensen and Shen, 2004).
یک موضوع مهم در بررسی داده ­ها، کشف وابستگی بین ویژگی­ها است. اگر تمام مقادیر مجموعه ویژگی­های Q با بهره گرفتن از مجموعه ویژگی­های Pمشخص گردد آنگاه Q کاملاً وابسته به مجموعه ویژگی­های P گفته می­ شود و با نماد نشان داده می­ شود. مفهوم وابستگی می ­تواند به صورت زیر تعریف گردد:
برای ، Q وابسته به P در درجه k نامیده می­ شود اگر:

(۳-۱۶)

این مفهوم با نماد نمایش داده می­ شود. اگر باشد، آنگاه Q کاملاً وابسته به P نامیده می­ شود؛ اگر ، آنگاه Q وابسته­ی جزئی به P از درجه­ k نامیده می­ شود و اگر باشد، آنگاه Q وابسته به P نخواهد بود (Jensen and Shen, 2000).
با محاسبه­ی تغییرات وابستگی، وقتی که یک ویژگی از ویژگی­های شرطی مجموعه حذف می­ شود، اندازه معنایی[۱۶۰] یک ویژگی به دست می ­آید. تغییر بالاتر در وابستگی نشان­دهنده قابلیت معنایی بالاتر ویژگی است. فرض کنید P وQ و ویژگی داده شده است. معنای ویژگی به صورت زیر تعریف می­ شود:

(۳-۱۷)

۳-۶- فروکاست­ها و هسته[۱۶۱]
کاهش ویژگی­ها با مقایسه روابط هم­ارزی تولید شده توسط مجموعه­های ویژگی­ها به دست می ­آید. ویژگی­ها به گونه ­ای حذف می­شوند که کیفیت طبقه ­بندی مجموعه­ کاهش یافته و مجموعه­ اصلی یکسان باشد.
یک فروکاست از مجموعه­ ویژگی­های اصلی به صورت زیر تعریف می­ شود:
فروکاست مجموعه ویژگی شرایط C نسبت به مجموعه ویژگی تصمیم D زیرمجموعه است که در دو شرط زیر صدق می­ کند (Jensen and Shen, 2000).

    • حذف هر ویژگی شرط (۱) را تحت تأثیر قرار می­دهد.

یک مجموعه از ویژگی­ها می ­تواند فروکاست­های مختلفی داشته باشد و بنابراین مجموعه تمام فروکاست­ها به صورت زیر قابل تعریف است:

(۳-۱۸)

اشتراک تمام مجموعه­های R، هسته نامیده می­ شود، و ویژگی­هایی را نشان می­دهد که حذف آنها موجب به وجود آمدن تناقض در مجموعه­ داده­ای می­ شود.
در مفهوم RSAR، فروکاست با کمترین تعداد عضو دارای اهمیت است. این فروکاست، فروکاست کمینه نامیده می­ شود و عبارت است از:

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...