در معادلات فوق، مجموعه مثال، مجموعه ویژگی­ها، تعداد زیرمحموعه­هایی که توسط ویژگی ایجاد می­گردد، زیرمجموعه ام از مجموعه ، مقدار اطلاعات کلاس­بندی با ویژگی و بهره اطلاعاتی که با توجه به ویژگی تولید می­ شود.
از میان ویژگی­های مختلف، آن ویژگی که دارای بزرگترین بهره اطلاعاتی باشد، به عنوان ویژگی غالب در آن گره انتخاب خواهد شد. در مرحله اول طبق رابطه (‏۶‑۳) آنتروپی کل داده ­ها محاسبه می­ شود و داده ­ها به ویژگی­های متفاوتی شکسته می­شوند و با بهره گرفتن از رابطه (‏۶‑۴) بهره برای هر شاخه محاسبه شده و به تناسب هر کدام، آنتروپی کل­شکست محاسبه می­ شود و با توجه به رابطه (‏۶‑۵) آنتروپی حاصل از آنتروپی قبل از شکست کم می­ شود. ویژگی که محصول بزرگترین بهره اطلاعاتی است، به عنوان گره انتخاب می­گردد. الگوریتم یادگیری به صورت بازگشتی روی شاخه­ های بدون برگ تا زمانی که همه داده ­ها کلاس­بندی شوند، اجرا خواهد شد. این الگوریتم هر شاخه از درخت را آنقدر به عمق می­برد که بتواند بطور کامل مثال­های آموزشی را دسته­بندی کند. در مواردی که داده ­ها دارای نویز باشند یا مجموعه نمونه­ها کم باشد، آنگاه این امر منجر به overfitting می­گردد. برای رفع این مشکل دو روش و راه­حل وجود دارد.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

    • روش اول: جلوگیری از رشد درخت قبل از رسیدن به مرحله­ ای که بطور کامل داده ­های آموزشی را دسته­بندی نماید.
    • روش دوم: اجازه رشد کامل به درخت داده شده و سپس شاخه­هایی غیرمفید، هرس خواهند شد.

در عمل هم این روش استفاده می­ شود زیرا تخمین اندازه صحیح درخت که باید در روش اول انجام گیرد کار مشکلی می­باشد.
در درخت تصمیم مشابه شبکه ­های عصبی داده ­ها به دو مجموعه تست[۱۲۵] و آموزشی تقسیم می­شوند و درخت با داده ­های آموزشی تشکیل شده و بعد از عملیات هرس، عملکرد درخت بر روی داده ­های تست بررسی می­ شود و اگر درخت هرس شده دارای عملکرد بهتری نسبت به درخت اولیه داشته باشد، از درخت هرس شده استفاده خواهد شد.
به منظور ارزیابی عملکرد درختان تصمیم­ سه عامل در نظر گرفته می­ شود که عبارتند از:

    • نرخ نمونه­های طبقه ­بندی شده صحیح (درصد دقت[۱۲۶])
    • پیچیدگی[۱۲۷] درخت تصمیم ­گیری که برابر تعداد برگ­ها و اندازه درخت می­باشد.
    • تعداد ویژگی­های موجود در درخت تصمیم

میزان دقت یک روش دسته­بندی بر روی مجموعه داده ­های آموزشی، درصد مشاهداتی از مجموعه آموزش است که به درستی توسط روش مورد استفاده، دسته­بندی شده است. برای محاسبه میزان دقت مدل می­توان از ماتریس­اغتشاش[۱۲۸] استفاده کرد. این ماتریس ابزاری مفید برای تحلیل چگونگی عملکرد روش دسته­بندی در تشخیص داده ­ها یا مشاهدات دسته­های مختلف است. اگر داده ­ها در کلاس قرار گرفته باشند، ماتریس مورد نظر با حداقل اندازه است. حالت ایده­آل این است که بیشتر داده ­های مرتبط به مشاهدات روی قطر اصلی ماتریس قرار گرفته باشند و مابقی مقادیر ماتریس صفر یا نزدیک به صفر باشند. با بهره گرفتن از این ماتریس، درصد دقت بصورت تعداد داده­هایی که در روی قطرهای غیراصلی قرار گرفته به تعداد کل نمونه­ها محاسبه خواهد شد.
اندازه درخت تصمیم­ به تعداد شاخه­ها تا رسیدن به برگ در درخت تصمیم ارتباط دارد و برابر با مجموع تعداد برگ­ها و گره­ها می­باشد.
برای درک بهتر عملکرد درخت تصمیم، در پیوست د مثالی به منظور طبقه ­بندی نمونه­ها آورده شده و با بهره گرفتن از شاخص بهره اطلاعات دسته­بندی انجام شده و عملکرد درخت با دو معیار میزان دقت و اندازه درخت مورد ارزیابی قرار گرفته است.

نرم­افزار وکا [۱۲۹]

یک بسته نرم­افزاری است که حاوی تعداد زیادی از تکنیک­های یادگیری ماشین[۱۳۰] و داده کاوی[۱۳۱] است که امکان مقایسه تکنیک­های یادگیری ماشین­های مختلف را می­دهد. این نرم­افزار حاوی پیاده­سازی آخرین نسخه درخت تصمیم بوده و درخت­های تصمیم با تنظیم پارامتر­های مشخص شده در آن به شکل خودکار ساخته شده و به شکل متنی یا گرافیکی نمایش داده می­ شود.
نرم­افزار وکا در دانشگاه Waikato واقع در نیوزیلند توسعه یافته است و اسم آن از Waikato Environment for knowledge analysis استخراج گشته است. هم­چنین وکا نام پرنده­ای با طبیعت جستجوگر می­باشد که در نیوزیلند یافت می­ شود.
ورودی این نرم­افزار از فایل با فرمت ARFF استفاده می­نماید. شکل ‏۶‑۲، یک نمونه از فایل مربوطه را نشان می­دهد که در آن فایل به دو قسمت اصلی تقسیم می­ شود. در قسمت اول مربوط به تعریف خصیصه­ها و نوع آن­ها که رده­ای یا عددی می­باشند و با نامRELATION نامگذاری می­گردند و قسمت دوم که شامل داده ­ها و مجموعه مثال­ها به همراه نوع کلاس آن­ها است و با data معرفی می­شوند. ترتیب قرار گرفتن ویژگی­ها مطابق با ترتیب تعریف ویژگی­ها در قسمتRELATION می­باشد.
در این مثال چهار ویژگی از نوع اسمی (رده­ای) و بانضمام کلاس­ها که به سه دسته مختلف non،hard و soft هستند، تقسیم می­شوند. ۲۴ مثال مختلف به همراه مقادیر ویژگی­ها و نوع کلاس مخصوص به خود در شکل دیده می­شوند.

شکل ‏۶‑۲: فایل متنی برای نرم افزار Weka

شاخص ­ها

در فرایند طبقه ­بندی، ویژگی­هایی که اطلاعاتی در مورد کلاس داشته باشند می­توانند به تفکیک کلاس­ها کمک کنند، اما ویژگی­هایی که اطلاعاتی در مورد کلاس ندارند، تنها سبب افزایش بعد فضای ویژگی شده و باعث کاهش کارایی طبقه ­بندی­کننده[۱۳۲] می­ شود. برای اندازه ­گیری اطلاعات موجود در یک ویژگی مربوط به یک کلاس نیاز به ابزار جدیدی است.
مراجع مختلف ورودی­های متفاوتی را به عنوان ورودی برای آموزش شبکه در نظر می­گیرند. البته باید توجه کرد که تمام این ورودی­ ها باید از نمودار­های پاسخ فرکانسی بدست آیند. به عنوان مثال در بعضی مقالات از ضرایب ویولت که از پاسخ فرکانسی بدست آمده به عنوان ورودی شبکه عصبی استفاده نموده است. در مرجع[۲۱] از شاخص­ های آماری مانند انحراف معیار و ضریب همبستگی که از پاسخ فرکانسی محاسبه می­شوند به عنوان ورودی شبکه عصبی استفاده می­گردد. در مراجع [۲۰, ۵۷] شاخص­ های آماری متفاوتی پیشنهاد شده است که بر اساس آن برای خطا­های مختلف کار طبقه ­بندی را انجام می­دهد.

شاخص­ های آماری

به طور کلی شاخص­ های آماری معمول مورد استفاده در زمینه طبقه ­بندی در معادلات زیر آمده است.

(‏۶‑۶)

(‏۶‑۷)

(‏۶‑۸)

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...