سایت دانلود پایان نامه: طرح های پژوهشی و تحقیقاتی دانشگاه ها در مورد : تشخیص و طبقه ... - منابع مورد نیاز برای پایان نامه : دانلود پژوهش های پیشین |
در معادلات فوق، مجموعه مثال، مجموعه ویژگیها، تعداد زیرمحموعههایی که توسط ویژگی ایجاد میگردد، زیرمجموعه ام از مجموعه ، مقدار اطلاعات کلاسبندی با ویژگی و بهره اطلاعاتی که با توجه به ویژگی تولید می شود.
از میان ویژگیهای مختلف، آن ویژگی که دارای بزرگترین بهره اطلاعاتی باشد، به عنوان ویژگی غالب در آن گره انتخاب خواهد شد. در مرحله اول طبق رابطه (۶‑۳) آنتروپی کل داده ها محاسبه می شود و داده ها به ویژگیهای متفاوتی شکسته میشوند و با بهره گرفتن از رابطه (۶‑۴) بهره برای هر شاخه محاسبه شده و به تناسب هر کدام، آنتروپی کلشکست محاسبه می شود و با توجه به رابطه (۶‑۵) آنتروپی حاصل از آنتروپی قبل از شکست کم می شود. ویژگی که محصول بزرگترین بهره اطلاعاتی است، به عنوان گره انتخاب میگردد. الگوریتم یادگیری به صورت بازگشتی روی شاخه های بدون برگ تا زمانی که همه داده ها کلاسبندی شوند، اجرا خواهد شد. این الگوریتم هر شاخه از درخت را آنقدر به عمق میبرد که بتواند بطور کامل مثالهای آموزشی را دستهبندی کند. در مواردی که داده ها دارای نویز باشند یا مجموعه نمونهها کم باشد، آنگاه این امر منجر به overfitting میگردد. برای رفع این مشکل دو روش و راهحل وجود دارد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
-
- روش اول: جلوگیری از رشد درخت قبل از رسیدن به مرحله ای که بطور کامل داده های آموزشی را دستهبندی نماید.
-
- روش دوم: اجازه رشد کامل به درخت داده شده و سپس شاخههایی غیرمفید، هرس خواهند شد.
در عمل هم این روش استفاده می شود زیرا تخمین اندازه صحیح درخت که باید در روش اول انجام گیرد کار مشکلی میباشد.
در درخت تصمیم مشابه شبکه های عصبی داده ها به دو مجموعه تست[۱۲۵] و آموزشی تقسیم میشوند و درخت با داده های آموزشی تشکیل شده و بعد از عملیات هرس، عملکرد درخت بر روی داده های تست بررسی می شود و اگر درخت هرس شده دارای عملکرد بهتری نسبت به درخت اولیه داشته باشد، از درخت هرس شده استفاده خواهد شد.
به منظور ارزیابی عملکرد درختان تصمیم سه عامل در نظر گرفته می شود که عبارتند از:
-
- نرخ نمونههای طبقه بندی شده صحیح (درصد دقت[۱۲۶])
-
- پیچیدگی[۱۲۷] درخت تصمیم گیری که برابر تعداد برگها و اندازه درخت میباشد.
-
- تعداد ویژگیهای موجود در درخت تصمیم
میزان دقت یک روش دستهبندی بر روی مجموعه داده های آموزشی، درصد مشاهداتی از مجموعه آموزش است که به درستی توسط روش مورد استفاده، دستهبندی شده است. برای محاسبه میزان دقت مدل میتوان از ماتریساغتشاش[۱۲۸] استفاده کرد. این ماتریس ابزاری مفید برای تحلیل چگونگی عملکرد روش دستهبندی در تشخیص داده ها یا مشاهدات دستههای مختلف است. اگر داده ها در کلاس قرار گرفته باشند، ماتریس مورد نظر با حداقل اندازه است. حالت ایدهآل این است که بیشتر داده های مرتبط به مشاهدات روی قطر اصلی ماتریس قرار گرفته باشند و مابقی مقادیر ماتریس صفر یا نزدیک به صفر باشند. با بهره گرفتن از این ماتریس، درصد دقت بصورت تعداد دادههایی که در روی قطرهای غیراصلی قرار گرفته به تعداد کل نمونهها محاسبه خواهد شد.
اندازه درخت تصمیم به تعداد شاخهها تا رسیدن به برگ در درخت تصمیم ارتباط دارد و برابر با مجموع تعداد برگها و گرهها میباشد.
برای درک بهتر عملکرد درخت تصمیم، در پیوست د مثالی به منظور طبقه بندی نمونهها آورده شده و با بهره گرفتن از شاخص بهره اطلاعات دستهبندی انجام شده و عملکرد درخت با دو معیار میزان دقت و اندازه درخت مورد ارزیابی قرار گرفته است.
نرمافزار وکا [۱۲۹]
یک بسته نرمافزاری است که حاوی تعداد زیادی از تکنیکهای یادگیری ماشین[۱۳۰] و داده کاوی[۱۳۱] است که امکان مقایسه تکنیکهای یادگیری ماشینهای مختلف را میدهد. این نرمافزار حاوی پیادهسازی آخرین نسخه درخت تصمیم بوده و درختهای تصمیم با تنظیم پارامترهای مشخص شده در آن به شکل خودکار ساخته شده و به شکل متنی یا گرافیکی نمایش داده می شود.
نرمافزار وکا در دانشگاه Waikato واقع در نیوزیلند توسعه یافته است و اسم آن از Waikato Environment for knowledge analysis استخراج گشته است. همچنین وکا نام پرندهای با طبیعت جستجوگر میباشد که در نیوزیلند یافت می شود.
ورودی این نرمافزار از فایل با فرمت ARFF استفاده مینماید. شکل ۶‑۲، یک نمونه از فایل مربوطه را نشان میدهد که در آن فایل به دو قسمت اصلی تقسیم می شود. در قسمت اول مربوط به تعریف خصیصهها و نوع آنها که ردهای یا عددی میباشند و با نامRELATION نامگذاری میگردند و قسمت دوم که شامل داده ها و مجموعه مثالها به همراه نوع کلاس آنها است و با data معرفی میشوند. ترتیب قرار گرفتن ویژگیها مطابق با ترتیب تعریف ویژگیها در قسمتRELATION میباشد.
در این مثال چهار ویژگی از نوع اسمی (ردهای) و بانضمام کلاسها که به سه دسته مختلف non،hard و soft هستند، تقسیم میشوند. ۲۴ مثال مختلف به همراه مقادیر ویژگیها و نوع کلاس مخصوص به خود در شکل دیده میشوند.
شکل ۶‑۲: فایل متنی برای نرم افزار Weka
شاخص ها
در فرایند طبقه بندی، ویژگیهایی که اطلاعاتی در مورد کلاس داشته باشند میتوانند به تفکیک کلاسها کمک کنند، اما ویژگیهایی که اطلاعاتی در مورد کلاس ندارند، تنها سبب افزایش بعد فضای ویژگی شده و باعث کاهش کارایی طبقه بندیکننده[۱۳۲] می شود. برای اندازه گیری اطلاعات موجود در یک ویژگی مربوط به یک کلاس نیاز به ابزار جدیدی است.
مراجع مختلف ورودیهای متفاوتی را به عنوان ورودی برای آموزش شبکه در نظر میگیرند. البته باید توجه کرد که تمام این ورودی ها باید از نمودارهای پاسخ فرکانسی بدست آیند. به عنوان مثال در بعضی مقالات از ضرایب ویولت که از پاسخ فرکانسی بدست آمده به عنوان ورودی شبکه عصبی استفاده نموده است. در مرجع[۲۱] از شاخص های آماری مانند انحراف معیار و ضریب همبستگی که از پاسخ فرکانسی محاسبه میشوند به عنوان ورودی شبکه عصبی استفاده میگردد. در مراجع [۲۰, ۵۷] شاخص های آماری متفاوتی پیشنهاد شده است که بر اساس آن برای خطاهای مختلف کار طبقه بندی را انجام میدهد.
شاخص های آماری
به طور کلی شاخص های آماری معمول مورد استفاده در زمینه طبقه بندی در معادلات زیر آمده است.
(۶‑۶)
(۶‑۷)
(۶‑۸)
فرم در حال بارگذاری ...
[چهارشنبه 1401-04-15] [ 08:36:00 ق.ظ ]
|