داده‌کاوی یک گام از فرایند کشف دانش از پایگاه داده است و به الگوریتم­هایی که برای استخراج الگو از داده‌ها بکار می­رود، گفته می­ شود. اطلاعات حاصل می ­تواند به عنوان ورودی برای تشکیل مدل دسته‌بندی و یا پیش ­بینی، یا بهبود یک مدل موجود بکار ­رود [۵۳]. داده‌کاوی جستجو و یا کاوش[۴۶] دانش (الگوهای دلخواه) از مقادیر زیاد داده‌های موجود است [۳۱].
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

در تعریفی دیگر داده‌کاوی به این صورت تعریف شده است: به‌کارگیری الگوریتم‌های یادگیری ماشین[۴۷] برای یافتن الگوهای نهفته از ارتباطات موجود در بین عناصر داده­ای موجود در یک مجموعه داده بسیار بزرگ که می ­تواند منجر به افزایش سود شود [۲۶].
داده‌کاوی یک متدولوژی بسیار قوی و با پتانسیل بالا می­باشد که به سازمان­ها کمک می­ کند که بر مهم‌ترین اطلاعات از مخزن داده های خود تمرکز نمایند [۵۲].
داده‌کاوی به فرایند استخراج اطلاعات نهفته، قابل فهم، قابل تعقیب از پایگاه داده‌های بزرگ و استفاده از آن­ها در تصمیم ­گیری­های تجاری مهم اطلاق می­ شود [۱۳].
فرایند داده‌کاوی را می­توان به عنوان سیستمی تصمیم­یار تلقی نمود که سازمان و مدیران آن را قادر می­سازد از داده‌های خام به گنجینه­های دانشی دست یابند و از این دانش در مسیر اتخاذ استراتژی‌های سازمانی بهره گیرند.
اگر هرم داده‌ها را به صورت زیر در نظر بگیریم:

شکل ۲-۶ سیر تکامل در هرم دانش [۱۱]
با آگاهی از تعریف داده‌کاوی و نگاهی به هرم بالا بهتر می­توان به نقش داده‌کاوی در سازمان­ها پی برد. داده‌کاوی سبب می­ شود که سازمان­ها از سطح داده به سطوح بالاتر دانش و الگوهای ناشناخته برسند. الگوهای استخراج شده می­توانند رابطه­ای بین ویژگی­ها و مشخصات سیستم مانند نوع تقاضا و نوع مشتری، پیش ­بینی­های آینده بر اساس مشخصات سیستم، قوانین (اگر-آنگاه) بین متغیرهای سیستم، دسته­بندی­ها و خوشه­بندی­های اشیاء و رکوردهای شبیه به هم در یک سیستم و غیره باشند [۱۱ به نقل از ۵۲].
۲-۸-۳- داده‌کاوی و کشف دانش
داده‌کاوی را می­توان به عنوان ابزاری جهت کشف دانش از پایگاه­های داده تعریف نمود. داده‌کاوی یک گام در فرایند کشف دانش از پایگاه داده[۴۸] است که با بهره گرفتن از الگوریتم‌های کشف و تحلیل داده‌ها تعداد خاصی الگو یا مدل را از روی داده‌ها تولید می­ کند.
الگوی زیر مراحل استخراج دانش مشتری به کمک داده‌کاوی در سازمان را نمایش می‌دهد.
شکل ۲-۷ گام‌های فرایند تولید دانش از پایگاه داده‌ها [۳۱و۵۳]
این الگو گام‌های فرایند کشف دانش از پایگاه داده را در [۵۳] به صورت زیر نشان داده است:
چنانچه از نمایش الگوی فوق برداشت می­ شود، ابتدا باید شناسایی دامنه فعالیت‌های کسب­وکار صورت گرفته و دسترسی به داده‌ها مقدور گردد. داده‌ها در اینجا می ­تواند مجموعه ­ای از حقایق، الگوها و یا خبرگی باشد.
در مرحله بعد با توجه به اهداف تعیین شده مورد نظر ذینفعان سازمان (مدیران، کارمندان، سرپرستان شعب، کاربران، خبرگان و مشاورین فناوری اطلاعات)، رکوردهای مورد نیاز توسط داده­کاو از میان حجم عظیم داده‌های سازمان مورد نظر انتخاب می­شوند. در این مرحله حجم انبوه داده‌ها به داده‌های هدف کاهش داده می­ شود.
برای آماده‌سازی بخش داده‌های انتخابی باید عملیات پیش­پردازشی روی آن­ها صورت گیرد. این عملیات شامل جمع آوری اطلاعات لازم برای مقداردهی به مقادیر رکوردهای از قلم افتاده، تشخیص داده‌های متفاوت و هماهنگی آن­ها با بقیه، جمع آوری اطلاعات لازم برای اصلاح یا حذف داده‌های نامناسب[۴۹] می­باشد. محصول این مرحله داده‌های پیش‌پردازش شده خواهد بود.
گام بعد گزینش داده‌ها با هدف کاهش حجم آن­ها و یافتن ویژگی­هایی از داده‌ها با توجه به هدف تعیین شده برای کسب­وکار خواهد بود. با کاهش حجم داده‌ها یا روش‌های تغییرات آن‌ها حجم داده‌ها می ­تواند به مقدار مفید و مؤثری کاهش یابد.
مرحله بعد اعمال یک یا چند الگوریتم (مانند کلاسیفایرها[۵۰] و یا شبکه‌های عصبی[۵۱] و …) از بین الگوریتم‌های موجود و یا ابتکاری داده‌کاوی بر روی داده­هاست. حاصل این مرحله یک یا چند مدل و یا الگو خواهد بود.
در گام بعد با تحلیل، ارزیابی و تفسیر الگوهای معنادار کشف شده، دانش استخراج می­گردد. دانش استخراج شده می ­تواند به صورت قواعدی مستند شود.
یک الگو زمانی می ­تواند به عنوان دانش تلقی شود که :

    1. به سادگی برای افراد قابل فهم باشد.
    1. اعتبار آن از یک حد آستانه­ای[۵۲] پایین­تر نباشد.
    1. دانش جدیدی متناسب با اهداف تعیین شده سازمان ارائه دهد.
    1. کاربردی باشد [۱].

۲-۸-۴- فرایند داده‌کاوی
داده‌کاوی، فرایندی خلاقانه است که دانش و مهارت­ های گوناگونی را می­طلبد. وجود یک استاندارد جهت انجام این فرایند به تبدیل مشکلات کسب­وکار به مسائل داده‌کاوی، گزینش روش‌های داده‌کاوی و تبدیل داده‌ها متناسب با نوع کسب­وکار، معنا دادن به ارزیابی اثربخشی و مستندسازی نتایج اهمیت فراوان دارد.
چرخه CRISP-DM[53] فرایند استانداردی[۵۴] است که با هدف ارائه چارچوبی برای اجرای پروژه­ های داده‌کاوی بزرگ، یا هزینه کمتر، قابلیت اطمینان بیشتر، قابلیت مدیریت بیشتر و سریع­تر توسعه یافت [۵۰].
مدل مرجع CRISP-DM نمای کلی از چرخه عمر[۵۵] یک پروژه داده‌کاوی را نشان می‌دهد. این مدل شامل فازهای یک پروژه، کارهای لازم برای انجام هر فاز و خروجی­های هر فاز است.
چرخه عمر یک پروژه داده‌کاوی چنانچه در شکل ۲-۸ نشان داده شده است به شش فاز شکسته می­ شود. توالی فازها اجباری نیست بلکه این ترتیب مرسوم­ترین، مهم­ترین و پر تکرارترین وابستگی بین فازها را نشان می‌دهد. در مورد پروژه­ های خاص این ترتیب بستگی به این دارد که خروجی کدام فاز و یا عمل خاص نیازمند اجرای فاز بعدی است [۵۰].
حلقه بیرونی مربوط به طبیعت پروژه­ های داده‌کاوی است. بدین معنی که پروژه داده‌کاوی با تولید یک راهکار خاص در زمان مشخص پایان نمی­یابد بلکه با اجرای یک دور فرایند داده‌کاوی در سازمان و اجرای آن راهکار در سازمان، ممکن است نتایجی حاصل شود که سؤالات جدیدی از کسب­وکار را برانگیزد و این نیازمند تکرار دو و یا چند باره چرخه خواهد بود.
شکل ۲-۸ متدولوژی فرایند استاندارد میان صنعتی داده‌کاوی (CRISP-DM) [50]
مدل فرایند CRISP-DM شامل فازهای زیر می­باشد:

    • گام درک موقعیت کسب­وکار[۵۶]
    • گام درک داده‌ها[۵۷]
    • گام پیش­پردازش داده‌ها[۵۸]
    • گام مدل‌سازی[۵۹]
    • گام ارزیابی[۶۰]
    • گام به‌کارگیری[۶۱]

در ادامه هر یک از این گام­ها به طور خلاصه توضیح داده می­ شود.
درک موقعیت کسب و کار: این گام، بخش آغازین مدل CRISP-DM می­باشد که بر روی درک و تعیین اهداف[۶۲] و نیازمندی­ها از منظر کسب‌وکار و تبدیل این دانش به تعریف یک مسئله داده‌کاوی و طراحی طرح اولیه پروژه برای دستیابی به این اهداف تمرکز دارد. در این گام باید متخصص داده­کاو از توان و تجربه متخصص کسب و کار بهره­مند گردد [۵۰]. البته در یک پروژه موفق داده‌کاوی این مشارکت در گام اولیه متوقف نخواهد شد، بلکه در سراسر فرایند داده‌کاوی ادامه خواهد داشت [۵۳].
درک داده‌ها: گام درک داده‌ها با جمع آوری داده‌های اولیه آغاز می­ شود و با فعالیت­هایی جهت آشنایی با داده‌ها، شناسایی مشکلات موجود در کیفیت داده‌ها، اکتشاف داده‌ها و یا تشخیص زیرمجموعه­های جالب جهت تشکیل فرضیه ­ها برای اطلاعات مخفی پیگیری می­ شود. ارتباط نزدیکی بین دو گام درک موقعیت کسب و کار و درک داده‌ها وجود دارد. ساختار مسئله داده‌کاوی و طرح پروژه به درک حداقلی از داده‌های در دسترس نیازمند است [۵۰].
در کل می­توان گفت گام درک داده‌ها بر اساس سه گام جمع آوری داده‌ها، به‌کارگیری تحلیل اکتشافی برای دستیابی به یک دید اولیه و ارزیابی کیفیت داده‌ها استوار است [۱۱].
پیش­پردازش داده‌ها: فاز آماده‌سازی داده‌ها کلیه فعالیت‌های مربوط به ساخت مجموعه داده[۶۳] (داده­ای که می ­تواند به عنوان ورودی ابزار مدل‌سازی مورد استفاده قرار گیرد) از داده‌های خام اولیه را در بر می­گیرد. پس از گردآوری داده‌ها باید خطاهای احتمالی موجود در آن­ها را از بین برده و داده‌ها را تمیز نمود [۳۱]. فعالیت‌های مربوط به آماده‌سازی داده‌ها شامل ساخت جدول، ثبت داده‌ها و انتخاب ویژگی[۶۴]، پاک‌سازی داده‌ها[۶۵]، تشکیل ویژگی‌های جدید و تغییر شکل داده‌ها متناسب با ابزارهای مدل‌سازی می­باشد [۵۰].
اهمیت پیش‌پردازش داده‌ها به این دلیل است که اکثر داده­هایی که در پایگاه­های داده­ای وجود دارند و پیش­پردازش نشده‌اند، ناقص و نویزدار هستند و دارای مشکلات احتمالی زیر می­باشند:

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...