ﻧﮕﺎرش ﻣﻘﺎﻟﻪ ﭘﮋوهشی در رابطه با چارچوبی جدید ... - منابع مورد نیاز برای پایان نامه : دانلود پژوهش های پیشین |
Denic et al , 2009
ILP/Information gain
closest-first link-clustering
۶۶.۲
Bansal et al 2012
Stoyanov et al. (2009). + Decision tree
Web-scale distributional
clustering(based on k-means)
۶۹.۹
Chen et al 2011
Maximum Entropy
best-first clustering
۵۹.۱
بنسکو[۱۶۸] نیز در سال ۲۰۱۲،مانند استونایو عمل نمود و الگوریتم سلسله مراتبی پایین به بالا برای تشخیص مراجع مشترک به کار بست. بنسکو، با پیروی از رویکرد لی[۱۶۹] [۳۷] که یک روش چند گذری را برای تحلیل مرجع مشترک در نظر میگیرد، مبنای کار خود را اجرای سه گذر متفاوت قرار داد به طوریکه برخی ضمایر از سایر عبارتهای اسمی جداگانه تحلیل میشوند.[۸۲]
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
برخی از پژوهشهایی که از تکنیکهای خوشهبندی برای تحلیل و شناسایی عبارتهای اسمی هممرجع استفاده نمودهاند، در جدول ۲-۳ آورده شده است.
مزایای روشهای خوشهبندی
مزیت این روش نیز همانند روشهای درختِ بل و فیلدهای تصادفی شرطی، در رعایت روابط متعدی است. به این ترتیب که در الکوریتم خوشهبندی، در هر مرحلهای که یک عبارت به یک خوشه اضافه میشود، سازگاری آن با سایر عبارتهای موجود در خوشه بررسی میشود. دلیل برطرف شدن مشکل ناسازگاریهای سهگانه این است که در روشهای خوشهبندی و روشهای مشابه آن، روابط متعدی در نظر گرفته میشوند.[۹۵]
۲-۱-۴.جمعبندی:
در این فصل، روشهای ارائه شده برای تشخیص مرجع مشترک را معرفی نمودیم. ما این روشها را در دو دسته زبانشناسی و یادگیری ماشین مورد مطالعه قراردادیم. از آن جایی که امروزه روشهای زبانشناسی جای خود را به روشهای یادگیری ماشین داده اند، در این فصل به تفصیل اغلب روشهای ارائه شده مبتنی بر یادگیری ماشین را شرح داده و دسته بندی نمودیم.
بخش دوم
۲-۲. ایجاد پیکره با نشانههای اشاره و هممرجعی
برای داشتن یک سیستم استخراج اطلاعاتی که بتواند اطلاعاتِ موجودیتهای متون دریافتی خود را به خوبی بررسی و پردازش کند، به ماژولهایی نیاز داریم که بتوانند برای هر موجودیت؛(۱)نوع اصلی، (۲) نوع فرعی، (۳)کلاس موجودیت، (۴)نوع اشارهای که به آن موجودیت اشاره میکنند، و اطلاعات انواع رابطهها و وابستگیهای میان اشارهها را باید مشخص و ثبت نماید.
یکی از اهداف اصلی این پایان نامه تولید یک پیکره مناسب برای کشف اشاره و تشخیص مرجع مشترک میباشد. بر اساس همین رویکرد، ما پیکره «بیژنخان» را به عنوان مبنای کار در نظر گرفته و عبارتهای اسمی مورد نظر را در قالب انواع اشارههای گفته شده نشانهگذاری نمودهایم.
۲-۲-۱.پیکره نشانهگذاری شده توسط اطلاعات هممرجع
عملکرد روشهای یادگیری ماشین، به کیفیت پیکرهای که بر روی آن آموزش داده میشوند، بستگی دارد. در این فصل به نحوهی ایجاد نشانهگذاری و اهمیت نشانهگذاری اطلاعات هممرجعی و ویژگیهای پیکره تولید شده برای این پایان نامه خواهیم پرداخت.
نشانهگذاری یک پیکره با اطلاعات هممرجع، از دیدگاه محاسباتی و همچنین از دیدگاه زبانشناسی حائز اهمیت است. از دیدگاه زبانشناسی پیکرهای که با اطلاعات هممرجع نشانهگذاری شده است، دانشی را در مورد نوع رابطهای که میان دو اشارهی هممرجع وجود دارد و فراوانی انواع متفاوت روابط هممرجعی و امثال اینها در اختیار قرار میدهد. از دیدگاه محاسباتی، چنین پیکرههایی جهت توسعه و ارزیابی سیستمهایی که به صورت خودکار آموزش دیده اند، مناسب هستند. نمونههایی از به کارگیری چنین پیکرههایی برای توسعه و ارزیابی سیستمهای ارائه شده عبارتنداز [۱۳،۱۴،۱۵،۳۳،۵۲،۶۵،۶۷،۹۹،۱۰۰،۱۰۱،۱۰۵]. علاوه بر کاربردهای یاد شده، پیکره با اطلاعات عبارات هممرجع میتواند برای ارزیابی سیستمهایی که تنها بر پایه اطلاعات زبانشناسی هستند و از اطلاعات آماری استفاده نمیکنند، نیز مفید واقع شود.
با این وجود، تعداد پیکرههایی که با عبارات اسمی هممرجع نشانهگذاری شدهاند و در دسترس همگان قرار دارند، محدود است. پیکرههای MUC و ACE از جمله پیکرههایی هستند که زبانهایی مانند انگلیسی، عربی، چینی و… به صورت وسیعی در آموزش و ارزیابی سیستمهای تعیین عبارات اسمی هممرجع نشانهگذاری شدهاند. از طرفی دیگر از آن جایی که که چنین پیکرهای برای زبان پارسی مهیا نبود، به منظور به کارگیری تکنیکهای یادگیری ماشین در فرایند تشخیص مرجع مشترک، یک پیکره مناسب به نام لوتوس[۱۷۰] تهیه نمودیم. این پیکره بر پایه یکی از پیکرههای موجود در زبان پارسی به نام بیژنخان تهیه شده است. در بخشهای بعد به بررسی دو پیکره مورد اشاره یعنی لوتوس و بیژنخان میپردازیم.
۲-۲-۲.پیکره بیژنخان
پیکره بیژنخان[۶۸] از حجم انبوهی از متون الکترونیکی پارسی نشانهگذاری شده تشکیل شده است و دادههای زبان وسیعی را در حیطههای مختلف در بر دارد. میتوان پیکره بیژنخان را به عنوان یک جامعه آماری کامل از متون پارسی در نظر گرفت. پیکره بیژنخان شامل مجموعه برچسبهای مقوله نحوی معنایی بوده و به صورت نیمه خودکار در سطح واژه و گروههای نحوی، تقطیع و برچسبدهی شده است. بیژنخان از ۴۳۰۰ متن نشانهگذاری شده مختلف تشکیل شده است. این متون از منابع معتبر پارسی همچون مقالات هفتگی سروش و یا واحد مرکزی خبر بر گرفته شدهاند و شامل موضوعات متنوعی همچون موضوعات اجتماعی، اطلاعاتی، فرهنگی، مذهبی، هنری، تاریخی، داستانی، اقتصادی، پزشکی، ورزشی، سیاسی و غیره هستند.
همان طور که اشاره شد، بیژنخان، پیکرهای مبتنی بر واژه بوده و اطلاعات اضافه شده به آن، در سطح واژه هستند. هر خط از هر یک از متون نشانهگذاری شده در بیژنخان، حاوی یک واژه و برچسبهای نحوی و معنایی مربوط به آن واژه میباشد. اطلاعات معنایی اضافه شده نیز، به عنوان نمونه مشخص میکند که واژه مذکور در کدام یک از این دستههای معنایی قرار میگیرد: شخص، مکان، فصل، ماه، روز، زمان و غیره. از کاربردهای پیشین پیکره بیژنخان میتوان به تحلیل واژه شناسی آماری [۳۲]و استنتاج بدون ناظر گرامر زبان پارسی[۶۸،۷۱] اشاره کرد. شکل ۲-۳ شمایی از پیکره بیژنخان را نمایش میدهد.
شکل ۲-۳: شمایی از نشانهگذاری پیکره«بیژنخان»
۲-۲-۳. پیکره لوتوس
پیکره لوتوس، پیکرهای است که علاوه بر اطلاعات عبارت اسمی هممرجع، دارای اطلاعات مربوط به اشاره نیز میباشد. ما این پیکره را به عنوان یک گسترش جزئی بر « بیژنخان» در نظر میگیریم که در آن ۴۰ متن از بیژنخان با اطلاعات اشاره و هممرجعی نشانهگذاری شده است. متون نشانهگذاری شده، از موضوعات مختلف برگزیده شده اند. از آنجائیکه پیکره لوتوس، اولین پیکره اطلاعات اشاره و هممرجعی در زبان پارسی است، در نشانهگذاری تنها به مشخص کردن ارجاعات اصلی که مربوط به اشخاص، مکان ها، سازمانها و موجودیتهای سیاسی میباشد بسنده کردهایم. به منظور مشخص کردن نوع هر اشاره، نوع موجودیت، زیر گروه موجودیت، کلاس موجودیت و کد ارجاع از یک سری قوانین مشخص و اصولی پیروی کردیم. این قوانین را بر پایهی اطلاعات ارائه شده در [۸،۹] تهیه کردیم که با توجه به ویژگیهای زبان پارسی آن را شخصی سازی نموده ایم. روال کار به این ترتیب است که پس از تعیین محدوده هر اشاره ،نوع اشاره، نوع ارجاع، موجودیتی که به آن اشاره میشود و زیرگروه موجودیتی که به آن اشاره میشود، مشخص میشود. برچسب واژه آغازکنندهی اشاره، با نشانه “B” شروع میشود و برچسب واژههای وابسته به آن با نشانه “I” شروع خواهند شد. در هر متن نشانهگذاری شده، به دنبال اطلاعات هر اشاره، شناسه عددی منحصر به فردی قرار میگیرد که به یک موجودیت یکتا اشاره میکند. این ویژگی موجب میشود تا بتوانیم در هر متن و یا در متون مختلف، اشارههایی که به یک موجودیت واحد اشاره دارند را مشخص نمائیم.
از آنجائیکه بیژنخان پیکرهای در سطح واژه است، در صورتی که یک اشاره از چندین واژه تشکیل شده باشد، از نشانه “-” در آخر هر برچسب اشاره استفاده کرده ایم تا نشانگر این موضوع باشد که اشاره مورد نظر چندین واژهی متوالی را در بر میگیرد. نمونهای از نشانهگذاری پیکره لوتوس را در شکل ۲-۴ مشاهده مینمائید.
فرم در حال بارگذاری ...
[چهارشنبه 1401-04-15] [ 05:20:00 ق.ظ ]
|