Denic et al , 2009

ILP/Information gain

closest-first link-clustering

۶۶.۲

Bansal et al 2012

Stoyanov et al. (2009). + Decision tree

Web-scale distributional
clustering(based on k-means)

۶۹.۹

Chen et al 2011

Maximum Entropy

best-first clustering

۵۹.۱

بنسکو[۱۶۸] نیز در سال ۲۰۱۲،مانند استونایو عمل نمود و الگوریتم سلسله مراتبی پایین به بالا برای تشخیص مراجع مشترک به کار بست. بنسکو، با پیروی از رویکرد لی[۱۶۹] [۳۷] که یک روش چند گذری را برای تحلیل مرجع مشترک در نظر می‏گیرد، مبنای کار خود را اجرای سه گذر متفاوت قرار داد به طوریکه برخی ضمایر از سایر عبارت‏های اسمی جداگانه تحلیل می‏شوند.[۸۲]
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

برخی از پژوهش‏هایی که از تکنیک‏های خوشه‏بندی برای تحلیل و شناسایی عبارت‏های اسمی هم‏مرجع استفاده نموده‏اند، در جدول ۲-۳ آورده شده است.
مزایای روش‏های خوشه‏بندی
مزیت این روش نیز همانند روش‏های درختِ بل و فیلدهای تصادفی شرطی، در رعایت روابط متعدی است. به این ترتیب که در الکوریتم خوشه‏بندی، در هر مرحله‏ای که یک عبارت به یک خوشه اضافه می‏شود، سازگاری آن با سایر عبارت‏های موجود در خوشه بررسی می‏شود. دلیل برطرف شدن مشکل ناسازگاری‎های سه‏گانه این است که در روش‏های خوشه‏بندی و روش‏های مشابه آن، روابط متعدی در نظر گرفته می‏شوند.[۹۵]
۲-۱-۴.جمع‏بندی:
در این فصل، روش‏های ارائه شده برای تشخیص مرجع مشترک را معرفی نمودیم. ما این روش‏ها را در دو دسته زبان‏شناسی و یادگیری ماشین مورد مطالعه قرار‏دادیم. از آن جایی که امروزه روش‏های زبان‏شناسی جای خود را به روش‏های یادگیری ماشین داده ‏اند، در این فصل به تفصیل اغلب روش‏های ارائه شده مبتنی بر یادگیری ماشین را شرح داده و دسته بندی نمودیم.
بخش دوم
۲-۲. ایجاد پیکره با نشانه‏های اشاره و هم‏مرجعی
برای داشتن یک سیستم استخراج اطلاعاتی که بتواند اطلاعاتِ موجودیت‏های متون دریافتی خود را به خوبی بررسی و پردازش کند، به ماژول‏هایی نیاز داریم که بتوانند برای هر موجودیت؛(۱)نوع اصلی، (۲) نوع فرعی، (۳)کلاس موجودیت، (۴)نوع اشاره‏ای که به آن موجودیت اشاره می‏کنند، و اطلاعات انواع رابطه‏ها و وابستگی‏های میان اشاره‏ها را باید مشخص و ثبت نماید.
یکی از اهداف اصلی این پایان‏ نامه تولید یک پیکره مناسب برای کشف اشاره و تشخیص مرجع مشترک می‏باشد. بر اساس همین رویکرد، ما پیکره «بیژن‏خان» را به عنوان مبنای کار در نظر گرفته و عبارت‏های اسمی مورد نظر را در قالب انواع اشاره‏های گفته شده نشانه‏گذاری نموده‏ایم.
۲-۲-۱.پیکره نشانه‏گذاری شده توسط اطلاعات هم‏مرجع‏
عملکرد روش‏های‏ یادگیری ماشین، به کیفیت پیکره‏ای که بر روی آن آموزش داده می‏شوند، بستگی دارد. در این فصل به نحوه‏ی ایجاد نشانه‏گذاری و اهمیت نشانه‏گذاری اطلاعات هم‏مرجعی و ویژگی‏های پیکره تولید شده برای این پایان‏ نامه خواهیم پرداخت.
نشانه‏گذاری یک پیکره با اطلاعات هم‏مرجع، از دیدگاه محاسباتی و همچنین از دیدگاه زبان‏شناسی حائز اهمیت است. از دیدگاه زبان‏شناسی پیکره‏ای که با اطلاعات هم‏مرجع‏ نشانه‏گذاری شده است، دانشی را در مورد نوع رابطه‏ای که میان دو اشاره‏ی هم‏مرجع‏ وجود دارد و فراوانی انواع متفاوت روابط هم‏مرجعی و امثال این‏ها در اختیار قرار می‏دهد. از دیدگاه محاسباتی، چنین پیکره‏هایی جهت توسعه و ارزیابی سیستم‏هایی که به صورت خودکار آموزش دیده اند، مناسب هستند. نمونه‏هایی از به کارگیری چنین پیکره‏هایی برای توسعه و ارزیابی سیستم‏های ارائه شده عبارتند‏از [۱۳،۱۴،۱۵،۳۳،۵۲،۶۵،۶۷،۹۹،۱۰۰،۱۰۱،۱۰۵]. علاوه بر کاربردهای یاد شده، پیکره با اطلاعات عبارات هم‏مرجع‏ می‏تواند‏ برای ارزیابی سیستم‏هایی که تنها بر پایه اطلاعات زبان‏شناسی هستند و از اطلاعات آماری استفاده نمی‏کنند، نیز مفید واقع شود.
با این وجود، تعداد پیکره‏هایی که با عبارات اسمی هم‏مرجع‏ نشانه‏گذاری شده‏اند و در دسترس همگان قرار دارند، محدود است. پیکره‏های MUC و ACE از جمله پیکره‏هایی هستند که زبان‏هایی مانند انگلیسی، عربی، چینی و… به صورت وسیعی در آموزش و ارزیابی سیستم‏های تعیین عبارات اسمی هم‏مرجع‏ نشانه‏گذاری شده‏اند. از طرفی دیگر از آن جایی که که چنین پیکره‏ای برای زبان پارسی مهیا نبود، به منظور به کارگیری تکنیک‏های یادگیری ماشین در فرایند تشخیص مرجع مشترک، یک پیکره مناسب به نام لوتوس[۱۷۰] تهیه نمودیم. این پیکره بر پایه یکی از پیکره‏های موجود در زبان پارسی ‏‏‏به نام بیژن‏خان تهیه شده است. در بخش‏های بعد به بررسی دو پیکره مورد اشاره یعنی لوتوس و بیژن‏خان می‏پردازیم.
۲-۲-۲.پیکره بیژن‏خان
پیکره بیژن‏خان[۶۸] از حجم انبوهی از متون الکترونیکی پارسی ‏‏‏نشانه‏گذاری شده تشکیل شده است و داده‏های زبان وسیعی را در حیطه‏های مختلف در بر دارد. می‏توان پیکره بیژن‏خان را به عنوان یک جامعه آماری کامل از متون پارسی ‏‏‏در نظر گرفت. پیکره بیژن‏خان شامل مجموعه برچسب‏های مقوله نحوی معنایی بوده و به صورت نیمه خودکار در سطح واژه و گروه‏های نحوی، تقطیع و برچسب‏دهی شده است. بیژن‏خان از ۴۳۰۰ متن نشانه‏گذاری شده مختلف تشکیل شده است. این متون از منابع معتبر پارسی ‏‏‏همچون مقالات هفتگی سروش و یا واحد مرکزی خبر بر گرفته شده‏اند و شامل موضوعات متنوعی همچون موضوعات اجتماعی، اطلاعاتی، فرهنگی، مذهبی، هنری، تاریخی، داستانی، اقتصادی، پزشکی، ورزشی، سیاسی و غیره هستند.
همان طور که اشاره شد، بیژن‏خان، پیکره‏ای مبتنی بر واژه بوده و اطلاعات اضافه شده به آن، در سطح واژه هستند. هر خط از هر یک از متون نشانه‏گذاری شده در بیژن‏خان، حاوی یک واژه و برچسب‏های نحوی و معنایی مربوط به آن واژه می‏باشد. اطلاعات معنایی اضافه شده نیز، به عنوان نمونه مشخص می‏کند که واژه مذکور در کدام یک از این دسته‏های معنایی قرار می‏گیرد: شخص، مکان، فصل، ماه، روز، زمان و غیره. از کاربردهای پیشین پیکره بیژن‏خان می‏توان به تحلیل واژه شناسی آماری [۳۲]و استنتاج بدون ناظر گرامر زبان پارسی[۶۸،۷۱] اشاره کرد. شکل ۲-۳ شمایی از پیکره بیژن‏خان را نمایش می‏دهد.

شکل ۲-۳: شمایی از نشانه‏گذاری پیکره«بیژن‏خان»

۲-۲-۳. پیکره لوتوس
پیکره لوتوس، پیکره‏ای است که علاوه بر اطلاعات عبارت اسمی هم‏مرجع‏، دارای اطلاعات مربوط به اشاره نیز می‏باشد. ما این پیکره را به عنوان یک گسترش جزئی بر « بیژن‏خان» در نظر می‏گیریم که در آن ۴۰ متن از بیژن‏خان با اطلاعات اشاره و هم‏مرجعی نشانه‏گذاری شده است. متون نشانه‏گذاری شده، از موضوعات مختلف برگزیده شده اند. از آنجائیکه پیکره لوتوس، اولین پیکره اطلاعات اشاره و هم‏مرجعی در زبان پارسی ‏‏‏است، در نشانه‏گذاری تنها به مشخص کردن ارجاعات اصلی که مربوط به اشخاص، مکان ها، سازمان‏ها و موجودیت‏های سیاسی می‏باشد بسنده کرده‏ایم. به منظور مشخص کردن نوع هر اشاره، نوع موجودیت، زیر گروه موجودیت، کلاس موجودیت و کد ارجاع از یک سری قوانین مشخص و اصولی پیروی کردیم. این قوانین را بر پایه‏ی اطلاعات ارائه شده در [۸،۹] تهیه کردیم که با توجه به ویژگی‏های زبان پارسی ‏‏‏آن را شخصی سازی نموده ایم. روال کار به این ترتیب است که پس از تعیین محدوده هر اشاره ،نوع اشاره، نوع ارجاع، موجودیتی که به آن اشاره می‏شود و زیرگروه موجودیتی که به آن اشاره می‏شود، مشخص می‏شود. برچسب واژه آغاز‏کننده‏ی اشاره، با نشانه “B” شروع می‏شود و برچسب واژه‏های وابسته به آن با نشانه “I” شروع خواهند شد. در هر متن نشانه‏گذاری شده، به دنبال اطلاعات هر اشاره، شناسه عددی منحصر به فردی قرار می‏گیرد که به یک موجودیت یکتا اشاره می‏کند. این ویژگی موجب می‏شود تا بتوانیم در هر متن و یا در متون مختلف، اشاره‏هایی که به یک موجودیت واحد اشاره دارند را مشخص نمائیم.
از آنجائیکه بیژن‏خان پیکره‏ای در سطح واژه است، در صورتی که یک اشاره از چندین واژه تشکیل شده باشد، از نشانه “-” در آخر هر برچسب اشاره استفاده کرده ایم تا نشانگر این موضوع باشد که اشاره مورد نظر چندین واژه‏ی متوالی را در بر می‏گیرد. نمونه‏ای از نشانه‏گذاری پیکره لوتوس را در شکل ۲-۴ مشاهده می‏نمائید.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...