دانلود پژوهش های پیشین درباره مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی ... - منابع مورد نیاز برای پایان نامه : دانلود پژوهش های پیشین |
ملوانان
در
لنگرگاه
برای
۱۵۰۰
سال
کمک
کرد
همترازی در سطح کلمه بین دو جمله موازی
در شکلهای ۴-۳ و ۴-۴، همترازی سمت راست شکل بصورت دستی انجام شده و همترازی سمت چپ شکل همترازی خودکار انجام شده با ابزار Giza++ است.
نمره همترازی
در همترازی در سطح کلمه بین دو جمله، هر دو کلمه متناظر با یک احتمال به یکدیگر متصل شدهاند. حاصلضرب نرمالیزه شده این احتمالات میتواند نشانگر قدرت همترازی صورت گرفته بین دو جمله باشد. به این معنا که هر چه این حاصلضرب بزرگتر باشد، همترازی بهتری بین دو جمله صورت گرفته است. از آنجایی که اغلب همترازی بین دو جمله موازی بهتر از همترازی بین دو جمله غیر موازی است، لذا امتیاز همترازی به دست آمده ویژگی خوبی برای تشخیص جملات موازی است.
بالا بردن دقت جفت جملات موازی استخراج شده
در بین جفت جملاتی که طبقهبند آنتروپی بیشینه موازی تشخیص داده است، ممکن است همچنان جفت جملات غیر موازی وجود داشته باشند. از آنجایی در مرحله اول مدل، تمام جفت جملات هر دو سند با هم در نظر گرفته شدند، امکان این وجود دارد که بعد از گذشتن از مرحله یک و دو همچنان یک جمله با چندین جمله از طرف مقابل جفت شده و موازی تشخیص داده شده باشند. از آنجایی که در واقعیت چنین امکانی وجود ندارد و یا احتمال آن بسیار کم است، در این مرحله به کمک یک فیلتر سعی میکنیم هر جمله، تنها با یک جمله از طرف مقابل به عنوان جفت جمله موازی در نظر گرفته شود، و دیگر جملهها حذف میشوند.
برای حذف این جملات از فیلتر «معیار TER» استفاده میکنیم. به این صورت که ابتدا جملات طرف مبدأ (در اینجا فارسی) را با ماشین ترجمه، ترجمه میکنیم. سپس میزان نزدیکی جملات طرف مقصد (در اینجا انگلیسی) را به عنوان «فرضیه[۳۱]» با جملات ترجمه شده به عنوان «مرجع[۳۲]» محاسبه میکنیم. میزان نزدیکی این دو جمله توسط معیار TER به دست میآید.
معیار TER در نظر میگیرد که برای تبدیل یک جمله «مرجع» به جمله «فرضیه» به چه تعداد عمل ویرایشی شامل عملهای: حذف، درج، جایگزینی و شیفت عبارت نیاز است. نسبت این تعداد عمل ویرایشی به کل تعداد کلمات جمله مرجع، نمره TER را میدهد. از اینرو هر چه نمره TER کمتر باشد دو جمله به هم نزدیکترند. برای توضیحات بیشتر به بخش ۲-۲-۴ مربوط به معیارهای ارزیابی ترجمه ماشینی مراجعه کنید.
در نهایت از بین همه جملههای مبدأ که با یک جمله مقصد جفت شدهاند، جملهای انتخاب میشود که کمترین نمره TER را به دست آورده باشد.
شیوه ارزیابی مدل
برای ارزیابی کارآمدی مدل، میباسیت خروجی نهایی مدل یعنی جفت جملات استخراج شده را ارزیابی کرد. به عبارتی میخواهیم ببینیم آیا جفت جملات موازی استخراج شده کیفیت ترجمه را بهبود میدهند؟ و به چهاندازه؟ برای این کار از یک ماشین ترجمه استفاده میکنیم. فرایند ارزیابی شامل مراحل زیر است:
-
- ابتدا پیکره موازی موجود را به عنوان «پیکره پایه» در نظر میگیریم و ماشین ترجمه را با آن آموزش میدهیم. ماشین ترجمه آموزش داده شده توسط پیکره پایه را «ماشین ترجمه پایه» مینامیم.
-
- از یک پیکره موازی کوچک – غیر از پیکره پایه – به عنوان داده آزمایشی برای ماشین ترجمه استفاده میکنیم. به این صورت که جملات طرف مبدأ پیکره را به عنوان ورودی به ماشین ترجمه میدهیم. سپس میزان نزدیکی جملات ترجمه شده – خروجی ماشین ترجمه – را با جملات طرف مقصد پیکره آزمایشی توسط معیار بلو ارزیابی میکنیم.
-
- جفت جملات موازی استخراج شده را به پیکره پایه اضافه میکنیم و مراحل اول و دوم را دوباره تکرار میکنیم. به این معنی که دوباره ماشین ترجمه را میسازیم اما این بار ماشین ترجمه را با پیکره پایه به اضافه جفت جملات موازی استخراج شده آموزش میدهیم.
-
- ماشین ترجمه ساخته شده در مرحله سوم را با همان دادههای مرحله دوم به عنوان داده آزمایشی ارزیابی میکنیم. و در نهایت دو مقدار بلوی به دست آمده در مرحله دوم و چهارم را با هم مقایسه میکنیم. شکل ۴-۵ مراحل ذکر شده را نشان میدهد.
ماشین ترجمه پایه
دادههای آزمایشی
S
T
پیکره موازی اولیه
S
T
T
نمره بلو ۱
ماشین ترجمه
پیکره موازی اولیه
فرم در حال بارگذاری ...
[چهارشنبه 1401-04-15] [ 07:03:00 ق.ظ ]
|