ملوانان
در
لنگرگاه
برای

۱۵۰۰
سال
کمک
کرد
همترازی در سطح کلمه بین دو جمله موازی
در شکل‌های ۴-۳ و ۴-۴، همترازی سمت راست شکل بصورت دستی انجام شده و همترازی سمت چپ شکل همترازی خودکار انجام شده با ابزار Giza++ است.
نمره همترازی
در همترازی در سطح کلمه بین دو جمله، هر دو کلمه متناظر با یک احتمال به یکدیگر متصل شده‌اند. حاصلضرب نرمالیزه شده این احتمالات می‌تواند نشانگر قدرت همترازی صورت گرفته بین دو جمله باشد. به این معنا که هر چه این حاصلضرب بزرگتر باشد، همترازی بهتری بین دو جمله صورت گرفته است. از آنجایی که اغلب همترازی بین دو جمله موازی بهتر از همترازی بین دو جمله غیر موازی است، لذا امتیاز همترازی به دست آمده ویژگی خوبی برای تشخیص جملات موازی است.
بالا بردن دقت جفت جملات موازی استخراج شده
در بین جفت جملاتی که طبقه‌بند آنتروپی بیشینه موازی تشخیص داده است، ممکن است همچنان جفت جملات غیر موازی وجود داشته باشند. از آنجایی در مرحله اول مدل، تمام جفت جملات هر دو سند با هم در نظر گرفته شدند، امکان این وجود دارد که بعد از گذشتن از مرحله یک و دو همچنان یک جمله با چندین جمله از طرف مقابل جفت شده و موازی تشخیص داده شده باشند. از آنجایی که در واقعیت چنین امکانی وجود ندارد و یا احتمال آن بسیار کم است، در این مرحله به کمک یک فیلتر سعی می‌کنیم هر جمله، تنها با یک جمله از طرف مقابل به عنوان جفت جمله موازی در نظر گرفته شود، و دیگر جمله‌ها حذف می‌شوند.
برای حذف این جملات از فیلتر «معیار TER» استفاده می‌کنیم. به این صورت که ابتدا جملات طرف مبدأ (در اینجا فارسی) را با ماشین ترجمه، ترجمه می‌کنیم. سپس میزان نزدیکی جملات طرف مقصد (در اینجا انگلیسی) را به عنوان «فرضیه[۳۱]» با جملات ترجمه شده به عنوان «مرجع[۳۲]» محاسبه می‌کنیم. میزان نزدیکی این دو جمله توسط معیار TER به دست می‌آید.
معیار TER در نظر می‌گیرد که برای تبدیل یک جمله «مرجع» به جمله «فرضیه» به چه تعداد عمل ویرایشی شامل عمل‌های: حذف، درج، جایگزینی و شیفت عبارت نیاز است. نسبت این تعداد عمل ویرایشی به کل تعداد کلمات جمله مرجع، نمره TER را می‌دهد. از اینرو هر چه نمره TER کمتر باشد دو جمله به هم نزدیک‌ترند. برای توضیحات بیشتر به بخش ۲-۲-۴ مربوط به معیارهای ارزیابی ترجمه ماشینی مراجعه کنید.
در نهایت از بین همه جمله‌های مبدأ که با یک جمله مقصد جفت شده‌اند، جمله‌ای انتخاب می‌شود که کمترین نمره TER را به دست آورده باشد.
شیوه ارزیابی مدل
برای ارزیابی کارآمدی مدل، می‌باسیت خروجی نهایی مدل یعنی جفت جملات استخراج شده را ارزیابی کرد. به عبارتی می‌خواهیم ببینیم آیا جفت جملات موازی استخراج شده کیفیت ترجمه را بهبود می‌دهند؟ و به چه‌اندازه؟ برای این کار از یک ماشین ترجمه استفاده می‌کنیم. فرایند ارزیابی شامل مراحل زیر است:

    1. ابتدا پیکره موازی موجود را به عنوان «پیکره پایه» در نظر می‌گیریم و ماشین ترجمه را با آن آموزش می‌دهیم. ماشین ترجمه آموزش داده شده توسط پیکره پایه را «ماشین ترجمه پایه» می‌نامیم.
    1. از یک پیکره موازی کوچک – غیر از پیکره پایه – به عنوان داده آزمایشی برای ماشین ترجمه استفاده می‌کنیم. به این صورت که جملات طرف مبدأ پیکره را به عنوان ورودی به ماشین ترجمه می‌دهیم. سپس میزان نزدیکی جملات ترجمه شده – خروجی ماشین ترجمه – را با جملات طرف مقصد پیکره آزمایشی توسط معیار بلو ارزیابی می‌کنیم.
    1. جفت جملات موازی استخراج شده را به پیکره پایه اضافه می‌کنیم و مراحل اول و دوم را دوباره تکرار می‌کنیم. به این معنی که دوباره ماشین ترجمه را می‌سازیم اما این بار ماشین ترجمه را با پیکره پایه به اضافه جفت جملات موازی استخراج شده آموزش می‌دهیم.
    1. ماشین ترجمه ساخته شده در مرحله سوم را با همان داده‌های مرحله دوم به عنوان داده آزمایشی ارزیابی می‌کنیم. و در نهایت دو مقدار بلوی به دست آمده در مرحله دوم و چهارم را با هم مقایسه می‌کنیم. شکل ۴-۵ مراحل ذکر شده را نشان می‌دهد.

ماشین ترجمه پایه

داده‌های آزمایشی

S
T
پیکره موازی اولیه

S

T

T

نمره بلو ۱
ماشین ترجمه
پیکره موازی اولیه

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...