مسئله تحقیق: ساخت پیکره موازی
همانطور که گفته شد ترجمه ماشینی آماری رایج‌ترین رویکرد ترجمه ماشینی در حال حاضر است. از طرفی پیکره‌های موازی اصلی‌ترین منابع برای ترجمه ماشینی آماری هستند، اما این در حالی است که اکثریت زبان‌های طبیعی با کمبود این منابع مهم روبه‌رو هستند. از اینرو تلاش برای ساخت پیکره‌های موازی جهت بهبود ترجمه ماشینی ضروری به نظر می‌رسد.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

یک راه برای غلبه بر این کمبود منابع، تولید ترجمه‌های انسانی بیشتر است، اما این یک گزینه بسیار پرهزینه است، هم از نظر زمان و هم از نظر مالی؛ اما با این حال به دلیل اهمیت بسیار زیاد پیکره‌های موازی برای ترجمه ماشینی برخی از پیکره‌های موازی از این طریق ساخته شده‌اند [۷]. راه دیگر استفاده از متون از قبل ترجمه شده است از جمله کتاب‌های ترجمه شده الکترونیکی [۸] و یا کتابچه‌های راهنمای چندزبانه الکترونیکی [۹]، اما تعداد اینگونه منابع الکترونیکی به خصوص برای زبان فارسی بسیار کم است. گزارشات پارلمانی و متون حقوقی مانند شرح مذاکرات پارلمانی سازمان ملل متحد، اروپا و کانادا نیز از اصلی‌ترین نوع منابع از قبل ترجمه شده برای تولید پیکره‌های موازی محسوب می‌شوند که زبان فارسی فاقد این گونه منابع است. در برخی تلاش‌ها جهت ساخت پیکره موازی از زیرنویس فیلم‌ها استفاده شده است [۱۰][۱۱] اما به دلیل اینکه زیرنویس فیلم‌ها به زبان محاوره‌ای هستند، پیکره‌های ساخته شده از آنها نویزی بوده و در همه زمینه‌ها قابل استفاده نیستند. وب نیز می‌تواند برای بدست آوردن جملات موازی پیمایش شود [۹,۱۲,۱۳,۱۴]، اگرچه اکثر متون دوزبانه یافت شده اغلب ترجمه دقیق هم نیستند و بنابراین همترازی آنها آسان نیست.
در کارهای اخیر، روش‌های کم هزینه‌تر اما پربارتری برای تولید اینگونه پیکره‌های دوزبانه همتراز شده در سطح جمله ارائه شده است، که بر پایه استخراج متون موازی از متون ” تقریبا موازی” و یا “نه خیلی موازی” می‌باشند که اینگونه متون اغلب در دسترس هستند و اصطلاح “پیکره تطبیقی” برای آنها به کار می‌رود.
هدف تحقیق: ساخت پیکره موازی از روی پیکره تطبیقی
یک پیکره تطبیقی مجموعه‌ای از متن‌هاست که به طور جداگانه در زبان‌های مربوطه ساخته شده‌اند و بر پایه شباهت محتوی ترکیب شده‌اند. این‌ها مستنداتی از یک به چند زبان هستند که از نظر شکل و محتوی در ابعاد و درجات مختلف قابل مقایسه هستند. بر عکس، یک پیکره موازی شامل متن‌های دو یا چند زبانه است که ترجمه دقیق همدیگر بوده و در سطح جمله همتراز شده‌اند.
مواد اولیه برای مستندات تطبیقی اغلب آسان بدست می‌آید، اما همترازی تک تک مستندات یک کار چالش بر انگیز است[۱۵]. منابع بالقوه برای پیکره‌های تطبیقی، آژانس‌های خبری چندزبانه مانند AFP و BBC و …، و یا دایره المعارف‌های چندزبانه مانند ویکی پدیا و Encarta هستند. برخی از این پیکره‌های تطبیقی به طور گسترده از طریق LDC در دسترس هستند. اینگونه منابع اغلب شامل جملاتی هستند که ترجمه‌های مناسبی از یکدیگرند. شناسایی مطمئن این جفت جمله‌ها، ساخت خودکار پیکره‌های موازی گوناگون را ممکن می‌سازد.
در این پایان نامه نیز روش‌های استفاده شده برای استخراج جملات موازی از پیکره‌های تطبیقی که برای جفت زبان‌های دیگر آمده‌اند، مورد بررسی قرار می‌گیرند؛ و از آن‌ها برای ساخت یک پیکره موازی از روی پیکره تطبیقی انگلیسی –فارسی استفاده می‌شود.
سرفصل‌ها
فصل دوم: مبانی نظری
در این فصل مبانی نظری ترجمه ماشینی و اصطلاحات به کار رفته در این پایان نامه را شرح می‌دهیم. در ابتدا پیکره را معرفی کرده و به بحث درباره انواع آن از جمله پیکره موازی و پیکره تطبیقی می‌پردازیم. در بخش بعد مبحث همترازی را عنوان کرده و انواع آن را معرفی می‌کنیم، که عبارتند از همترازی در سطح سند، همترازی در سطح جمله و همترازی در سطح لغت. در انتها ارزیابی ترجمه ماشینی آورده می‌شود و چند نمونه از معیارهای ارزیابی ترجمه ماشینی مانند BLEU، NIST، WER و TER شرح داده می‌شوند.
فصل سوم: مروری بر تحقیقات انجام شده
ساخت پیکره موازی یکی از مهمترین مباحث در حوزه ترجمه ماشینی است. از اینرو تا کنون کارهای زیادی در این شاخه از ترجمه ماشینی انجام شده است که هر کدام سعی داشته‌اند قدمی هر چند کوتاه برای غلبه بر چالش بزرگ کمبود متون موازی بردارند. برخی از کارها سعی بر تولید پیکره موازی از متون ترجمه شده مانند کتاب‌های دوزبانه، کتابچه‌های راهنما، متون حقوقی و شرح مذاکرات پارلمانی اروپا و غیره دارند. اما اینگونه منابع محدود هستند؛ از اینرو در سالهای اخیر محققان بر استخراج متون موازی از متون دوزبانه موجود در وب و یا پیکره‌های تطبیقی تمرکز دارند. در این فصل کارهای پیشین انجام شده از هر کدام از روش‌های ساخت پیکره مانند ساخت پیکره موازی از متون همراه با ترجمه، استخراج جملات موازی از وب و استخراج جملات موازی از پیکره‌های تطبیقی، آورده می‌شود. در پایان نیز کارهایی که رویکرد مشابهی با رویکرد این رساله دارند و از طبقه‌بند آنتروپی بیشینه برای استخراج جملات موازی استفاده کرده‌اند، به طور مفصل تری شرح داده می‌شوند.
فصل چهارم: مدل پیشنهادی
مدل پیشنهادی این رساله برای استخراج جملات موازی از پیکره‌های تطبیقی شامل سه مرحله اصلی است. مرحله اول مربوط است به انتخاب جفت جملاتی که کاندید موازی بودن هستند. این کار توسط دو فیلتر طول جمله و تعداد کلمات مشترک انجام می‌شود. مرحله دوم عبارت است از انتخاب و تشخیص جفت جملات موازی از روی جفت جملات کاندید. تشخیص جفت جملات موازی از جفت جملات غیرموازی توسط طبقه‌بند آنتروپی بیشینه انجام می‌شود. سپس مجموعه‌ای از ویژگی‌های یک جفت جمله که برای طبقه‌بند آنتروپی بیشینه در نظر گرفته شده‌اند، شرح داده می‌شوند. در مرحله سوم دقت پیکره موازی ساخته شده نهایی با از استفاده از معیار TER افزایش داده می‌شود. در بخش پایانی فصل، نحوه ارزیابی مدل ارائه شده شرح داده می‌شود.
فصل پنجم: ارزیابی و نتیجه گیری
ارزیابی‌ها در دو بخش اصلی ارزیابی طبقه‌بند آنتروپی بیشینه و ارزیابی جفت جملات موازی استخراج شده آورده می‌شوند. در بخش ارزیابی طبقه‌بند آنتروپی بیشینه ابتدا ویژگی‌های معرفی شده ارزیابی شده و میزان تأثیر گذاری آنها بر کارآیی طبقه‌بند سنجیده می‌شود. سپس مسئله حساسیت طبقه‌بند به دامنه متون به کار رفته در داده‌های آموزشی و آزمایشی بررسی می‌شود.
در بخش دوم، برای ارزیابی جفت جملات موازی استخراج شده از ماشین ترجمه آماری «موزز» استفاده می‌کنیم. تنظیمات انجام شده برای ماشین ترجمه و ارزیابی جفت جملات در این بخش شرح داده می‌شوند.
فصل دوم
مبانی نظری

مبانی نظری
پیکره[۱۲]
پیکره، مجموعه‌ای است از مواد متنی یا گفتاری که بر اساس مجموعه مشخصی از معیارهای از پیش تعیین شده گردآوری شده است. پیکره قابل خوانش توسط ماشین است به عبارتی دیگر دیجیتالی است، دامنه مشخصی دارد و محدود (دارای نهایت) است. پیکره برای پژوهش‌های زبانی مورد استفاده قرار می‌گیرد. از آنجایی که در این پژوهش کاربردهای متنی ترجمه ماشینی مدنظر است، منظور از پیکره، پیکره متنی می‌باشد؛ اما از این پس جهت سهولت تنها از لفظ پیکره به جای پیکره متنی استفاده می‌کنیم.
پیکره مجموعه‌ای نظام‌مند از متون است. منظور از «نظام‌مند» بودن این است که ساختار و محتوای پیکره از اصول نمونه گیری معینی پیروی می‌کنند؛ یعنی اصولی که تعیین می‌کند پیکره شامل چه متن‌هایی باشد. همچنین نظام‌مند بودن به این معنی است که اطلاعات پیکره در ترکیب درست و مشخصی در دسترس پژوهشگران قرار می‌گیرد.
به منظور استفاده بهتر از پیکره در حوزه پردازش زبان‌های طبیعی، یک پیکره می‌تواند حاشیه نویسی شده باشد. حاشیه نویسی یعنی افزودن برخی اطلاعات به پیکره، مانند اطلاعات در مورد نقش کلمات، ریشه کلمات، ساختار یا تجزیه نحوی جملات و … . برخی پیکره‌ها کاملا تجزیه شده و حاشیه گذاری می‌شوند که به این نوع پیکره‌ها بانک درختی گفته می‌شود.
پیکره‌های متنی می‌توانند تک زبانه، دوزبانه و یا چند زبانه باشند. در پیکره‌های تک زبانه متون تنها به یک زبان نوشته می‌شوند. از این نوع پیکره‌ها (که معمولا حاشیه نویسی شده‌اند) در بازیابی اطلاعات، یافتن نقش کلمه، رفع ابهام معنایی، مدل سازی زبانی و غیره استفاده می‌شود. پیکره‌های دوزبانه و چندزبانه نیز به ترتیب شامل متونی در دو و بیش از دو زبان هستند. از این پیکره‌ها در بازیابی اطلاعات صلیبی و مقایسه نظیر به نظیر استفاده می‌شود. پیکره‌های دو یا چند زبانه به طور خاص در رویکردهای ترجمه ماشینی مبتنی بر پیکره استفاده می‌شوند. در برخی از نوشتجات، پیکره دوزبانه به عنوان پیکره موازی قلمداد می‌شود. دو نوع برجسته از پیکره‌های دو یا چند زبانه عبارتند از پیکره موازی و پیکره تطبیقی، که در ادامه معرفی می‌شوند.
پیکره موازی[۱۳]
پیکره موازی عبارتست از پیکره‌ای شامل متونی به یک زبان و ترجمه آنها در یک یا چند زبان دیگر. پیکره موازی می‌تواند دوزبانه و یا چند زبانه باشد. با این حال به دلیل اینکه اغلب پیکره‌های موازی دوزبانه هستند، در برخی نوشتجات به پیکره موازی، پیکره دوزبانه یا متن دوزبانه نیز گفته می‌شود. یک پیکره موازی جهت اینکه بتواند در ترجمه ماشینی استفاده شود باید در سطح جمله همتراز شده باشد، یعنی باید جملات هم‌ترجمه با هم جفت شده باشند؛ که به آن «پیکره موازی همترازشده» گفته می‌شود. همتراز کردن جملات پیکره موازی پیش نیاز لازم برای بسیاری از حوزه‌های پردازش زبان طبیعی و به خصوص ترجمه ماشینی است. از آنجا که پیکره‌های موازی اکثرا در قالب ترازبندی شده به کار می‌روند، اغلب و نیز در ادامه این رساله، منظور از پیکره موازی همان پیکره موازی همترازشده می‌باشد.
تا کنون پیکره‌های موازی زیادی برای جفت زبان‌های مختلف تولید شده است. اما همچنان به حجم بیشتری از متون موازی نیاز است. OPUS [16] مجموعه‌ای روبه‌رشد از پیکره‌های موازی آزاد است. در پروژه OPUS داده‌های برخط رایگان جمع آوری می‌شوند و سپس بصورت خودکار پیش پردازش و حاشیه نویسی می‌شوند و در نهایت به صورت یک بسته با محتوای آزاد در اختیار عموم قرار می‌گیرند. Europarl [5] یکی از معروفترین پیکره‌های موازی موجود در OPUS است. این پیکره موازی از گزارشات پارلمانی اروپا استخراج شده است و شامل ۲۱ زبان اروپایی است. این پیکره به هدف تولید متون همتراز شده در سطح جمله و بهبود ترجمه ماشینی آماری ساخته شده است. پیکره سازمان ملل متحد نیز پیکره‌ای موازی و شش زبانه است. این پیکره موازی از قطعنامه‌های مجمع عمومی سازمان ملل متحد گرفته شده است و در سطح پاراگراف همتراز شده است. پیکره قطعنامه‌های مجمع عمومی سازمان ملل متحد به صورت آزاد در دسترس همگان قرار دارد.
تعداد کمی پیکره موازی انگلیسی-فارسی وجود دارد، که به شیوه‌های مختلفی تولید شده‌اند و در اندازه و دامنه‌ای که پوشش می‌دهند متفاوتند. پیکره موازی Shiraz [17] اولین تلاش گزارش شده برای توسعه پیکره انگلیسی-فارسی است. این پیکره شامل ۳۰۰۰ جمله فارسی است که از پیکره فارسی شامل مواد برخط جمع آوری شده است و بصورت دستی توسط دانشگاه ایالت نیومکزیکو به انگلیسی ترجمه شدند تا سیستم ترجمه ماشینی Shiraz را آزمایش کنند. برخی تلاش‌ها در توسعه ترجمه ماشینی انگلیسی-فارسی گفتار به گفتار برای نیروی حفاظت ارتش و فوریت‌های پزشکی با پشتیبانی آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی (DARPA) انجام شد. پیکره مورد استفاده در این کارها از پیکره‌های موجود برای زبان‌های دیگر (مثلا انگلیسی-عراقی) جمع آوری شده و یا از منابع محدود به دامنه‌ای خاص مانند راهنماهای زبان و یا ترجمه‌های دستی پزشکی می‌باشند [۱۸]. قاسمی زاده و رحیمی تلاش‌هایی برای ساخت پیکره چندزبانه موازی برای زبان فارسی در فریم ورک MULTEXT-East انجام دادند [۱۹]. آنها از کتاب ۱۹۸۴ اورول به عنوان متن اصلی برای ساخت پیکره استفاده کردند. طرف فارسی زبان پیکره تقریبا از ۶۶۰۶ جمله و ۱۱۰۰۰۰ نشانه تشکیل شده است.
محقق و صراف زاده [۲۰] یک پیکره باز از زیرنویس فیلم‌ها توسعه دادند که حدودا شامل ۱۰۰۰۰ جفت جمله است. از طرفی دیگر پیلوار و همکاران [۱۰] از مزایای زیرنویس فیلم‌ها برای تشکیل TEP بزرگترین پیکره موازی انگلیسی-فارسی تا به امروز، بهره بردند. که اکنون شامل ۶۱۲۰۸۶ جفت جمله و حدود چهار میلیون کلمه در هر دو زبان انگلیسی و فارسی است. اگرچه آنها پذیرفته‌اند که زیرنویس فیلم‌ها شامل مکالمات روزانه که محاوره‌ای و غیر رسمی اند، هستند و در نتیجه نمی توانند به راحتی بصورت خودکار تفسیر شوند. این امر قابلیت استفاده این پیکره را در برنامه‌های کاربردی پردازش زبان‌های طبیعی فارسی محدود می‌کند.
فرجیان [۲۱] نیز از منابع خبری قابل دسترس بصورت آنلاین، استفاده کرد و PEN، پیکره همتراز شده در سطح جمله را بطور نیمه خودکار ساخت. این پیکره حدود ۳۰۰۰۰ جفت جمله همتراز شده دارد. جباری و همکاران [۲۲] با ادغام چندین پیکره شامل پیکره استخراج شده از اخبار یک سایت خبری چند زبانه (شامل زبان فارسی و انگلیسی)، پیکره تشکیل شده از زیرنویس‌های فیلم موجود در یک وب سایت، سه پیکره که بصورت دستی ترجمه شدند و همچنین دو پیکره موجود PEN و ELRA به همراه ۲۰۰۰۰ نام نویسه گردانی شده، پیکره بزرگ AFEC را به‌اندازه ۷۰۰ میلیون خط تولید کردند.
به عنوان آخرین نمونه، انجمن منابع زبان اروپا (ELRA) یک پیکره – که بصورت تجاری از طریق وب در دسترس است- شامل حدود ۳۵۰۰۰۰۰ کلمه در زبان فارسی و انگلیسی ایجاد کرد که در سطح جمله همتراز شده، و شامل حدود ۱۰۰۰۰۰ جمله توزیع شده در بین ۵۰۰۲۱ مدخل است. این پیکره ترکیبی است از چندین دامنه متفاوت شامل هنر، فرهنگ، اصطلاحات، قانون، ادبیات، پزشکی، شعر، سیاست، ضرب المثل، مذهبی و علمی.
پیکره تطبیقی[۱۴]
پیکره تطبیقی نوعی پیکره دو یا چند زبانه است و شامل متونی مشابه در بیش از یک زبان می‌باشد. مشابهت متون می‌تواند انواع مختلفی داشته باشد. به طور مثال متون می‌توانند از نظر شباهت محتوا، ژانر، دامنه و دوره‌های نمونه گیری قابل تطبیق (قابل مقایسه) باشند. متون یک پیکره تطبیقی ترجمه همدیگر نیستند، بلکه قابل مقایسه بودن آنها به خاطر چارچوب نمونه گیری و توازن یکسانشان است. برای پیکره تطبیقی تعاریف مختلفی آمده است که در زیر به دو نمونه اشاره می‌شود:
یک پیکره تطبیقی مجموعه‌ای از متن‌هاست که به طور جداگانه در زبان‌های مربوطه ساخته شده‌اند و بر پایه شباهت محتوی ترکیب شده‌اند. این‌ها مستنداتی از یک به چند زبان هستند که از نظر شکل و محتوی در ابعاد و درجات مختلف قابل مقایسه هستند [۲۳].
پیکره تطبیقی عبارتست از یک جفت پیکره تک زبانه در دو زبان مختلف، که از دامنه‌های مشابهی هستند.
پیکره‌های تطبیقی در کاربردهای آماری پردازش زبان‌های طبیعی به عنوان داده‌های آموزشی استفاده می‌شوند، کاربردهایی مانند ترجمه ماشینی آماری و یا بازیابی اطلاعات صلیبی. همچنین پیکره تطبیقی در حوزه زبانشناسی، کشفیات و مقایسه‌های بین زبانی را ممکن می‌سازد.
دسترسی به پیکره‌های تطبیقی نسبت به پیکره‌های موازی بسیار آسان‌تر است چراکه منابع برای متون اصلی و تک زبانه خیلی بیشتر از متون ترجمه شده است. منابع بالقوه برای پیکره‌های تطبیقی، آژانس‌های خبری چندزبانه مانند AFP و BBC و …، و یا دایره المعارف‌های چندزبانه مانند ویکی پدیا و Encarta هستند. برخی از این پیکره‌های تطبیقی به طور گسترده از طریق LDC در دسترس هستند.
همترازی[۱۵]
همترازی (ترازیابی) در لغت به معنی هماهنگی و یا ارتباط مطلوب و مناسب بین اجزا است. به عبارتی اجزایی با یکدیگر همتراز می‌شوند که یک هماهنگی خاص بین آنها باشد، که در اینجا این هماهنگی از نوع «هم‌ترجمه» بودن است. همترازی بین دو جزء صورت می‌گیرد و هر کدام از اجزاء به یک زبان مختلف هستند. همترازی در سطوح مختلفی از متن انجام می‌شود که عبارتند از همترازی در سطح سند، همترازی در سطح جمله و همترازی در سطح کلمه. هر کدام از انواع همترازی در ادامه توضیح داده می‌شوند.
همترازی در سطح سند
همترازی در سطح سند به معنی نظیر کردن سندهایی در زبان‌های مختلف به یکدیگر است که با یکدیگر قابل تطبیق هستند. این قابل تطبیق بودن می‌تواند از نظر محتوا و یا ابعاد دیگر یک سند باشد، مانند تاریخ سند برای مستندات خبری، یا عنوان سند برای سندهای ویکی پدیا و یا ساختار HTML سند برای سندهایی که از وب جمع آوری می‌شوند. همترازی در سطح سند برای مجموعه نوشتجاتی که ترجمه هم هستند، به معنی جفت کردن هر سند با سند ترجمه اش در زبان دیگر است.
همترازی در سطح جمله[۱۶]
همترازی در سطح جمله یعنی یافتن جملات هم‌ترجمه از دو متن به دو زبان مختلف که ترجمه یکدیگر هستند. گاهی اوقات در ترجمه متن یک جمله به دو جمله یا برعکس دو جمله به یک جمله ترجمه می‌شوند در نتیجه همترازی جملات امری بدیهی نیست. همترازی جملات، اصلی‌ترین کار در ساختن پیکره موازی از روی متون از پیش ترجمه شده مانند کتاب‌ها یا خبرهای دو زبانه است. از اینرو همترازی جملات یک زمینه بسیار پر فعالیت در بین پژوهش‌های اخیر حوزه ترجمه ماشینی است.
تا کنون الگوریتم‌های زیادی برای همترازی در سطح جمله ارائه شده است. اولین الگوریتم‌ها بر اساس طول جمله که بر حسب تعداد کلمات و یا تعداد کاراکترهای جمله‌اندازه گیری می‌شود، ارائه شدند [۳، ۲۴]. برخی الگوریتم‌ها نیز مبتنی بر اطلاعات لغوی جمله هستند [۲۵]. همچنین در همترازی جملات از متونی که ترجمه یکدیگر هستند می‌توان از ترتیب جملات، موقعیت جملات در متن، نشانه‌های جمله مانند علائم نشانه گذاری و یا وجود اعداد به عنوان پارامتر جهت شناسایی جملات همتراز استفاده کرد [۲۶]. در [۲۷] روشی ارائه شده که جهت همترازی جملات، سند را بصورت تکرارشونده به دو بخش تقسیم می‌کند. تا کنون ابزارهایی جهت همترازی جملات پیاده سازی شده‌اند از جمله hunalign، Uplug، همتراز کننده جملات دوزبانه مایکروسافت و … . در شکل ۲-۱ نمونه‌ای از دو متن همتراز شده در سطح جمله را مشاهده می‌کنید. همانطور که از شکل پیداست جملات همیشه بصورت یک به یک نگاشت نمی شوند بنابراین همترازی جملات ضروری است.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...