دانلود پژوهش های پیشین درباره مدلی کارا برای ساخت پیکره … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین |
مسئله تحقیق: ساخت پیکره موازی
همانطور که گفته شد ترجمه ماشینی آماری رایجترین رویکرد ترجمه ماشینی در حال حاضر است. از طرفی پیکرههای موازی اصلیترین منابع برای ترجمه ماشینی آماری هستند، اما این در حالی است که اکثریت زبانهای طبیعی با کمبود این منابع مهم روبهرو هستند. از اینرو تلاش برای ساخت پیکرههای موازی جهت بهبود ترجمه ماشینی ضروری به نظر میرسد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
یک راه برای غلبه بر این کمبود منابع، تولید ترجمههای انسانی بیشتر است، اما این یک گزینه بسیار پرهزینه است، هم از نظر زمان و هم از نظر مالی؛ اما با این حال به دلیل اهمیت بسیار زیاد پیکرههای موازی برای ترجمه ماشینی برخی از پیکرههای موازی از این طریق ساخته شدهاند [۷]. راه دیگر استفاده از متون از قبل ترجمه شده است از جمله کتابهای ترجمه شده الکترونیکی [۸] و یا کتابچههای راهنمای چندزبانه الکترونیکی [۹]، اما تعداد اینگونه منابع الکترونیکی به خصوص برای زبان فارسی بسیار کم است. گزارشات پارلمانی و متون حقوقی مانند شرح مذاکرات پارلمانی سازمان ملل متحد، اروپا و کانادا نیز از اصلیترین نوع منابع از قبل ترجمه شده برای تولید پیکرههای موازی محسوب میشوند که زبان فارسی فاقد این گونه منابع است. در برخی تلاشها جهت ساخت پیکره موازی از زیرنویس فیلمها استفاده شده است [۱۰][۱۱] اما به دلیل اینکه زیرنویس فیلمها به زبان محاورهای هستند، پیکرههای ساخته شده از آنها نویزی بوده و در همه زمینهها قابل استفاده نیستند. وب نیز میتواند برای بدست آوردن جملات موازی پیمایش شود [۹,۱۲,۱۳,۱۴]، اگرچه اکثر متون دوزبانه یافت شده اغلب ترجمه دقیق هم نیستند و بنابراین همترازی آنها آسان نیست.
در کارهای اخیر، روشهای کم هزینهتر اما پربارتری برای تولید اینگونه پیکرههای دوزبانه همتراز شده در سطح جمله ارائه شده است، که بر پایه استخراج متون موازی از متون ” تقریبا موازی” و یا “نه خیلی موازی” میباشند که اینگونه متون اغلب در دسترس هستند و اصطلاح “پیکره تطبیقی” برای آنها به کار میرود.
هدف تحقیق: ساخت پیکره موازی از روی پیکره تطبیقی
یک پیکره تطبیقی مجموعهای از متنهاست که به طور جداگانه در زبانهای مربوطه ساخته شدهاند و بر پایه شباهت محتوی ترکیب شدهاند. اینها مستنداتی از یک به چند زبان هستند که از نظر شکل و محتوی در ابعاد و درجات مختلف قابل مقایسه هستند. بر عکس، یک پیکره موازی شامل متنهای دو یا چند زبانه است که ترجمه دقیق همدیگر بوده و در سطح جمله همتراز شدهاند.
مواد اولیه برای مستندات تطبیقی اغلب آسان بدست میآید، اما همترازی تک تک مستندات یک کار چالش بر انگیز است[۱۵]. منابع بالقوه برای پیکرههای تطبیقی، آژانسهای خبری چندزبانه مانند AFP و BBC و …، و یا دایره المعارفهای چندزبانه مانند ویکی پدیا و Encarta هستند. برخی از این پیکرههای تطبیقی به طور گسترده از طریق LDC در دسترس هستند. اینگونه منابع اغلب شامل جملاتی هستند که ترجمههای مناسبی از یکدیگرند. شناسایی مطمئن این جفت جملهها، ساخت خودکار پیکرههای موازی گوناگون را ممکن میسازد.
در این پایان نامه نیز روشهای استفاده شده برای استخراج جملات موازی از پیکرههای تطبیقی که برای جفت زبانهای دیگر آمدهاند، مورد بررسی قرار میگیرند؛ و از آنها برای ساخت یک پیکره موازی از روی پیکره تطبیقی انگلیسی –فارسی استفاده میشود.
سرفصلها
فصل دوم: مبانی نظری
در این فصل مبانی نظری ترجمه ماشینی و اصطلاحات به کار رفته در این پایان نامه را شرح میدهیم. در ابتدا پیکره را معرفی کرده و به بحث درباره انواع آن از جمله پیکره موازی و پیکره تطبیقی میپردازیم. در بخش بعد مبحث همترازی را عنوان کرده و انواع آن را معرفی میکنیم، که عبارتند از همترازی در سطح سند، همترازی در سطح جمله و همترازی در سطح لغت. در انتها ارزیابی ترجمه ماشینی آورده میشود و چند نمونه از معیارهای ارزیابی ترجمه ماشینی مانند BLEU، NIST، WER و TER شرح داده میشوند.
فصل سوم: مروری بر تحقیقات انجام شده
ساخت پیکره موازی یکی از مهمترین مباحث در حوزه ترجمه ماشینی است. از اینرو تا کنون کارهای زیادی در این شاخه از ترجمه ماشینی انجام شده است که هر کدام سعی داشتهاند قدمی هر چند کوتاه برای غلبه بر چالش بزرگ کمبود متون موازی بردارند. برخی از کارها سعی بر تولید پیکره موازی از متون ترجمه شده مانند کتابهای دوزبانه، کتابچههای راهنما، متون حقوقی و شرح مذاکرات پارلمانی اروپا و غیره دارند. اما اینگونه منابع محدود هستند؛ از اینرو در سالهای اخیر محققان بر استخراج متون موازی از متون دوزبانه موجود در وب و یا پیکرههای تطبیقی تمرکز دارند. در این فصل کارهای پیشین انجام شده از هر کدام از روشهای ساخت پیکره مانند ساخت پیکره موازی از متون همراه با ترجمه، استخراج جملات موازی از وب و استخراج جملات موازی از پیکرههای تطبیقی، آورده میشود. در پایان نیز کارهایی که رویکرد مشابهی با رویکرد این رساله دارند و از طبقهبند آنتروپی بیشینه برای استخراج جملات موازی استفاده کردهاند، به طور مفصل تری شرح داده میشوند.
فصل چهارم: مدل پیشنهادی
مدل پیشنهادی این رساله برای استخراج جملات موازی از پیکرههای تطبیقی شامل سه مرحله اصلی است. مرحله اول مربوط است به انتخاب جفت جملاتی که کاندید موازی بودن هستند. این کار توسط دو فیلتر طول جمله و تعداد کلمات مشترک انجام میشود. مرحله دوم عبارت است از انتخاب و تشخیص جفت جملات موازی از روی جفت جملات کاندید. تشخیص جفت جملات موازی از جفت جملات غیرموازی توسط طبقهبند آنتروپی بیشینه انجام میشود. سپس مجموعهای از ویژگیهای یک جفت جمله که برای طبقهبند آنتروپی بیشینه در نظر گرفته شدهاند، شرح داده میشوند. در مرحله سوم دقت پیکره موازی ساخته شده نهایی با از استفاده از معیار TER افزایش داده میشود. در بخش پایانی فصل، نحوه ارزیابی مدل ارائه شده شرح داده میشود.
فصل پنجم: ارزیابی و نتیجه گیری
ارزیابیها در دو بخش اصلی ارزیابی طبقهبند آنتروپی بیشینه و ارزیابی جفت جملات موازی استخراج شده آورده میشوند. در بخش ارزیابی طبقهبند آنتروپی بیشینه ابتدا ویژگیهای معرفی شده ارزیابی شده و میزان تأثیر گذاری آنها بر کارآیی طبقهبند سنجیده میشود. سپس مسئله حساسیت طبقهبند به دامنه متون به کار رفته در دادههای آموزشی و آزمایشی بررسی میشود.
در بخش دوم، برای ارزیابی جفت جملات موازی استخراج شده از ماشین ترجمه آماری «موزز» استفاده میکنیم. تنظیمات انجام شده برای ماشین ترجمه و ارزیابی جفت جملات در این بخش شرح داده میشوند.
فصل دوم
مبانی نظری
مبانی نظری
پیکره[۱۲]
پیکره، مجموعهای است از مواد متنی یا گفتاری که بر اساس مجموعه مشخصی از معیارهای از پیش تعیین شده گردآوری شده است. پیکره قابل خوانش توسط ماشین است به عبارتی دیگر دیجیتالی است، دامنه مشخصی دارد و محدود (دارای نهایت) است. پیکره برای پژوهشهای زبانی مورد استفاده قرار میگیرد. از آنجایی که در این پژوهش کاربردهای متنی ترجمه ماشینی مدنظر است، منظور از پیکره، پیکره متنی میباشد؛ اما از این پس جهت سهولت تنها از لفظ پیکره به جای پیکره متنی استفاده میکنیم.
پیکره مجموعهای نظاممند از متون است. منظور از «نظاممند» بودن این است که ساختار و محتوای پیکره از اصول نمونه گیری معینی پیروی میکنند؛ یعنی اصولی که تعیین میکند پیکره شامل چه متنهایی باشد. همچنین نظاممند بودن به این معنی است که اطلاعات پیکره در ترکیب درست و مشخصی در دسترس پژوهشگران قرار میگیرد.
به منظور استفاده بهتر از پیکره در حوزه پردازش زبانهای طبیعی، یک پیکره میتواند حاشیه نویسی شده باشد. حاشیه نویسی یعنی افزودن برخی اطلاعات به پیکره، مانند اطلاعات در مورد نقش کلمات، ریشه کلمات، ساختار یا تجزیه نحوی جملات و … . برخی پیکرهها کاملا تجزیه شده و حاشیه گذاری میشوند که به این نوع پیکرهها بانک درختی گفته میشود.
پیکرههای متنی میتوانند تک زبانه، دوزبانه و یا چند زبانه باشند. در پیکرههای تک زبانه متون تنها به یک زبان نوشته میشوند. از این نوع پیکرهها (که معمولا حاشیه نویسی شدهاند) در بازیابی اطلاعات، یافتن نقش کلمه، رفع ابهام معنایی، مدل سازی زبانی و غیره استفاده میشود. پیکرههای دوزبانه و چندزبانه نیز به ترتیب شامل متونی در دو و بیش از دو زبان هستند. از این پیکرهها در بازیابی اطلاعات صلیبی و مقایسه نظیر به نظیر استفاده میشود. پیکرههای دو یا چند زبانه به طور خاص در رویکردهای ترجمه ماشینی مبتنی بر پیکره استفاده میشوند. در برخی از نوشتجات، پیکره دوزبانه به عنوان پیکره موازی قلمداد میشود. دو نوع برجسته از پیکرههای دو یا چند زبانه عبارتند از پیکره موازی و پیکره تطبیقی، که در ادامه معرفی میشوند.
پیکره موازی[۱۳]
پیکره موازی عبارتست از پیکرهای شامل متونی به یک زبان و ترجمه آنها در یک یا چند زبان دیگر. پیکره موازی میتواند دوزبانه و یا چند زبانه باشد. با این حال به دلیل اینکه اغلب پیکرههای موازی دوزبانه هستند، در برخی نوشتجات به پیکره موازی، پیکره دوزبانه یا متن دوزبانه نیز گفته میشود. یک پیکره موازی جهت اینکه بتواند در ترجمه ماشینی استفاده شود باید در سطح جمله همتراز شده باشد، یعنی باید جملات همترجمه با هم جفت شده باشند؛ که به آن «پیکره موازی همترازشده» گفته میشود. همتراز کردن جملات پیکره موازی پیش نیاز لازم برای بسیاری از حوزههای پردازش زبان طبیعی و به خصوص ترجمه ماشینی است. از آنجا که پیکرههای موازی اکثرا در قالب ترازبندی شده به کار میروند، اغلب و نیز در ادامه این رساله، منظور از پیکره موازی همان پیکره موازی همترازشده میباشد.
تا کنون پیکرههای موازی زیادی برای جفت زبانهای مختلف تولید شده است. اما همچنان به حجم بیشتری از متون موازی نیاز است. OPUS [16] مجموعهای روبهرشد از پیکرههای موازی آزاد است. در پروژه OPUS دادههای برخط رایگان جمع آوری میشوند و سپس بصورت خودکار پیش پردازش و حاشیه نویسی میشوند و در نهایت به صورت یک بسته با محتوای آزاد در اختیار عموم قرار میگیرند. Europarl [5] یکی از معروفترین پیکرههای موازی موجود در OPUS است. این پیکره موازی از گزارشات پارلمانی اروپا استخراج شده است و شامل ۲۱ زبان اروپایی است. این پیکره به هدف تولید متون همتراز شده در سطح جمله و بهبود ترجمه ماشینی آماری ساخته شده است. پیکره سازمان ملل متحد نیز پیکرهای موازی و شش زبانه است. این پیکره موازی از قطعنامههای مجمع عمومی سازمان ملل متحد گرفته شده است و در سطح پاراگراف همتراز شده است. پیکره قطعنامههای مجمع عمومی سازمان ملل متحد به صورت آزاد در دسترس همگان قرار دارد.
تعداد کمی پیکره موازی انگلیسی-فارسی وجود دارد، که به شیوههای مختلفی تولید شدهاند و در اندازه و دامنهای که پوشش میدهند متفاوتند. پیکره موازی Shiraz [17] اولین تلاش گزارش شده برای توسعه پیکره انگلیسی-فارسی است. این پیکره شامل ۳۰۰۰ جمله فارسی است که از پیکره فارسی شامل مواد برخط جمع آوری شده است و بصورت دستی توسط دانشگاه ایالت نیومکزیکو به انگلیسی ترجمه شدند تا سیستم ترجمه ماشینی Shiraz را آزمایش کنند. برخی تلاشها در توسعه ترجمه ماشینی انگلیسی-فارسی گفتار به گفتار برای نیروی حفاظت ارتش و فوریتهای پزشکی با پشتیبانی آژانس پروژههای تحقیقاتی پیشرفته دفاعی (DARPA) انجام شد. پیکره مورد استفاده در این کارها از پیکرههای موجود برای زبانهای دیگر (مثلا انگلیسی-عراقی) جمع آوری شده و یا از منابع محدود به دامنهای خاص مانند راهنماهای زبان و یا ترجمههای دستی پزشکی میباشند [۱۸]. قاسمی زاده و رحیمی تلاشهایی برای ساخت پیکره چندزبانه موازی برای زبان فارسی در فریم ورک MULTEXT-East انجام دادند [۱۹]. آنها از کتاب ۱۹۸۴ اورول به عنوان متن اصلی برای ساخت پیکره استفاده کردند. طرف فارسی زبان پیکره تقریبا از ۶۶۰۶ جمله و ۱۱۰۰۰۰ نشانه تشکیل شده است.
محقق و صراف زاده [۲۰] یک پیکره باز از زیرنویس فیلمها توسعه دادند که حدودا شامل ۱۰۰۰۰ جفت جمله است. از طرفی دیگر پیلوار و همکاران [۱۰] از مزایای زیرنویس فیلمها برای تشکیل TEP بزرگترین پیکره موازی انگلیسی-فارسی تا به امروز، بهره بردند. که اکنون شامل ۶۱۲۰۸۶ جفت جمله و حدود چهار میلیون کلمه در هر دو زبان انگلیسی و فارسی است. اگرچه آنها پذیرفتهاند که زیرنویس فیلمها شامل مکالمات روزانه که محاورهای و غیر رسمی اند، هستند و در نتیجه نمی توانند به راحتی بصورت خودکار تفسیر شوند. این امر قابلیت استفاده این پیکره را در برنامههای کاربردی پردازش زبانهای طبیعی فارسی محدود میکند.
فرجیان [۲۱] نیز از منابع خبری قابل دسترس بصورت آنلاین، استفاده کرد و PEN، پیکره همتراز شده در سطح جمله را بطور نیمه خودکار ساخت. این پیکره حدود ۳۰۰۰۰ جفت جمله همتراز شده دارد. جباری و همکاران [۲۲] با ادغام چندین پیکره شامل پیکره استخراج شده از اخبار یک سایت خبری چند زبانه (شامل زبان فارسی و انگلیسی)، پیکره تشکیل شده از زیرنویسهای فیلم موجود در یک وب سایت، سه پیکره که بصورت دستی ترجمه شدند و همچنین دو پیکره موجود PEN و ELRA به همراه ۲۰۰۰۰ نام نویسه گردانی شده، پیکره بزرگ AFEC را بهاندازه ۷۰۰ میلیون خط تولید کردند.
به عنوان آخرین نمونه، انجمن منابع زبان اروپا (ELRA) یک پیکره – که بصورت تجاری از طریق وب در دسترس است- شامل حدود ۳۵۰۰۰۰۰ کلمه در زبان فارسی و انگلیسی ایجاد کرد که در سطح جمله همتراز شده، و شامل حدود ۱۰۰۰۰۰ جمله توزیع شده در بین ۵۰۰۲۱ مدخل است. این پیکره ترکیبی است از چندین دامنه متفاوت شامل هنر، فرهنگ، اصطلاحات، قانون، ادبیات، پزشکی، شعر، سیاست، ضرب المثل، مذهبی و علمی.
پیکره تطبیقی[۱۴]
پیکره تطبیقی نوعی پیکره دو یا چند زبانه است و شامل متونی مشابه در بیش از یک زبان میباشد. مشابهت متون میتواند انواع مختلفی داشته باشد. به طور مثال متون میتوانند از نظر شباهت محتوا، ژانر، دامنه و دورههای نمونه گیری قابل تطبیق (قابل مقایسه) باشند. متون یک پیکره تطبیقی ترجمه همدیگر نیستند، بلکه قابل مقایسه بودن آنها به خاطر چارچوب نمونه گیری و توازن یکسانشان است. برای پیکره تطبیقی تعاریف مختلفی آمده است که در زیر به دو نمونه اشاره میشود:
یک پیکره تطبیقی مجموعهای از متنهاست که به طور جداگانه در زبانهای مربوطه ساخته شدهاند و بر پایه شباهت محتوی ترکیب شدهاند. اینها مستنداتی از یک به چند زبان هستند که از نظر شکل و محتوی در ابعاد و درجات مختلف قابل مقایسه هستند [۲۳].
پیکره تطبیقی عبارتست از یک جفت پیکره تک زبانه در دو زبان مختلف، که از دامنههای مشابهی هستند.
پیکرههای تطبیقی در کاربردهای آماری پردازش زبانهای طبیعی به عنوان دادههای آموزشی استفاده میشوند، کاربردهایی مانند ترجمه ماشینی آماری و یا بازیابی اطلاعات صلیبی. همچنین پیکره تطبیقی در حوزه زبانشناسی، کشفیات و مقایسههای بین زبانی را ممکن میسازد.
دسترسی به پیکرههای تطبیقی نسبت به پیکرههای موازی بسیار آسانتر است چراکه منابع برای متون اصلی و تک زبانه خیلی بیشتر از متون ترجمه شده است. منابع بالقوه برای پیکرههای تطبیقی، آژانسهای خبری چندزبانه مانند AFP و BBC و …، و یا دایره المعارفهای چندزبانه مانند ویکی پدیا و Encarta هستند. برخی از این پیکرههای تطبیقی به طور گسترده از طریق LDC در دسترس هستند.
همترازی[۱۵]
همترازی (ترازیابی) در لغت به معنی هماهنگی و یا ارتباط مطلوب و مناسب بین اجزا است. به عبارتی اجزایی با یکدیگر همتراز میشوند که یک هماهنگی خاص بین آنها باشد، که در اینجا این هماهنگی از نوع «همترجمه» بودن است. همترازی بین دو جزء صورت میگیرد و هر کدام از اجزاء به یک زبان مختلف هستند. همترازی در سطوح مختلفی از متن انجام میشود که عبارتند از همترازی در سطح سند، همترازی در سطح جمله و همترازی در سطح کلمه. هر کدام از انواع همترازی در ادامه توضیح داده میشوند.
همترازی در سطح سند
همترازی در سطح سند به معنی نظیر کردن سندهایی در زبانهای مختلف به یکدیگر است که با یکدیگر قابل تطبیق هستند. این قابل تطبیق بودن میتواند از نظر محتوا و یا ابعاد دیگر یک سند باشد، مانند تاریخ سند برای مستندات خبری، یا عنوان سند برای سندهای ویکی پدیا و یا ساختار HTML سند برای سندهایی که از وب جمع آوری میشوند. همترازی در سطح سند برای مجموعه نوشتجاتی که ترجمه هم هستند، به معنی جفت کردن هر سند با سند ترجمه اش در زبان دیگر است.
همترازی در سطح جمله[۱۶]
همترازی در سطح جمله یعنی یافتن جملات همترجمه از دو متن به دو زبان مختلف که ترجمه یکدیگر هستند. گاهی اوقات در ترجمه متن یک جمله به دو جمله یا برعکس دو جمله به یک جمله ترجمه میشوند در نتیجه همترازی جملات امری بدیهی نیست. همترازی جملات، اصلیترین کار در ساختن پیکره موازی از روی متون از پیش ترجمه شده مانند کتابها یا خبرهای دو زبانه است. از اینرو همترازی جملات یک زمینه بسیار پر فعالیت در بین پژوهشهای اخیر حوزه ترجمه ماشینی است.
تا کنون الگوریتمهای زیادی برای همترازی در سطح جمله ارائه شده است. اولین الگوریتمها بر اساس طول جمله که بر حسب تعداد کلمات و یا تعداد کاراکترهای جملهاندازه گیری میشود، ارائه شدند [۳، ۲۴]. برخی الگوریتمها نیز مبتنی بر اطلاعات لغوی جمله هستند [۲۵]. همچنین در همترازی جملات از متونی که ترجمه یکدیگر هستند میتوان از ترتیب جملات، موقعیت جملات در متن، نشانههای جمله مانند علائم نشانه گذاری و یا وجود اعداد به عنوان پارامتر جهت شناسایی جملات همتراز استفاده کرد [۲۶]. در [۲۷] روشی ارائه شده که جهت همترازی جملات، سند را بصورت تکرارشونده به دو بخش تقسیم میکند. تا کنون ابزارهایی جهت همترازی جملات پیاده سازی شدهاند از جمله hunalign، Uplug، همتراز کننده جملات دوزبانه مایکروسافت و … . در شکل ۲-۱ نمونهای از دو متن همتراز شده در سطح جمله را مشاهده میکنید. همانطور که از شکل پیداست جملات همیشه بصورت یک به یک نگاشت نمی شوند بنابراین همترازی جملات ضروری است.
فرم در حال بارگذاری ...
[چهارشنبه 1401-04-15] [ 01:33:00 ق.ظ ]
|