بهبود عملکرد ترجمه‌ماشینی‌عصبی به کمک پالایش پیکره‌های شبه‌موازی
کد مقاله : 1042-AISCH2-FULL
نویسندگان
سجاد رمضانی سربندی *1، سیدمجتبی صباغ جعفری2
1دانشگاه ولی عصر رفسنجان
2هیات علمی گروه مهندسی کامپیوتر داشگاه ولی عصر(عج) رفسنجان
چکیده مقاله
بالابردن کیفیت ترجمة‌ماشینی‌عصبی، نیازمند آموزش آن، با استفاده از جفت‌پیکره‌های‌موازی بزرگ می‌باشد.بسیاری از جفت زبان‎‌‌ها مانند فارسی و انگلیسی، پیکره‌های بزرگی که مناسب برای آموزش ماشین‌ترجمةعصبی باشد،ندارند. در این جفت زبان، پیکرة با کیفیت محدود است و یکی از با کیفیت‌ترین آنها پیکرة امیرکبیر ‌است‌که‌ تنها ۵۷۵۵۹۲جفت‌جمله دارد.پیکره‌های دیگری نیز وجود دارد که ازکیفیت لازم برای استفاده در آموزش مدل‌های‌ترجمةعصبی برخوردار نیستند که به آنها پیکرة‌شبه‌موازی می‌گوییم. استفاده از پیکره‌های‌شبه‌موازی در آموزش مدل، کیفیت ترجمه را پایین می‌آورد. در این مقاله در راستای افزایش کارایی مدل‌های‌ترجمه، مبتنی بر شبکه‌های‌عصبی از روش تصفیة پیکره‌های‌شبه‌موازی استفاده می‌کنیم. روش تصفیه جملات بدین صورت است که ابتدا یک طرف جملات پیکره‌شبه‌موازی به طرف دوم ترجمه شده سپس با استفاده از معیارهای شباهت دو جمله موازی، جملات تصفیه می‌شوند و مدل‌های‌ترجمة تولید شده را ارزیابی می‌کنیم. در روش دیگر برای تصفیه مستقیم، جملات بدون ترجمه یک طرف به طرف دیگر، از یک شبکةعصبی جهت نگاشت بردارهای کلمات انگلیسی به یک فضای بردار جدید استفاده کرده و سپس معیارهای شباهت را بین جمله فارسی و جفت انگلیسی آن اعمال می‌کنیم. در تمام روش‌های پیشنهادی حد آستانة میانگین را برای استخراج جملات باکیفیت درنظر می‌گیریم.پیکره‌های میزان و انصاری را با یکدیگر ترکیب و سپس تصفیه برای جملات آن انجام می‌شود. ابتدا با پیکرة‌موازی امیرکبیر، یک مدل ترجمةعصبی بنام مدل ترجمة امیرکبیر ایجاد می‌کنیم. مقدار bleu در اضافه کردن تصادفی 30/50 شده و در روش‌های تصفیه‌ای که انجام دادیم توانستیم مدل‌های ترجمة باکیفیت‌تری تولید کنیم. باکیفیت‌ترین مدل ترجمة نهایی در آزمایشات،مقدار bleu برابر31/07 به خودش اختصاص داد
کلیدواژه ها
ترجمة ماشینی عصبی، پیکرة موازی، شبکة عصبی
وضعیت: پذیرفته شده برای ارائه شفاهی
login