قامت شركة فيسبوك بفتح نموذج للذكاء الاصطناعي يمكنه الترجمة بين أي لغة من أصل 100 لغة دون ترجمتها أولاً إلى الإنجليزية كخطوة وسيطة.
ويسمى النظام (M2M-100)، وهو حاليًا مشروع بحثي فقط، لكن يمكن استخدامه في النهاية لترجمة المنشورات لمستخدمي فيسبوك الذين ينشرون المحتوى بأكثر من 160 لغة.
وقالت أنجيلا فان (Angela Fan)، مساعدة البحث في فيسبوك، في إحدى التدوينات: كان باحثو الذكاء الاصطناعي يعملون على مدار سنوات من أجل بناء نموذج عالمي واحد يمكنه فهم جميع اللغات عبر المهام المختلفة.
وأضافت: يساعدنا نموذج واحد يدعم جميع اللغات واللهجات على تقديم خدمة أفضل لعدد أكبر من الأشخاص، وتحديث الترجمات باستمرار، وإيجاد تجارب جديدة لمليارات الأشخاص على قدم المساواة، ويقربنا هذا العمل من هذا الهدف.
وتم تدريب النموذج من خلال مجموعة بيانات مكونة من 7.5 مليارات زوج من الجمل عبر 100 لغة تم استخراجها من الويب، وتقول فيسبوك: إن هذه الموارد هي مفتوحة المصدر وتستخدم البيانات المتاحة للجمهور.
وركّز الباحثون على ترجمات اللغات الكثيرة الشيوع وتجنبوا الترجمات النادرة، مثل السنهالية الجاوية، ثم قاموا بتجميع اللغات في 14 مجموعة مختلفة، بناءً على أوجه التشابه اللغوي والجغرافي والثقافي.
وتم اختيار هذا الأسلوب؛ لأن الأشخاص في البلدان ذات اللغات التي تشترك في هذه الخصائص من المرجح أن يستفيدوا من الترجمات فيما بينهم.
وتضمنت إحدى المجموعات اللغات الشائعة في الهند، مثل: الهندية والبنغالية والماراثية، وتم استخراج جميع الأزواج اللغوية الممكنة داخل كل مجموعة.
وتم ربط لغات المجموعات المختلفة من خلال عدد صغير من لغات الربط، حيث عملت الهندية والبنغالية والتاميلية في مجموعة اللغة الهندية كلغات لربط اللغات الهندية الآرية.
وقام الفريق بعد ذلك بالتنقيب عن بيانات التدريب لجميع مجموعات لغات الربط، مما أوجد مجموعة من البيانات مكونة من 7.5 مليارات جملة متوازية تتوافق مع 2200 اتجاه للترجمة.
وبالنسبة للغات التي تفتقر إلى بيانات للترجمة العالية الجودة، استخدم الباحثون طريقة تسمى الترجمة العكسية لإيجاد ترجمات تركيبية يمكن أن تكمل البيانات المجمّعة.
ونتج عن هذا المزيج من التقنيات أول نموذج متعدد اللغات (MMT) لترجمة آلية؛ يمكنه الترجمة بين أي زوج من 100 لغة دون الاعتماد على البيانات الإنجليزية.
وقالت فان: عند الترجمة من الصينية إلى الفرنسية، فإن معظم النماذج المتعددة اللغات التي تتمحور حول اللغة الإنجليزية تتدرب عبر بيانات الترجمة من الصينية إلى الإنجليزية، وعبر بيانات الترجمة من الإنجليزية إلى الفرنسية؛ وذلك لأن بيانات التدريب الإنجليزية هي الأكثر توفرًا على نطاق واسع.
وأضافت: يتدرب نموذجنا بشكل مباشر عبر بيانات الترجمة من الصينية إلى الفرنسية للحفاظ على المعنى بشكل أفضل.