توافر المصادر، التي يتم استخدامها في عملية تعليم وتدريب الخوارزميات، يعد أحد أكبر التحديات التي تواجه خوارزميات الذكاء الاصطناعي بشكل عام، وخوارزميات الترجمة الآلية بشكل خاص، ولذلك من الممكن ملاحظة أن أنظمة الترجمة، حققت تقدماً جيداً في عدد من اللغات التي تتوافر بها المصادر وبيانات، كالإنجليزية والألمانية والإسبانية، غير أن اللغات التي لا تتوفر لها قواعد بيانات جاهزة لتدريب الخوارزميات، ما زالت في مرحلة متراجعة مقارنة باللغات الأخرى.
من أشهر الخوارزميات التي تستخدم للترجمة الآلية، هي تلك التي تعمل بشكل يحاكي عمل الخلايا العصبية، في جسم الإنسان، ويطلق عليها الترجمة الآلية العصبية (Neural Machine Translation)، وقد حقق هذا النوع من الخوارزميات نتائج جيدة في هذا المجال البحثي، والتي بدورها تعتمد بشكل أساسي على توفر مصادر للتعليم، أي توفر قواعد بيانات يتم استخدامها لتعليم تلك الخوارزمية، كيفية الترجمة من لغة إلى أخرى.
ولكن تدريب خوارزميات الذكاء الاصطناعي، على اللغات قليلة الموارد، يتطلب هندسة متخصصة للبيانات، ولذلك ظهرت خوارزميات برعت في التعامل مع هذا التحدي خصوصاً، كالخوارزميات ذاتية الإشراف أو التعلم (self-supervised learning)، والتي قدمت نتائج مرضية للترجمة من وإلى اللغات قليلة الموارد.
الدكتور يونقهوي ويو (Yonghui Wu) مع فريق بحث كبير، من شركة قوقل (Google)، قاموا محاولة دمج خوارزميات التعليم الذاتي، مع خوارزميات الترجمة الآلية العصبية، وذلك لخدمة اللغات التي لا يتوفر لها الكم اللازم من الموارد، حيث كانت نظريتهم، أنه إذا أمكن رفع دقة الترجمة الآلية لتلك اللغات بإحد الطريقتين فإن الأخرى يمكن استخدامها لسد الفجوات المتبقية، وبذلك يمكن زيادة كفاءة أنظمة الترجمة المطورة.
على الرغم من أن الطريقة المتبعة لفريق الدكتور يونقهوي أبدت نتائج مبشرة، في عدد من اللغات الإنسانية، إلا أن ذلك الأمر لم يكن على الإطلاق، حيث إنه وباختبار نظامهم على 15 لغة قليلة الموارد، وجد الباحثون أن بعض اللغات لم يكن لدمج الخوارزميتين للترجمة منها وإليها فرق يذكر بها، ولذا وبحسب النتائج التي تم نشرها من قبل شركة قوقل في أحد المؤتمرات المهتمة بالمجال، فإنه يبدو أنه ما زال هناك حاجة إلى مزيد من التجارب.