أجرى باحثو خدمات أمازون ويب (AWS) دراسة تشير إلى أن 57% من المحتوى على الإنترنت اليوم إما مُولّد بواسطة الذكاء الاصطناعي أو مُترجم باستخدام خوارزمية ذكاء اصطناعي.
تجادل الدراسة، التي حملت عنوان “كمية هائلة من محتوى الويب مُترجمة آليًا: رؤى من التوازي متعدد الاتجاهات”، بأن الترجمة الآلية منخفضة التكلفة (MT)، التي تأخذ جزءًا معينًا من المحتوى، وتُعيد إنتاجه بلغات متعددة، هي السبب الرئيسي.
وكتب الباحثون في الدراسة: “لا تُهيمن الترجمات الآلية متعددة الاتجاهات والمتوازية على إجمالي المحتوى المُترجم على الويب فحسب، بل تُشكل أيضًا جزءًا كبيرًا من إجمالي محتوى الويب بتلك اللغات”.
كتب الباحثون في الدراسة: “لا تُهيمن الترجمات المتوازية متعددة الاتجاهات والمولدة آليًا على إجمالي المحتوى المُترجم على الإنترنت باللغات الأقل استخدامًا حيث تتوفر الترجمة الآلية فحسب، بل تُشكل أيضًا جزءًا كبيرًا من إجمالي محتوى الويب بتلك اللغات”. كما وجدوا أدلة على وجود تحيز في اختيار المحتوى المُترجم آليًا إلى لغات متعددة مقارنةً بالمحتوى المنشور بلغة واحدة.
وكتب الباحثون: “هذا المحتوى أقصر، وأكثر قابلية للتنبؤ، وله توزيع موضوعاتي مختلف مقارنةً بالمحتوى المُترجم إلى لغة واحدة”.
وعلاوة على ذلك، فإن الكم المتزايد من المحتوى المُولد آليًا على الإنترنت، مقترنًا بالاعتماد المتزايد على أدوات الذكاء الاصطناعي لتحرير هذا المحتوى ومعالجته، قد يؤدي إلى ظاهرة تُعرف باسم انهيار النموذج، وهو ما يُقلل بالفعل من جودة نتائج البحث على الإنترنت.
وبما أن نماذج الذكاء الاصطناعي مثل ChatGPT وGemini وClaude تعتمد على كميات هائلة من بيانات التدريب [المسلوبة] التي لا يمكن الحصول عليها إلا من خلال كشط الويب العام (سواء كان ذلك ينتهك حقوق الطبع والنشر أم لا)، فإن امتلاء الويب العام بمحتوى أُنْشِئ بواسطة الذكاء الاصطناعي، وغالبًا ما يكون رديء وغير دقيق، يمكن أن يؤدي إلى تدهور أدائها بشدة.
وهذا يعني شيئًا واحدًا – ستظل الإنترنت والثقافة والتجربة العامة عبر الإنترنت ملوثة بهذا الوحل (الحمأة) غير المفلتر والسام في المستقبل إن لم نصرف بمسؤولية من الآن[.]
