أطلقت شركة Intron، وهي شركة ناشئة في مجال الذكاء الاصطناعي مقرها لاغوس، رسميًا Sahara-v2، نموذج الذكاء الاصطناعي الصوتي الرائد من الجيل الثاني، مما يرفع المعايير بشكل فعال للتعرف على الكلام على مستوى العالم. يدعم النموذج 24 لغة أفريقية جديدة ويتقن أكثر من 500 لهجة أفريقية متميزة للإنجليزية، مما يرفع إجمالي التغطية اللغوية للشركة إلى 57 لغة غير مسبوقة.
على مدى سنوات، كان التفاعل مع المساعدين الصوتيين العالميين مثل Siri أو Alexa أو محركات تحويل النص إلى كلام القياسية أشبه بالتحدث إلى جدار لا يتحدث لغتك بشكل أساسي. لقد مررنا جميعًا بهذا، محاولين استخدام أمر صوتي فقط لنجد عبارة محلية مثل "No worry, e go better" تُنسخ إلى العبارة غير المنطقية "No war eagle butter". إنه مضحك في البداية، ولكن عندما يتم تحويل "Wanjiru" رقميًا إلى "One zero" ويصبح "Chukwuebuka" بشكل غير مفهوم "Check wheelchair baker"، تتلاشى النكتة بسرعة.
هذه الإخفاقات المتكررة في النسخ هي أكثر من مجرد أخطاء تقنية؛ إنها شكل نشط من أشكال الاستبعاد الرقمي. تم بناء نماذج الذكاء الاصطناعي العالمية الرائدة بشكل أساسي على مجموعات بيانات غربية، وتفشل تمامًا هنا. إنها غير مصممة للثراء النغمي لكلامنا، حيث يمكن أن تعني كلمة واحدة ستة أشياء مختلفة حسب النطق. إنها تتعثر في التبديل الإيقاعي الطبيعي للشفرات ولا يمكنها فهم أن مكتبًا واحدًا قد يوظف موظفين بعشر لهجات مختلفة تمامًا. عندما تسيء المساعدات الصوتية فهم الكلمات والأسماء الأساسية، فإنها تحرم الملايين من المستخدمين من الاختصارات الرقمية التي تجعل الحياة الحديثة أسهل.
Intron
يسد Sahara-v2 هذه الفجوة الحرجة لأنه لم يُبنَ على افتراضات أو يُدرَّب في استوديو هادئ ومعقم. بنت Intron هذا النموذج من خلال النزول إلى الشوارع والاستماع. مجموعة البيانات ضخمة ومحلية للغاية: أكثر من 14 مليون مقطع صوتي، بإجمالي أكثر من 50,000 ساعة من الكلام، تم الحصول عليها من أكثر من 40,000 متحدث. تمثل هذه الأصوات 64 لغة أفريقية ولغات الشتات عبر أكثر من 30 دولة. والأهم من ذلك، تم تسجيلها حيث يحتاج الذكاء الاصطناعي فعليًا إلى العمل، في العيادات المزدحمة والأسواق الصاخبة ومراكز الاتصال المزدحمة وقاعات المحاكم.
سمح هذا النهج الواقعي من القاعدة إلى القمة لـ Sahara-v2 بالتفوق على أكبر الأسماء في التكنولوجيا العالمية. عند مقارنته بعمالقة الصناعة مثل Gemini-3 و GPT-4 و Whisper و ElevenLabs و AWS و Azure، يقدم نموذج Intron قيادة مسيطرة.
يسجل معدل دقة أفضل بنسبة 68.6% على الأسماء والمنظمات والمواقع الأفريقية، وهو أكثر حدة بنسبة 55.6% في نسخ الأرقام والكسور والعملات. علاوة على ذلك، يتميز بمقاومة أكبر بنسبة 36.5% للهلوسات الناتجة عن الضوضاء الخلفية والمتحدثين المتداخلين، جنبًا إلى جنب مع تحسن في الأداء بنسبة 46.7% عبر القطاعات المتخصصة مثل الرعاية الصحية والقانون والاتصالات والتمويل.
بخلاف المعايير المثيرة للإعجاب، فإن Sahara-v2 هو محرك إنتاجية جاد مصمم للنشر المؤسسي في العالم الحقيقي. مدعومًا بواجهات برمجة تطبيقات قوية يمكن نشرها في أقل من خمس دقائق، تعمل البنية التحتية بالفعل على تشغيل الخدمات المصرفية الصوتية وعمليات اعرف عميلك (KYC) الآلية وأنظمة الملء التلقائي لكل شيء من البيانات الصحية إلى نماذج فتح الحسابات. يفيد المتبنون المؤسسيون الأوائل أن التكنولوجيا تخفض أوقات المعالجة الإدارية بما يصل إلى 4.4 مرات.
لمعالجة الواقع اللغوي الفريد للقارة، طرحت Intron ميزات إقليمية متخصصة للغاية. بالتعاون مع Penda Health في كينيا، قدموا أول نموذج ثنائي اللغة سواحيلي-إنجليزي للتعرف التلقائي على الكلام (ASR) في العالم، يلتقط بشكل مثالي كيف ينتقل الناس بشكل طبيعي بين اللغات في منتصف الجملة.
بالنسبة لهذا السوق، أطلقوا نموذج تحويل النص إلى كلام (TTS) الأصلي بلغة الهوسا، مما يتيح برامج الدردشة الصوتية منخفضة التأخير على مدار الساعة طوال أيام الأسبوع. وبالنسبة للحكومات والمؤسسات التي تتعامل مع مخاوف خصوصية البيانات، يتضمن إطلاق Sahara-v2 دعمًا غير متصل بالإنترنت جديدًا، مما يسمح للبيانات بالبقاء آمنة ومحلية للامتثال للذكاء الاصطناعي السيادي.
Sahara-v2 من Intron
تستخدم المؤسسات والعملاء الحكوميون عبر ست دول النظام بالفعل. أشار Ayo Oluleye، رئيس البيانات والرؤى في ARM Investments، قائلاً: "باستخدام نماذج الذكاء الاصطناعي من Intron، لاحظنا تحسنًا كبيرًا في النسخ والملخصات مقارنة بالنماذج التي استكشفناها سابقًا. تلتقط أنظمتهم السياق والفروق الدقيقة بشكل أفضل، مما يؤدي إلى نتائج أكثر دقة." وأكدت Sarah Morris، المدير التنفيذي للمنتجات في Audere، ذلك، حيث أبلغت عن معدلات نجاح لواجهة برمجة التطبيقات تزيد عن 99% ودقة ممتازة في اللهجات الأفريقية الجنوبية.
جنبًا إلى جنب مع إطلاق Sahara-v2، أصدرت Intron أيضًا تقرير الذكاء الاصطناعي الصوتي الأفريقي لعام 2026 الافتتاحي. يقدم المنشور نظرة شاملة فريدة من نوعها على النظام البيئي، مع تفصيل الدروس المستفادة من نشر الذكاء الاصطناعي الصوتي في بيئات معقدة لتوجيه الشركات الناشئة والمستثمرين وصانعي السياسات.
اقرأ أيضًا: Google لتدريب الذكاء الاصطناعي على 21 لغة أفريقية، بما في ذلك اليوروبا والهوسا والإيجبو
تشمل اللغات الأحدث الفرنسية الأفريقية والأفريكانية والأكان والأمهرية والعربية والبيمبا والفولاني والجا والهوسا والإيجبو والكينيارواندية والوجاندية والأورومو والبيدي والبيدجن. والأخرى هي السيسوتو والشونا والسواحيلية والتسوانا والتوي والولوف والخوسا واليوروبا والزولو. مع هذه الإضافات، أصبح باب العالم الرقمي مفتوحًا على مصراعيه أخيرًا.
كما قال الرئيس التنفيذي لشركة Intron توبي أولاتونجي: "يثبت Sahara-v2 أنه عندما يتم بناء التكنولوجيا بفهم ثقافي ولغوي عميق، يمكن أن تحدث أشياء مذهلة، ونحن في البداية فقط."
ظهر منشور Intron تطلق Sahara-v2، نموذج الذكاء الاصطناعي الصوتي الداعم لـ 24 لغة أفريقية جديدة لأول مرة على Technext.


