13-12-2025 07:18 PM
سرايا - كشفت شركة غوغل ديب مايند ، التابعة لشركة غوغل، مؤخرًا عن مجموعة معايير تُسمى "FACTS Benchmark Suite"، والتي تقيس مدى موثوقية نماذج الذكاء الاصطناعي في إنتاج إجابات دقيقة في الحقيقة.
تختبر هذه المعايير نماذج الذكاء الاصطناعي في أربعة مجالات: الإجابة عن أسئلة معلوماتية من خلال المعرفة الداخلية، واستخدام البحث عبر الإنترنت بفعالية، وإثبات دقة الإجابات بوثائق طويلة، وتفسير الصور.
وقد حقق أفضل نموذج، وهو جيميني 3 برو من "غوغل"، دقةً بلغت 69%، بينما كانت دقة النماذج الرائدة الأخرى أقل بكثير من ذلك، بحسب تقرير لموقع "بيزنس إنسايدر"، اطلعت عليه "العربية Business".
ويجب أن يكون لهذا الرقم أهميةٌ للشركات التي تراهن على الذكاء الاصطناعي. فبينما تتفوق النماذج في السرعة والطلاقة، لا تزال موثوقيتها في تقديم المعلومات الواقعية أقل بكثير من التوقعات البشرية، لا سيما في المهام التي تتطلب معرفةً متخصصةً، أو تفكيرًا معقدًا، أو الدعم الدقيق للإجابات بالمصادر.
وحتى الأخطاء الصغيرة في الحقائق قد تكون لها عواقب كبيرة في قطاعات مثل المالية، والرعاية الصحية، والقانون.
وتكتسب موثوقية نماذج الذكاء الاصطناعي أهمية وتعقيدًا مع الوقت بالنظر إلى تأثيرها على حياة الأشخاص، فعلى سبيل المثال قامت إحدى الشركات بفصل موظف بعد أن قدّم مستندًا مليئًا بقضايا وهمية اختلقها شات جي بي تي بعدما استخدم المحامي روبوت الدردشة لصياغة الملف.
تُعد معايير "FACTS" تحذيرًا، ولكنها أيضًا بمثابة خارطة إرشادية؛ فمن خلال تحديد مواطن قصور النماذج وكيفية حدوثها، تأمل "غوغل" في تسريع وتيرة التقدم. لكن في الوقت الراهن، تظل الحقيقة الوحيدة هي أن الذكاء الاصطناعي يتحسن، ولكنه لا يزال يخطئ في حوالي ثلث الحالات.
| 1 - |
ترحب "سرايا" بتعليقاتكم الإيجابية في هذه الزاوية ، ونتمنى أن تبتعد تعليقاتكم الكريمة عن الشخصنة لتحقيق الهدف منها وهو التفاعل الهادف مع ما يتم نشره في زاويتكم هذه.
|
13-12-2025 07:18 PM
سرايا |
| لا يوجد تعليقات | ||