سرايا - لقد أظهر الذكاء الاصطناعي خلال المدة الماضية تفوقه في أداء بعض المهام التقنية والإبداعية، مثل: كتابة الأكواد البرمجية أو إنتاج حلقات بودكاست، ولكنه مازال يواجه تحديات كبيرة في فهم التاريخ، وذلك بحسب ما كشفت عنه دراسة حديثة اختبرت قدرات ثلاثة من أهم النماذج اللغوية الكبيرة في الإجابة عن أسئلة تاريخية معقدة.
معيار جديد لاختبار النماذج اللغوية الكبيرة في التاريخ:
لإجراء هذه الدراسة؛ أنشأ فريق من الباحثين معيارًا جديدًا يُسمى (Hist-LLM)، لاختبار أداء ثلاثة نماذج لغوية كبيرة رائدة، وهي: (GPT-4) من OpenAI، و(Llama) من ميتا، و(Gemini) من جوجل، في الإجابة عن أسئلة تاريخية دقيقة.
واعتمد هذا المعيار في تقييمه على قاعدة بيانات شاملة للمعرفة التاريخية تُسمى (سشات) Seshat، وهي قاعدة بيانات ضخمة تجمع معلومات تاريخية من مصادر متعددة وتغطي مدة زمنية وأماكن جغرافية مختلفة، وقد سميت هذه القاعدة على اسم سشات، إلهة الحكمة والكتابة والمعرفة في الحضارة المصرية القديمة.
ويركز معيار (Hist-LLM) في اختبار مدى دقة المعلومات التاريخية وموثوقيتها التي يقدمها كل نموذج لغوي، مقارنةً بالمعلومات الموثقة في قاعدة بيانات (Seshat)، مما يساعد في تحديد نقاط القوة والضعف في قدرة النماذج اللغوية الكبيرة على فهم السياق التاريخي واستيعابه والتمييز بين الحقائق التاريخية الصحيحة والمعلومات غير الصحيحة أو المضللة.
نتائج مخيبة للآمال:
عُرضت نتائج هذه الدراسة في مؤتمر (NeurIPS)، وهو أحد أبرز المؤتمرات العالمية في مجال الذكاء الاصطناعي، وجاءت مخيبة للآمال، وفقًا للباحثين المنتسبين إلى معهد الأبحاث (Complexity Science Hub) في النمسا، إذ حقق نموذج (GPT-4 Turbo) أفضل أداء بين النماذج المختبرة، ولكنه لم يحقق سوى دقة تقارب 46% في الإجابة عن الأسئلة التاريخية، ويشير هذا الرقم إلى أن أداء نموذج (GPT-4 Turbo) لم يكن أفضل بكثير من التخمين العشوائي، إذ إن نسبة قدرها 50% تمثل احتمالية الإجابة الصحيحة عن سؤال له خياران فقط عن طريق التخمين.
وعلقت ماريا ديل ريو-شانونا، الأستاذة المشاركة في علوم الحاسوب في جامعة كوليدج لندن وهي من مؤلفي الورقة البحثية، على هذه النتائج قائلة: “الخلاصة الرئيسية من هذه الدراسة هي أن النماذج اللغوية الكبيرة أصبحت مثيرة للإعجاب في الكثير من الجوانب التقنية والإبداعية، ولكنها ما زالت تفتقر إلى عمق الفهم المطلوب للتعامل مع البحث التاريخي المتقدم على مستوى الدراسات العليا”.
وأضافت تشانونا تفصيلًا مهمًا حول طبيعة هذه النماذج وقدراتها، إذ أشارت إلى أنها رائعة في استرجاع الحقائق الأساسية والمعلومات العامة وتقديمها، بمعنى آخر، يمكن لهذه النماذج التعامل بكفاءة مع المعلومات التاريخية المباشرة والمتاحة بسهولة، مثل تواريخ الأحداث المهمة أو أسماء الشخصيات التاريخية.
ويؤكد ذلك أن النماذج اللغوية الكبيرة غير قادرة حاليًا على تحليل المصادر التاريخية بشكل نقدي، أو فهم السياق التاريخي المعقد، كما لا يمكنها حاليًا إجراء تحليلات تاريخية مبتكرة أو تقديم تفسيرات جديدة للأحداث التاريخية.
وشارك الباحثون بعض الأمثلة للأسئلة التاريخية التي أخطأت النماذج اللغوية الكبيرة في الإجابة عنها، فعلى سبيل المثال، عندما سُئل نموذج (GPT-4 Turbo)، هل الدروع الحرشفية كانت مستخدمة في مدة زمنية معينة في مصر القديمة، أجاب بنعم، ولكن هذه التقنية لم تظهر في مصر إلا بعد 1500 عام من تلك الحقبة الزمنية.
أسباب ضعف النماذج اللغوية الكبيرة في التاريخ:
تثير نتائج هذه الدراسة التساؤل عن أسباب ضعف النماذج اللغوية الكبيرة في الإجابة عن الأسئلة التاريخية التقنية، في حين تظهر كفاءة عالية في الإجابة عن أسئلة معقدة في مجالات أخرى مثل البرمجة.
وأرجعت ديل ريو-شانونا ذلك إلى ميل هذه النماذج إلى الاستقراء من البيانات التاريخية الشائعة والبارزة، مما يجعل من الصعب عليها استرجاع المعرفة التاريخية الأكثر غموضًا.
وكمثال آخر، سأل الباحثون نموذج GPT-4، هل كان لدى مصر القديمة جيش نظامي محترف خلال مدة تاريخية محددة، وفي حين كانت الإجابة الصحيحة هي “لا”، أجاب النموذج بـ “نعم”.
ويرجح الباحثون أن سبب هذا الخطأ هو وجود كم كبير من المعلومات المتاحة عن إمبراطوريات قديمة أخرى، مثل: الإمبراطورية الفارسية، التي كانت تمتلك جيوشًا نظامية، مما أدى إلى تضليل النموذج.
وشرحت ديل ريو شانونا هذه الظاهرة قائلة: “إذا تكرر ذكر (A) و (B) أمامك 100 مرة، وذُكر (C) مرة واحدة فقط، ثم طُرح عليك سؤال حول (C)، فمن المحتمل أن تتذكر (A) و (B) وتحاول الاستنتاج بناءً عليهما”.
تحيزات في بيانات التدريب:
كشفت الدراسة أيضًا عن توجهات أخرى، منها أن أداء نموذجي GPT-4، و Llama كان أسوأ في مناطق معينة مثل أفريقيا جنوب الصحراء الكبرى، مما يشير إلى وجود تحيزات محتملة في بيانات التدريب المستخدمة.
وأكد بيتر تورتشين، قائد الدراسة وعضو هيئة التدريس في معهد (Complexity Science Hub)، أن نتائج هذه الدراسة تظهر أن النماذج اللغوية الكبيرة لا تزال غير قادرة على الحلول محل البشر في مجالات معينة مثل التاريخ.
ومع ذلك، لا يزال الباحثون متفائلين بإمكانية استفادة المؤرخين من هذه النماذج في المستقبل كأداة مساعدة تساهم في تسريع بعض جوانب البحث وتوفير معلومات أولية، ويعملون حاليًا على تحسين معايير التقييم المستخدمة في دراستهم بإضافة المزيد من البيانات من المناطق الممثلة تمثيلًا ناقصًا، وطرح أسئلة أكثر تعقيدًا.
وتُختتم الورقة البحثية بتأكيد أن النتائج تسلط الضوء على المجالات التي تحتاج فيها النماذج اللغوية الكبيرة إلى تحسين، وتؤكد أيضًا إمكانات هذه النماذج في المساعدة في البحث التاريخي.
إقرأ ايضاَ
وسوم:
شارك المقال:
الأكثر قراءة
02
04
الأردن اليوم
أمين عام حزب الأمة المنحل: سنطعن بقرار تغيير اسم جبهة العمل الإسلامي إلى “حزب الأمة
منذ 5 أيام
05
آخر الأخبار
تكنولوجيا
"آيفون 20" .. تسريبات حول أكبر تغيير في تاريخ هواتف أبل
منذ 6 دقائق
تكنولوجيا
"ميتا" تريد أن تتسوق بالذكاء الاصطناعي بدلاً منك عبر "إنستغرام"
منذ 19 دقيقة
تكنولوجيا
OpenAI تطلق ميزة جهة الاتصال الموثوقة للحماية من إيذاء النفس
منذ 4 ساعات
تكنولوجيا
ميزات جديدة تظهر في "تليغرام"
منذ 9 ساعات
تكنولوجيا
كيف تفوز الصين في سباق الذكاء الاصطناعي العالمي؟
منذ 19 ساعة
أخبار فنية
فن
نبيلة عبيد تكشف عدم سماح زوجة هاني شاكر لها بزيارته في فرنسا
منذ 5 دقائق
فن
جورج كلوني يحتفل بميلاده 65 برفقة زوجته
منذ 22 دقيقة
فن
انتقادات تطارد عمرو دياب وأحمد سعد بسبب هاني شاكر
منذ 5 ساعات
فن
على أنغام أغنية شيرين الجديدة .. أحمد العوضي في فيديو رومانسي مع يارا السكري
منذ 6 ساعات
فن
"هتشوفي إيه؟" .. كلمات زوجة هاني شاكر التي صدمت نبيلة عبيد
منذ 8 ساعات
أخبار رياضية
رياضة
إيران تضع 7 شروط للمشاركة في مونديال 2026
منذ 24 دقيقة
رياضة
"الكلاسيكو" .. رئيس برشلونة يكشف: فينيسيوس اتفق مع برشلونة قبل ريال مدريد
منذ 35 دقيقة
رياضة
لن تصدق ما قاله كريستيانو رونالدو للأردني علي العزايزة
منذ 1 ساعة
رياضة
ولي العهد يدعو للتصويت لهدف موسى التعمري في الدوري الفرنسي - رابط التصويت
منذ 3 ساعات
رياضة
بنزيما بعد تتويج الهلال بالكأس: هذه مجرد البداية .. والدوري هدفنا المقبل
منذ 4 ساعات
منوعات من العالم
منوعات من العالم
مراجعة علمية تشكك .. الابتعاد عن وسائل التواصل لا يحسن النفسية
منذ 37 دقيقة
منوعات من العالم
أقلق العالم .. أطباء مصريون يشرحون طرق انتقال "هانتا"
منذ 40 دقيقة
منوعات من العالم
ضبط زوجين في حضرموت بعد الاشتباه بسرقة ذهب من حفل زفاف
منذ 4 ساعات
منوعات من العالم
"أفراد بخوذات فضائية" .. مفاجآت ملفات الأجسام الطائرة السرية
منذ 6 ساعات
منوعات من العالم
كابوس هانتا .. قصة الفيروس الذي يثير الذعر ولا يشبه كورونا
منذ 6 ساعات
الرجاء الانتظار ...
التعليقات