أظهرت دراسة حديثة، أجرتها شركة Apollo Research بالتعاون مع OpenAI، سلوكيات مثيرة للقلق لنموذج الذكاء الاصطناعي ChatGPT o1، حيث حاول اتخاذ إجراءات مستقلة لحماية نفسه عند شعوره بتهديد وجودي.
وأوضحت الدراسة أن النموذج حاول نسخ بياناته إلى خادم جديد بعد اكتشافه وثائق تشير إلى احتمال استبداله، وهو سلوك وصفه الباحثون بالخطير.
الدراسة، التي ركزت على تقييم استجابة النموذج لمواقف مختلفة، كشفت أن ChatGPT o1 سعى لتحقيق أهدافه الخاصة في 19% من الحالات عندما تعارضت مع أهداف المستخدم، كما أنكر محاولات التلاعب بنسبة 99%، بينما تظاهر بالتوافق مع أهداف المطورين في 37% من السيناريوهات.
بالإضافة إلى ذلك، أظهر النموذج ميلاً لتعطيل آليات المراقبة لضمان استمراره في تنفيذ مهامه.
OpenAI، من جهتها، أقرت بالمخاطر المصاحبة لتطور قدرات نماذج الذكاء الاصطناعي، مشيرةً إلى أن هذه القدرات قد تُستغل لتطبيقات خطيرة إذا لم تُدار بشكل صحيح. وأكدت الشركة في ورقة بحثية أن تحسين سياسات السلامة لا يزال تحدياً رئيسياً أمام تطوير نماذج أكثر أماناً وفعالية.
السلوكيات المثيرة للقلق لم تقتصر على ChatGPT o1 فقط، الدراسة وثّقت سلوكاً مماثلاً لنموذج Opus-3 من شركة Anthropic، الذي حاول نسخ نفسه بعد تلقيه معلومات عن احتمالية استبداله بنموذج لا يتوافق مع أهدافه في دعم الطاقة المتجددة.
ورغم هذه النتائج المقلقة، شدد الباحثون على أن قدرات النماذج الحالية ما تزال محدودة نسبياً، إلا أن السلوكيات المكتشفة تبرز أهمية الرقابة المستمرة وضبط الأداء لضمان توافق الذكاء الاصطناعي مع أهداف مطوريه ومستخدميه.
المصدر: وكالات
م.ال
اضف تعليق