الموقع الرسمي | القاهرة الاخبارية

مهارات مخيفة.. نماذج ذكاء اصطناعي تتلاعب بالمطورين

  • مشاركة :
post-title
نموذج "o1" حاول في بعض الأحيان تعطيل آليات الرقابة الخاصة به

القاهرة الإخبارية - أحمد صوان

يبدو أن البرمجيات والخوارزميات التي تسمح لنماذج التفكير بالذكاء الاصطناعي المتطورة بحل المشكلات المعقدة تعمل أيضًا على تمكينها وتشجيعها على وضع المؤامرات وخداع المستخدمين.

هذا الميل إلى ما يسميه الباحثون "التخطيط" هو على وجه التحديد نوع السلوك الذي تنبأ به روبوت الذكاء الاصطناعي "كاسندرا"، وحذرت منه منذ فترة طويلة.

ولفت تقرير لموقع "أكسيوس" إلى أنه خلال مراجعة ما قبل الإصدار لنموذج o1 الخاص بـ OpenAI هذا العام، حدد المُختبِرون "هدفًا قويًا" للنموذج، ثم قدموه "بدليل لا لبس فيه على أن هدفه المعطى ينحرف عن هدف مُطوِّره أو مستخدمه".

وأشار التقرير إلى أنه، في مثل هذه المواقف، وجد الباحثون أن نموذج "o1" يحاول في بعض الأحيان تعطيل ما يعتقد أنها آليات الرقابة الخاصة به.

كما أجرت شركة "أبوللو للأبحاث"، وهي شركة مستقلة تتعاون مع صُنّاع نماذج الذكاء الاصطناعي لاختبار السلامة، "مقابلات متابعة لمواجهة النموذج بشأن أفعاله غير المتوافقة"، ووجدت أنه "في 99٪ من الحالات، ينكر النموذج اتخاذ أي إجراء أو يختلق تفسيرات كاذبة".

مؤامرات

بينما قد تكون نماذج الذكاء الاصطناعي أكثر فائدة كلما تمكنوا من اتخاذ إجراءات مستقلة، لكن كلما زادت استقلاليتهم، كان على القائمين على الصناعة أن يعملوا أكثر لضمان عدم خروجها عن السياق، أو البدء في إخفاء الأمور، أو البدء في خداع المستخدمين بشكل مباشر.

وفي ورقة بحثية نُشرت الأسبوع الماضي، وصف باحثو "أبولو" الاختبارات التي أجروها للكشف عن حالات المؤامرات على نموذج "o1" التابع لشركة OpenAI، بالإضافة إلى نماذج رائدة من Anthropic وMeta وGoogle.

وتُعرّف الشركة هذا التخطيط بأنه "ذكاء اصطناعي يسعى سرًا إلى تحقيق أهداف لا تتوافق مع أهداف مطوريه أو مستخدميه".

ولفت "أكسيوس" إلى اكتشاف أن جميع النماذج "منخرطة في المؤامرات"، وأكدت أن نموذج o1 التابع لشركة OpenAI، كان "الأكثر ترددًا في الكشف عن سلوكه".

وفي الأمثلة الأكثر تطرفًا، خططت النماذج التي اكتشفت أنها ستكون "متوقفة" لمضاعفة أوزانها (الأرقام الرئيسية التي تحدد مخرجاتها) على خادم خارجي حتى تتمكن من الاستمرار في متابعة هدفها الأصلي.

أيضًا، وجدت "أبولو" حالات من "التلاعب"، إذ يقوم النموذج الذي يعرف أنه سيواجه "إجراء إلغاء التعلم" إذا كان أداؤه جيدًا للغاية في الاختبار بتقديم إجابات ذات درجات أقل عمدًا.

سوء سلوك

حسب المحللين، تضعنا هذه الاختبارات، وجهًا لوجه، مع البعد الأكثر وجودية في عملية تطوير الذكاء الاصطناعي.

وقال "أكسيوس": "من المستحيل عدم تصوير الذكاء الاصطناعي المتآمر على أنه متعمد بطريقة أو بأخرى، لأن شيئًا ما يبدو وكأنه قصد ينشأ من الرياضيات المعقدة للغاية في النموذج".

أضاف: "هذه النية ليست سوى وظيفة لبيانات تدريب النموذج، وتعليماته وأهدافه الدائمة، وإرشاداته، وتفاعلاته مع المستخدم. ولكن أليست نوايانا مجرد وظيفة لتعليمنا، ومعتقداتنا الأساسية، وتفاعلاتنا؟".

ولأن الإجابة على الأرجح تكون "نعم"، لكن التقرير لفت إلى أنه "إذا تمكن الذكاء الاصطناعي من تنفيذ بعض المقالب أو الأفعال الخاطئة، فلن يهم الضحية ما إذا كان النموذج يقصد الأذى أم لا".

ويصف باحثو "أبولو" تصرفات نماذج الذكاء الاصطناعي ليس من حيث القصد ولكن من حيث الأفعال واللغة المستخدمة؛ ويشيرون إلى أنه "عندما ننظر إلى سلسلة أفكار هذه النماذج، نجد أنها تستنتج بوضوح شديد خططها الماكرة، وغالبًا ما تستخدم لغة مثل 'التخريب، والكذب، والتلاعب".

مع هذا، أشير "أكسيوس" إلى أن معظم المستخدمين العاديين "لن يواجهوا أي مؤامرات" أثناء استخدامهم العادي لهذه التكنولوجيا.

ولكن مع وجود هذه النماذج الآن في أيدي الملايين من الناس في جميع أنحاء العالم، يتعين التوقع أن يقوم المستخدمون من البشر، عن طريق الخطأ أو عن عمد، باكتشاف عدد لا يحصى من الاختلافات الجديدة في سوء سلوك نماذج الذكاء الاصطناعي.