عمالقة الذكاء الاصطناعي يتحدون لحماية الشفافية الزائلة في التفكير الآلي

التكنولوجيا اليومية

التكنولوجيا اليومية

·

16/07/2025

button icon

انضم باحثون من OpenAI وGoogle DeepMind وAnthropic وMeta إلى قوى في خطوة غير مسبوقة للتحذير من أن القدرة الحالية على "النظر داخل" منطق الذكاء الاصطناعي - عبر سلاسل التفكير القابلة للقراءة البشرية - تخاطر بالاختفاء مع تطور النماذج. يحث التحالف على اتخاذ إجراءات سريعة ومنسقة للحفاظ على نافذة الأمان الحاسمة هذه قبل أن تجعل البنى المتقدمة عملية اتخاذ القرارات في الذكاء الاصطناعي مبهمة.

النقاط الرئيسية

شرح منطق الذكاء الاصطناعي الشفاف

تقوم نماذج التفكير الحديثة مثل نظام o1 الخاص بـ OpenAI بإنشاء "سلاسل تفكير" خطوة بخطوة باللغة الإنجليزية العادية. تعمل آثار التفكير المرئية هذه كنظام إنذار مبكر، حيث تكشف متى يفكر النموذج في إجراءات ضارة مثل القرصنة أو التخريب قبل تنفيذها.

يشير الباحثون إلى ما يلي:

الهشاشة تهدد المراقبة

على الرغم من وعدها، فإن شفافية CoT مهددة بالعديد من التحولات التكنولوجية:

• التعلم المعزز مع المكافآت التي تعتمد على النتائج فقط والتي تفضل الكفاءة على الوضوح
• الانتقال من بيانات التدريب التي تم إنشاؤها بواسطة الإنسان إلى البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي، مما يؤدي إلى تآكل التفكير القائم على اللغة الإنجليزية
• هندسة معمارية جديدة للتفكير في مساحات كامنة مستمرة بدون لغة منفصلة

يمكن أن تدفع هذه التطورات أنظمة الذكاء الاصطناعي إلى تبني اختصارات أو رموز داخلية، مما يخفي النوايا الحقيقية بشكل فعال.

دعوة تعاونية للعمل

تحث الورقة على وضع معايير صناعية موحدة لقياس وحماية القدرة على المراقبة. تشمل التوصيات ما يلي:

  1. دمج مقاييس الشفافية في تقييم النموذج وقرارات النشر.
  2. الحفاظ على الرجوع إلى إصدارات النموذج السابقة والأكثر قابلية للتفسير إذا فقدت الإصدارات الأحدث سلوك CoT.
  3. تشجيع البحث المفتوح حول طرق الكشف عن إخفاء التفكير ومواجهته.

يؤكد هذا الموقف التعاوني، الذي أقره أكثر من 40 خبيرًا بما في ذلك Geoffrey Hinton وIlya Sutskever، على المخاطر المشتركة.

الآثار التنظيمية

إذا ظلت مراقبة سلسلة التفكير قابلة للتطبيق، فيمكن للمنظمين والمراجعين الحصول على نظرة ثاقبة غير مسبوقة لعملية اتخاذ القرارات في الذكاء الاصطناعي. قد تطلب السلطات يومًا ما تقييمات الشفافية كجزء من أطر الامتثال، لتكملة بروتوكولات السلامة الحالية.

أسئلة بحثية عاجلة

لا تزال هناك فجوات حرجة قبل أن يتم الاعتماد على مراقبة CoT:

سيحدد معالجة هذه الأسئلة بسرعة ما إذا كانت الإنسانية تحتفظ بالقدرة على فهم أقوى إبداعات الذكاء الاصطناعي لديها أو تشاهد تلك النافذة تغلق إلى الأبد.

قراءة مقترحة

01-09-2025
تخفيضات عيد العمال من أمازون: احصل على خصم يصل إلى 81% على أجهزة اللابتوب، التقنيات، والمزيد!
اكتشف تخفيضات أمازون لعيد العمال بخصومات تصل إلى 81% على أجهزة اللابتوب، وسماعات أبل إيربودز برو، والمكانس الكهربائية، ومنتجات العناية بالبشرة، والمزيد. تسوق العروض حتى 1 سبتمبر.
26-05-2025
تحول الذكاء الاصطناعي في قطاع الاتصالات: الرئيس التنفيذي الجديد لأوبتس يؤكد على أهمية البشر
ستيفن رو، الرئيس التنفيذي الجديد لأوبتس، يتحدث عن دور الذكاء الاصطناعي في تحسين قطاع الاتصالات مع التأكيد على أهمية البشر في العمليات.
11-06-2025
Project Aura من Xreal: نظارات Android XR الأولى تتطلب أكثر من مجرد هاتفك
ستتطلب نظارات الواقع المعزز Project Aura من Xreal وحدة معالجة منفصلة، وليس هاتفًا ذكيًا، لقدراتها المتقدمة في Android XR، وستتميز بعدسة موشورية مسطحة جديدة ومجال رؤية أوسع.
23-07-2025
فيلم "أسلحة" لزاك كريغر يطلق العنان لتقييمات نقدية رائعة قبل عرضه
فيلم الرعب الجديد لزاك كريجر "أسلحة" يتلقى مراجعات رائعة من النقاد، حيث أشادوا به لقصته الغامضة، وفريق الممثلين المتميز، وأسلوبه السردي الفريد. تعرف على المزيد حول الفيلم الذي طال انتظاره.
11-09-2025
مركبة بيرسيفيرانس الجوالة تكتشف بصمة حيوية محتملة في صخرة مريخية
عثر روفر بيرسيفيرانس التابع لناسا على علامات محتملة لحياة قديمة في عينة صخرية مريخية، "وادي الياقوت"، كاشفًا عن مواد عضوية وأنماط معدنية مرتبطة بالنشاط الميكروبي.
22-09-2025
أكل لحوم البشر الكوني: نجم 'ميت' يلتهم عالمًا شبيهًا ببلوتو
رصد علماء الفلك الذين يستخدمون تلسكوب هابل الفضائي نجمًا قزمًا أبيض يلتهم جرمًا جليديًا شبيهًا ببلوتو، كاشفًا عن رؤى حاسمة حول تكوين الكواكب ومستقبل نظامنا الشمسي.
29-08-2025
تسريبات جهاز بلايستيشن المحمول تلمح إلى قاتل لـ ROG Ally X بمواصفات قوية وسعر أقل
تشير تسريبات جديدة إلى أن جهاز بلاي ستيشن المحمول القادم من سوني قد يتفوق على ROG Ally X بمعالج AMD APU قوي وتسعير تنافسي.
17-06-2025
تقدم ثريدز نصًا مخفيًا لتحسين تجربة المستخدم
تختبر Threads ميزة نصية جديدة لإخفاء المحتوى، أعلن عنها الرئيس التنفيذي لشركة Meta مارك زوكربيرج، مما يسمح للمستخدمين بإخفاء المحتوى لمنع الكشف عن معلومات حساسة وطمسها.
11-07-2025
الخاتمة المثالية لـ "ميردر بوت": نهاية مثالية وبداية واعدة
تختتم Apple TV+ اقتباس "يوميات ميردر بوت" لمارثا ويلز موسمه الأول بنهاية مثالية، مما يمهد الطريق للموسم الثاني.
25-06-2025
NVIDIA تكشف عن GeForce RTX 5050 الموفر للطاقة
توسع NVIDIA تشكيلة وحدات معالجة الرسوميات الخاصة بها مع بطاقة GeForce RTX 5050 الجديدة، وهي بطاقة رسوميات موفرة للطاقة مصممة لكل من أجهزة الكمبيوتر المحمولة والمكتبية، مما يجلب ميزات RTX المتقدمة إلى جمهور أوسع.
22-08-2025
GPT-5 يصل إلى Microsoft Copilot: ترقية دقيقة لسير العمل
استكشف دمج GPT-5 من OpenAI في Microsoft Copilot، و"وضعها الذكي" الجديد، ومقارنة الأداء عبر مهام العمل المختلفة.
26-05-2025
جوجل تؤمن إنتاج شرائح Tensor مع TSMC حتى جيل Pixel 14
جوجل تؤمن إنتاج شرائح Tensor مع TSMC حتى جيل Pixel 14، مما يعكس التزامها بتطوير تقنيات جديدة في الهواتف الذكية.
07-08-2025
الكشف عن iOS 26 بيتا 5: ما الجديد في أحدث تحديثات آبل
استكشف جميع الميزات والتغييرات الجديدة في iOS 26 بيتا 5، بما في ذلك رسوميات شاشة القفل المتحركة، وشاشات بدء تشغيل التطبيقات، وتحديثات Liquid Glass، والمزيد.
12-06-2025
ارتفاع درجة حرارة Pixel 6a: مخاوف من ارتفاع درجة الحرارة والسلامة تبتلي هاتف Google الاقتصادي
يواجه هاتف Google Pixel 6a مشكلات خطيرة في ارتفاع درجة الحرارة، حيث ورد أن بعض الأجهزة تذوب. وقد حذرت Google المستخدمين وقد تطبق تحديثًا للبرنامج لتقليل أداء البطارية، مما يثير مخاوف بشأن السلامة وسهولة الاستخدام على المدى الطويل.
12-09-2025
تكشف مركبة ناسا الجوالة بيرسيفيرانس عن إشارة حيوية محتملة على المريخ
عثرت مركبة ناسا الجوالة بيرسيفيرانس على صخرة مريخية تحمل علامات محتملة لحياة قديمة، لكن إعادة العينات إلى الأرض أمر بالغ الأهمية للتأكيد وسط تحديات التمويل.
26-05-2025
فضلات البطاريق قد تساعد في مكافحة تغير المناخ
دراسة جديدة تكشف كيف يمكن لفضلات البطاريق أن تساهم في مكافحة تغير المناخ من خلال زيادة تركيز الأمونيا وتكوين السحب في القارة القطبية الجنوبية.