تقييم وسلامة الذكاء الاصطناعي هو الفارق بين العرض والمنتج. خمس طبقات وبرنامج 30 يومًا يصطاد الهلوسات قبل أن يراها أي عميل.
التقييم هو أكبر فجوة بين عرض ذكاء اصطناعي ومنتج ذكاء اصطناعي. النموذج الذي يُبهر في عرض يوم الثلاثاء قد يخترع سياسة استرجاع يوم الخميس، ولن يعلم الفريق إلا بعد أن يلتقط أحد العملاء لقطة شاشة. تقييم وسلامة الذكاء الاصطناعي هو الانضباط الذي يحوّل النموذج العامل إلى منظومة يمكن الدفاع عنها، وما زالت معظم الشركات الخليجية تتعامل معه كعمل لاحق.
تقييم وسلامة الذكاء الاصطناعي: ما الذي يغطيه فعلًا؟
هو ممارسة قياس أداء النموذج وأماكن تسبّبه بضرر — قبل النشر وأثناءه وبعده. ووفق إطار NIST لإدارة مخاطر الذكاء الاصطناعي، يندرج هذا الانضباط في أربع وظائف: الحوكمة (السياسة والمساءلة)، والرسم (السياق والمخاطر)، والقياس (التقييم خارج الإنتاج وداخله)، والإدارة (الاستجابة للحوادث والتخفيف). الأربع مجتمعة تحوّل الذكاء الاصطناعي من قطعة بحثية إلى نظام ذي ضوابط.
الطبقات الخمس التي يجب أن يُشغّلها كل برنامج
برنامج جدي للتقييم والسلامة ليس أداة واحدة، بل كَدسة طبقات تصطاد فشلًا مختلفًا في كل مرحلة. تجاوز طبقة واحدة، وستصل الفجوة التي تغطيها إلى العميل.
- مجموعة تقييم ذهبية. 200 إلى 500 مُدخل تمثيلي مع سلوك متوقع مُصنَّف يدويًا. هذا الأرتيفاكت هو ما تُقاس عليه كل ترقية للنموذج.
- LLM-as-judge. نموذج مُقيِّم يصنّف المخرجات وفق معيار مكتوب — الأمانة، الصلة، صحة الرفض، النبرة. يُعاير مرة، ثم يُستخدم بلا حدود.
- الاختبار العدائي. أوامر عدائية تختبر تجاوز القيود، وحقن الأوامر، والرفض الضار، وتسريب البيانات الشخصية. الهدف كسر النظام قبل أن يكسره العملاء.
- المراقبة الإنتاجية. عينة من حركة الإنتاج تُقيَّم باستمرار للكشف عن الانحراف والانحدارات وأنماط فشل ناشئة. تنبيهات عند تجاوز العتبات.
- حلقة المراجعة البشرية. المخرجات المُعلَّمة تنزل في قائمة انتظار يصحّحها خبراء، وتُغذّى تصنيفاتهم في مجموعة التقييم.
ربط البرنامج بإطار NIST AI RMF
سيُطلب من معظم الشركات الخليجية في النهاية أن تُظهر كيف ترتبط ضوابطها بإطار خارجي. NIST AI RMF هو المرجع الفعلي، وقانون الذكاء الاصطناعي الأوروبي يدفع المزوّدين نحو ممارسات معادلة. الربط أبسط مما يتوقع الفريق: المجموعة الذهبية والـ LLM-as-judge تحت "القياس"، والاختبار العدائي تحت "الرسم والقياس"، والمراقبة الإنتاجية داخل "الإدارة"، والسياسة الجامعة تحت "الحوكمة".
هذا الترتيب يدفع عائدًا ثانيًا. عندما تسألك جهة تنظيمية أو مدقّق داخلي أو فريق أمن عميل عن الأدلة، يكون البرنامج مُهيكلًا للإجابة بلغة يعرفونها. البديل — مجلد لقطات شاشة ودفتر Jupyter واحد — لا يصمد في تدقيق حقيقي.
الهلوسة وحقن الأوامر: الفشلان الأكثر أهمية
نمطان من الفشل يسبّبان من الضرر أكثر من البقية مجتمعة. الأول هو الهلوسة — مخرَج واثق لا يدعمه أي مصدر — وحلّه التأصيل (Grounding) وقياس الأمانة على كل استجابة. إن لم يستطع النظام الاستشهاد بالقطع التي أنتجت الإجابة، يجب ألا تُنشر الإجابة. الثاني هو حقن الأوامر، حيث يأمر محتوى غير موثوق النموذج بتجاهل تعليماته. الحل فصل المدخلات، والتحقق من المخرجات، وطبقة رفض تمنع استدعاء الأدوات عند الاشتباه.
كلٌ من فريق Anthropic الهندسي وإطار OpenAI للجاهزية يعتبران هذين خطرين أساسيين لا غريبين. السبب بسيط: يظهران في كل نشر إنتاجي تقريبًا، حتى لدى الفرق الناضجة.
برنامج 30 يومًا لإطلاق التقييم والسلامة
هذا التسلسل ننفّذه مع شركات خليجية تحتاج برنامج تقييم قائمًا قبل إطلاق ميزة ذكاء اصطناعي للعملاء. يفترض منتجًا واحدًا، ومالك مخاطر، وميزانية أولية صغيرة.
- الأسبوع 1. اختر فئات المخاطر المهمة للمنتج — الهلوسة، تسريب البيانات، الرفض المتحيّز، إساءة استخدام الأدوات. اكتب المعيار.
- الأسبوع 2. ابنِ المجموعة الذهبية. 200 مثال مُصنَّف هو الحد الأدنى لإنتاج درجة قابلة للدفاع.
- الأسبوع 3. اربط الـ LLM-as-judge بالمعيار. عايره على 100 مخرج مُسجَّل بشريًا قبل الوثوق به.
- الأسبوع 4. أضف الاختبار العدائي. شغّل اختبارات تجاوز القيود وحقن الأوامر وتسريب البيانات أسبوعيًا، وتعامل مع النتائج كحوادث Sev-2.
- الأسبوع 5. فعِّل المراقبة الإنتاجية. عيِّن عينة، قيّم بالـ judge، ووجّه المخرجات المعلَّمة إلى قائمة مراجعة بشرية.
الخطوة التالية
إن كنت على وشك إطلاق ميزة ذكاء اصطناعي للعملاء دون معيار تقييم مكتوب ومجموعة ذهبية، توقّف. تكلفة بنائهما أسبوعا هندسة. تكلفة تجاوزهما هي لقطة الشاشة التي لا تريدها على وسائل التواصل. ابنِ المعيار، شغّل المجموعة الذهبية، ثم فعِّل الميزة.
عند الإتقان، يصبح تقييم وسلامة الذكاء الاصطناعي الطبقة المُمِلّة التي تتيح لفريقك الحركة بسرعة دون أن ينتهي بكم الأمر في تقرير الجهة التنظيمية. كدِّس الضوابط، اربطها بإطار NIST، ودَع برنامج 30 يومًا يحوّل الانضباط إلى عادة.
أسئلة شائعة
ما الفرق بين تقييم الذكاء الاصطناعي وسلامته؟
التقييم يقيس مدى أداء النموذج للمهمة المحددة — الدقة، الأمانة، الالتزام بالصيغة. السلامة تقيس ما إذا كان النموذج يُسبّب ضررًا — هلوسة، تجاوز قيود، تسريب، رفض متحيّز. كلاهما مهم، ويتعامل إطار NIST لإدارة مخاطر الذكاء الاصطناعي معهما كوظيفتين مترابطتين داخل القياس والإدارة.
هل يمكن الوثوق بـ LLM-as-judge في تقييم المخرجات؟
نعم، لكن فقط مع معيار مُعاير ومراجعة بشرية دورية. ابدأ بكتابة المعيار على ورق، قِيس 100 مخرج يدويًا، ثم قارن النموذج المُقيِّم بدرجاتك. عندما يتجاوز الارتباط 0.8 على معيارك، يصبح من الآمن توسيع نطاقه داخل خط الـ CI.
كم مرة يجب إعادة تشغيل تقييمات الذكاء الاصطناعي؟
شغّل مجموعة التقييم الذهبية عند كل ترقية للنموذج وكل تغيير للأمر، وشغّل مراقبات الإنتاج على عينة مستمرة من حركة المرور. سياسة Anthropic للتوسع المسؤول وإطار OpenAI للجاهزية يعتبران التقييم المستمر شرطًا أساسيًا، ولم يعد التقييم اللحظي كافيًا لأي نشر جدي.
كتبت المقال ياسمين خوري، التي بَنت برامج تقييم وسلامة ذكاء اصطناعي لبنوك وشركات اتصالات وجهات حكومية خليجية منذ 2022.
- سلامة الذكاء الاصطناعي
- تقييم LLM
- حوكمة الذكاء الاصطناعي