مقارنة نماذج اللغة العربية كما يجب. قياس Falcon وALLaM وJais وFanar على اللهجة والاستدلال والترخيص، مع منهجية على بياناتك.
أربع عائلات نماذج لغة عربية جادة تتنافس اليوم على Open Arabic LLM Leaderboard: Falcon Arabic وFalcon-H1 Arabic من TII، وALLaM من سدايا وهيومين، وJais من MBZUAI وG42، وFanar من قطر. وفق TII، يتفوق Falcon-H1 Arabic 34B على عدة أنظمة تتجاوز 70 مليار معامل بما فيها Qwen2.5 72B وLlama 3.3 70B من Meta على المعايير العربية. المقارنة الصحيحة بين نماذج اللغة العربية ليست "أي ترتيب على اللوحة" بل "أيها يناسب لهجتك وسيادتك وترخيصك وسطح منتجك".
لماذا تحتاج مقارنة نماذج اللغة العربية انضباطًا خاصًا؟
نموذج لغة عربي كبير هو نموذج LLM مدرَّب أو مضبوط ببيانات عربية كافية، قادر على الفصحى وبدرجات متفاوتة من تغطية اللهجات الإقليمية. انتقلت الفئة من "خيارين قابلين للحياة مفتوحَي الأوزان" في 2023 إلى "أربع عائلات جادة إضافة إلى البدائل المغلقة الرائدة" بحلول 2026. هذه الكثافة تجعل النصائح العامة عن المقارنة خاطئة افتراضيًا، فالمقارنة الصحيحة تعتمد على المحور الذي تُحسّن.
المحاور الأربعة المهمة عمليًا: تغطية اللهجة (أي خلطة من فصحى وخليجي وشامي ومصري ومغاربي تحتاج)، عمق الاستدلال (دور واحد مقابل متعدد الخطوات)، نافذة السياق (Prompts قصيرة مقابل RAG على مستندات طويلة)، والترخيص والنشر (مفتوح الأوزان للاستضافة الذاتية، أو API مُدار، أو منطقة سيادية فقط). كل معيار عام يعطي رقمًا على محور واحد، ومنتجك يحتاج إجابة على الأربعة.
أربع عائلات نماذج عربية بنظرة واحدة
- Falcon Arabic. قائد TII المفتوح الأوزان على Open Arabic LLM Leaderboard. قوي على الفصحى وصديق للنشر السيادي لأن الأوزان عامة. Falcon-H1 Arabic 34B يُقال إنه ينافس نماذج أكبر غير عربية على المهام العربية.
- ALLaM. النموذج السعودي من سدايا وهيومين. تصدّر Arabic MMLU وهو متاح على Microsoft Azure AI Model Catalog. أقوى إجابة للسياق السعودي وعمل اللهجة الخليجية.
- Jais. عائلة MBZUAI وG42 المفتوحة الأوزان للعربية. تغطية استدلال واسعة وخلفية بحثية ناضجة. ناشط في تجارب تجارية عبر الإمارات.
- Fanar. نموذج قطر الوطني للعربية. قوي على بيانات الخليج والشام، مُنشَر على بنية تحتية قطرية سيادية. الخيار الطبيعي للأعباء المقيمة في قطر.
ما الذي تقيسه المعايير العامة، وما تفوته؟
Open Arabic LLM Leaderboard وArabic MMLU وAlGhafa وAraSTS كل واحدة تعرّف شريحة مهمة من القدرة. تفوت الشرائح التي تهمّ أكثر في المنتج الحقيقي:
- أسلوب قطاعي. نموذج يتصدّر استدلال العربية العام قد يخسر على تلخيص سياسات تأمين سعودية بأسلوب قانوني.
- توزيع اللهجة. صفوف اللوحات تفترض خلطات متوازنة فصحى-غالبة. مستخدموك قد يكتبون 70% خليجي و30% فصحى.
- سلوك الرفض. لا توجد لوحة تقيس هل يرفض النموذج بنظافة حين يجب، وذلك نصف سؤال تجربة العميل.
- تأصيل الاسترجاع. اللوحات تقيس النموذج بمعزل. منتجك يشغّله على مخرجات RAG، حيث تهمّ درجة الأمانة المؤصَّلة أكثر من الاستدلال الخام.
كيف تقيس نماذج اللغة العربية على بياناتك؟
هذه المنهجية التي نستخدمها مع فرق منتج خليجية لاختيار نموذج عربي لعبء حقيقي:
- عيّن رسائل حقيقية. 200 إلى 500 مدخل مستخدم حقيقي من سطح منتجك، لا من مجموعة عامة.
- صنّف خلطة اللهجة. يصنّف متحدثون أصليون كل رسالة فصحى أو خليجي أو شامي أو مصري أو غيرها. يضع هذا المعيار لأي نموذج تفكّر فيه.
- عرّف مرجعية التسجيل. ما الذي يبدو عليه "صحيح" لمهمّتك؟ أمانة المصدر، الالتزام بالتنسيق، الرفض حين يلزم، مطابقة النبرة.
- شغّل الأربعة. Falcon Arabic وALLaM وJais وFanar، نفس الـ Prompts والسياق والمرجعية. أضف خط أساس رائدًا مغلقًا للمقارنة.
- اختر على الملاءمة الحقيقية. النموذج الذي يفوز على مجموعة تقييمك يفوز. ترتيب اللوحة كاسر تعادل لا قرار.
ماذا يتغيّر عند البناء للنشر السيادي؟
إن وجب أن يبقى العبء داخل السعودية أو الإمارات أو قطر، تضيق المقارنة بسرعة. النشر السيادي حصرًا يستبعد النماذج المغلقة الرائدة كليًا ويدفع الاختيار نحو العائلات المفتوحة الأوزان باستضافة داخل المنطقة: ALLaM على بنية سعودية، Falcon Arabic على نشر TII أو شريك، Fanar على الحزمة الوطنية القطرية. فلتر السيادة كثيرًا ما يهزم الفائز المعياري، فنموذج أقل بمرتبتين يعمل داخل المنطقة أنفع من بطل لوحة لا يستطيع.
عند تنفيذها جيدًا، تنتهي مقارنة نماذج اللغة العربية بنموذج يطابق خلطة اللهجة وحدود السيادة وعبء المنتج. عند تنفيذها سيئًا، تنتهي بأعلى رقم على اللوحة وست أشهر من إعادة العمل عند مواجهة الواقع. العائلات الأربع والمنهجية الخماسية هما الفرق.
أسئلة شائعة
ما هو أفضل نموذج لغة عربي في 2026 وفق المعايير؟
وفق TII، يتصدّر Falcon-H1 Arabic 34B لوحة Open Arabic LLM Leaderboard ويتفوّق على عدة نماذج تتجاوز 70 مليار معامل كـ Qwen2.5 72B وLlama 3.3 70B على المهام العربية. وALLaM يتصدّر معيار Arabic MMLU. الأفضل يعتمد على ما تُحسّن: استدلال الفصحى أم اللهجة أم السيادة.
هل أعتمد على المعايير العامة لقرار منتجي؟
استخدمها فلتر قائمة قصيرة لا قرارًا نهائيًا. Open Arabic LLM Leaderboard وArabic MMLU يقيسان مهام قد لا تطابق سطح منتجك. ابنِ مجموعة ذهبية 200–500 صف من رسائل مستخدميك الحقيقية وقِس القائمة القصيرة عليها، فالفجوة بين ترتيب اللوحة وملاءمة المنتج كثيرًا ما تبلغ مرتبتين.
أي نموذج عربي لديه أقوى دعم للهجة الخليجية؟
ALLaM وFalcon Arabic هما الأقوى على اللهجة الخليجية اليوم لأنهما مدرَّبان صراحة على مجموعات بيانات سعودية وخليجية. Fanar يؤدّي جيدًا على السياق الشامي والقطري. Jais يغطي الفصحى مع خلطات إقليمية أوسع. اختبر على خلطتك اللهجية قبل الالتزام، فالتغطية تختلف بالقطاع.
كتبه عمر حداد، الذي قاس نماذج اللغة العربية لأعباء تكنولوجيا مالية وتجزئة وحكومة في الخليج منذ 2021.
- مقارنة نماذج اللغة العربية
- Falcon
- Jais