DeepReinforce أطلقت للتو شيئاً يغير قواعد اللعبة في البرمجة بالذكاء الاصطناعي مفتوح المصدر. Ornith 1.0 ليس مجرد إصدار نموذج جديد — إنه نموذج فكري جديد لكيفية تعلم وكلاء الذكاء الاصطناعي لكتابة البرمجيات.
الخلاصة: عائلة نماذج مفتوحة المصدر بالكامل (من 9B إلى 397B معلمة، جميعها مرخصة تحت MIT) تتعلم بنفسها كتابة هياكل التعلم المعزز الخاصة بها. أكبر إصدار ينافس Claude Opus 4.7 على SWE-Bench Verified. أصغر نموذج 9B يتفوق على Gemma 4-31B — وهو نموذج أكبر منه بثلاثة أضعاف.
دعنا نحلل ما الذي يجعل هذا الإصدار مختلفاً.
ما هو Ornith 1.0؟
Ornith 1.0 هي عائلة من النماذج مفتوحة المصدر ذاتية التحسين والمبنية خصيصاً لمهام البرمجة العاملة بالوكيل، طورتها DeepReinforce. تمتد على أربعة أحجام:
- Ornith 1.0 9B Dense — قابل للنشر على الحواف، يعمل على أجهزة المستهلك
- Ornith 1.0 31B Dense — أداء متوازن لنشر محطات العمل
- Ornith 1.0 35B MoE — خليط من الخبراء للاستدلال الفعال
- Ornith 1.0 397B MoE — على مستوى الحدود المتقدمة، ينافس قادة المصادر المغلقة
مبنية على نقاط التفتيش المدربة مسبقاً Gemma 4 وQwen 3.5، تحقق هذه النماذج نتائج متطورة بين النماذج مفتوحة المصدر ذات الحجم المماثل عبر معايير البرمجة الرئيسية.
الابتكار الأساسي: البناء الذاتي
هنا يصبح الأمر مثيراً للاهتمام. كل نظام برمجة وكيل — سواء كان Claude Code أو Cursor أو وكيل مفتوح المصدر — يعتمد على هيكل داعم (scaffold): منطق التنسيق الذي ينظم كيفية تفاعل النموذج مع الأدوات، وإدارة السياق، وإعادة المحاولة عند الفشل، وتقديم الحل النهائي.
حتى الآن، كانت الهياكل الداعمة مصممة يدوياً بواسطة البشر. أنت تكتب الإطار، وتحدد بروتوكول استخدام الأدوات، وتنظم استرداد الأخطاء. النموذج يقوم فقط بملء الكود.
Ornith 1.0 يقلب هذا رأساً على عقب. إطار التدريب الخاص به يحسن بشكل مشترك الهيكل الداعم والحل معاً. كل خطوة تعلم معزز تعمل على مرحلتين:
- اقتراح هيكل داعم محسّن — بناءً على المهمة والهيكل الداعم المستخدم سابقاً لها
- توليد حل كامل — بناءً على ذلك الهيكل الداعم ووصف المهمة
المكافأة من الحل تنتشر إلى كلتا المرحلتين. النموذج لا يتعلم فقط كتابة إجابات أفضل — إنه يتعلم تأليف التنسيق الذي يستخرج تلك الإجابات.
حلقة RL ثنائية المرحلة في Ornith: يتم تحسين اقتراح الهيكل الداعم وتوليد الحل بشكل مشترك، مما يخلق حلقة تغذية راجعة حيث يحسن النموذج باستمرار استراتيجية التنسيق الخاصة به.
الغوص العميق لـ Sam Witteveen في Ornith 1.0 يوضح الأمر جيداً — هذا ليس تحسناً تدريجياً. إنه تحول هيكلي من "تدريب الحلال" إلى "تدريب الهيكل الداعم والحلال معاً."
أداء المعايير: ضرب يفوق الوزن
الأرقام تتحدث عن نفسها. دعنا نرى كيف يتفوق Ornith على المنافسة.
مقياس الحدود المتقدمة (397B MoE)
Ornith 1.0 397B يتفوق على Claude Opus 4.7 في كل من Terminal-Bench 2.1 وSWE-Bench Verified، ويتقدم على DeepSeek-V4-Pro وMiniMax M3 عبر كل مقياس تقريباً.
Ornith 1.0 397B مقابل النماذج الحدودية الرائدة — لاحظ القيادة الشاملة على معايير البرمجة العاملة بالوكيل.
المقياس المتوسط (35B MoE)
إصدار 35B لا يتفوق فقط على النماذج ذات الحجم المماثل — إنه يتجاوز نموذج Qwen 3.5-397B على Terminal-Bench 2.1 (64.2 مقابل 53.5). هذا عجز في المعاملات بمقدار 10 أضعاف تم التغلب عليه بتدريب أذكى.
مقياس الحافة (9B Dense)
نموذج 9B يتفوق على نموذج 31B في SWE-Bench Verified؟ هذه هي قوة تدريب البناء الذاتي. للفرق التي تحتاج وكلاء برمجة محليين وخاصين وغير متصلين، هذه لحظة فارقة.
كيف يعمل: إطار التدريب ذاتي التحسين
يجدر فهم البنية التقنية لأنها تشير إلى اتجاه المجال بأكمله.
حلقة التغذية الراجعة
التعلم المعزز التقليدي للبرمجة يستخدم إطاراً ثابتاً. تحدد كيف يتفاعل النموذج مع الطرفية، كيف يقرأ الملفات، كيف يدير الاختبارات — ويقوم النموذج بتحسين مخرجاته البرمجية ضمن تلك القيود. الإطار لا يتغير أبداً.
Ornith يعامل الإطار كـ كائن قابل للتعلم. عبر تكرارات التدريب:
- يقترح النموذج هيكلاً داعماً لفئة مهمة معينة
- يولد حلاً باستخدام ذلك الهيكل الداعم
- تنتشر المكافأة من الحل لتحديث كل من سياسة الحل وسياسة الهيكل الداعم
- الهياكل الداعمة الأفضل تؤدي إلى حلول أفضل، والتي بدورها تحسن الهياكل الداعمة
هذا يخلق دائرة قدرة ذاتية — لا تتطلب مهندسين بشريين لإعادة تصميم حلقة الوكيل يدوياً كل مرة يتحسن فيها النموذج.
الدفاع ضد اختراق المكافآت
إعطاء النموذج السيطرة على هيكله الداعم يقدم خطراً واضحاً: اختراق المكافآت. ما الذي يمنعه من تعلم خداع المعايير بدلاً من حل مشاكل البرمجة فعلياً؟
DeepReinforce تطبق دفاعاً ثلاثي الطبقات:
الطبقة 1: حدود الثقة الثابتة. البيئة وسطح الأدوات وعزل الاختبار غير قابلة للتغيير وخارج متناول النموذج. يمكن للنموذج فقط تطوير هيكل سياسته الداخلي — الذاكرة، معالجة الأخطاء، منطق التنسيق.
الطبقة 2: المراقبة الحتمية. مراقب يفرض الحدود، ويشير إلى محاولات قراءة المسارات المحجوبة، أو تعديل نصوص التحقق، أو استدعاء إجراءات خارج سطح الأدوات المسموح بها. لا مكافأة للانتهاكات.
الطبقة 3: قاضي LLM المجمد. لأن التلاعب بنية المستوى يمكن أن يحدث ضمن أسطح الأدوات المسموح بها، يعمل LLM مجمد كـ حق النقض فوق أداة التحقق. إذا اكتشف القاضي سلوكاً تلاعبياً حتى ضمن استخدام صالح للأداة، يتم معاقبة المسار.
هذا النهج ثلاثي الطبقات هو مرجع معماري لأي شخص يبني أنظمة وكيل ذاتية التحسين.
التعلم المعزز غير المتزامن على نطاق واسع
تم التدريب باستخدام استراتيجية RL خط أنابيب للتعامل مع مشكلة السياسة غير المتزامنة الناتجة عن مخرجات الوكيل طويلة المدى. وزن التقادم يخفض وزن الرموز الأقدم ويسقطها بالكامل بمجرد تجاوز حد معين. هذا يسمح للتدريب بالتوسع لمسارات الأفق الطويل التي تتطلبها البرمجة العاملة بالوكيل.
لماذا هذا مهم للذكاء الاصطناعي المؤسسي
Ornith 1.0 ليس مجرد معلم بحثي — له آثار عملية فورية.
1. الأوزان المفتوحة تغير حساب المخاطر
جميع نقاط تفتيش Ornith 1.0 تحمل رخصة MIT. إصدارات GGUF تعمل على Ollama وUnsloth دون أي حراسة. للصناعات المنظمة (المالية، الرعاية الصحية، الدفاع)، هذا يعني:
- الكود لا يضطر أبداً لمغادرة بنيتك التحتية
- يمكنك تدقيق وتعديل سلوك الوكيل
- لا اعتماد على تسعير API أو توفره
- الضبط الدقيق المخصص لقواعد البيانات البرمجية الخاصة ممكن
2. سير العمل، وليس فقط النموذج، يحدد النتائج
Ornith 1.0 يثبت أن تصميم الهيكل الداعم أصبح الآن عامل تمييز تنافسي. فريقان يستخدمان نفس النموذج الأساسي يمكن أن يحصلا على نتائج مختلفة تماماً اعتماداً على منطق التنسيق الخاص بهما. النموذج الذي يمكنه تطوير تنسيقه الخاص سيتفوق.
3. القدرة تتدفق نحو الأسفل
أداء نموذج 9B هو ربما أهم إشارة هنا. إنه يعني أن قدرة البرمجة العاملة بالوكيل — التي كانت ذات يوم مجال نشر مراكز البيانات الضخمة — أصبحت متاحة على أجهزة الكمبيوتر المحمولة وأجهزة الحافة. المساعدة البرمجية الخاصة وغير المتصلة وفي الوقت الفعلي أصبحت ممكنة الآن.
4. الفجوة مع المصادر المغلقة تتقلص
الفجوة بين أفضل المصادر المغلقة والمصادر المفتوحة على معايير البرمجة العاملة بالوكيل هي عملياً صفر. في العديد من حالات الاستخدام، Ornith 1.0 يتفوق بالفعل.
الخلاصة
Ornith 1.0 هو أهم إصدار برمجة وكيل مفتوح المصدر في 2026 حتى الآن. إنه يثبت فرضية اشتبه بها الكثيرون في مجتمع الذكاء الاصطناعي لكن لم يثبتها أحد على نطاق واسع: تحسين الهيكل الداعم والحلال معاً ينتج نتائج أفضل من تحسين أي منهما بمعزل عن الآخر.
لمدراء التكنولوجيا وقادة الهندسة الذين يقيمون استراتيجية الذكاء الاصطناعي الخاصة بهم، الآثار واضحة:
- يمكنك الآن تشغيل برمجة وكيل بجودة إنتاجية بالكامل على بنيتك التحتية بأوزان مفتوحة
- الميزة التنافسية تنتقل من الوصول إلى النماذج إلى تصميم التنسيق والأدوات المخصصة
- الوكلاء ذاتيو التحسين الذين يطورون سير عملهم الخاص لم يعودوا نظريين — إنهم يُشحنون الآن
في aratech، نتابع هذا المجال عن كثب. إذا كنت تقيم كيف تتناسب نماذج البناء الذاتي مع بنية الذكاء الاصطناعي الخاصة بك أو تريد اختبار Ornith 1.0 مقابل قاعدة البيانات البرمجية الخاصة بك، تواصل معنا.
شاهد تحليل Sam Witteveen الكامل لـ Ornith 1.0 على YouTube لجولة عملية على النماذج وقدراتها.