• Tech Support ⤴
  • Projects
  • Services
    • AI Development
    • UI/UX Design
    • Web Development
    • Technology Support
    • Mobile App Development
    • Banking ATM Interfaces
    • Process Automation
    • Security Auditing
    • Local AI Servers
  • odoo ERP
get in touchStart with Eva
logo
Tech Support ⤴
Projects
Services
AI DevelopmentUI/UX DesignWeb DevelopmentTechnology SupportMobile App DevelopmentBanking ATM InterfacesProcess AutomationSecurity AuditingLocal AI Servers
odoo ERP
get in touchStart with Eva
Loading…
logo

Transforming businesses through AI-powered digital innovation and creative excellence.

Quick Links

BlogAinexProjectsContact us

Contact Us

pinDubai Digital Park, A5, DTEC - Silicon Oasisemail[email protected]phone+971 55 7538087
© 2026 aratech. All rights reserved.
Privacy PolicyTerms of ServiceCookie Policy
الرئيسية \ المدونة \ BitNet b1.58: برنامج 1-Bit LLM من Microsoft الذي يقوم بتشغيل نموذج 100B على وحدة معالجة مركزية واحدة

BitNet b1.58: برنامج 1-Bit LLM من Microsoft الذي يقوم بتشغيل نموذج 100B على وحدة معالجة مركزية واحدة

يعد BitNet b1.58 من Microsoft أول برنامج LLM 1 بت تم تدريبه محليًا - باستخدام أوزان {-1، 0، +1} فقط - ومع ذلك فهو يطابق النماذج 10 × حجمها وفقًا

19 مايو 2026 - 13 دقائق للقراءة

أهم النقاط

ExpandCollapse
  • - BitNet b1.58 2B4T هو أول LLM مفتوح المصدر من Microsoft بأوزان ثلاثية {-1، 0، +1}
  • - اسم 1.58 بت يأتي من نظرية المعلومات: ثلاث حالات تحتاج log₂(3) ≈ 1.58 بت لكل وزن
  • - يطابق أو يتفوق على أقران 1–2B بدقة كاملة مع بصمة ذاكرة أصغر بـ 4.5×
  • - بحجم ~400 ميجابايت وبدء بارد أقل من ثانية — مناسب لـ Lambda وRaspberry Pi والمتصفح
  • - bitnet.cpp جاهز للإنتاج اليوم بترخيص MIT وتحسين لوحدة المعالجة المركزية
تصور مظلم تجريدي لشبكة عصبية 1 بت مع تدفقات التعليمات البرمجية الثنائية ومجموعة الرموز الثلاثية {-1، 0، +1} متوهجة باللون السماوي الكهربائي والأرجواني العميق، مما يمثل بنية التكميم القصوى لـ BitNet b1.58 من Microsoft

BitNet b1.58: برنامج 1-Bit LLM من Microsoft الذي يقوم بتشغيل نموذج 100B على وحدة معالجة مركزية واحدة

Table of Contents

  • مقدمة
  • المشكلة: ماجستير إدارة الأعمال باهظ الثمن للغاية بحيث لا يمكن توفيره في كل مكان
  • الحل: BitNet b1.58 — بنية مصممة للأوزان الثلاثية
    • الوزن الثلاثي: {-1، 0، +1
    • BitLinear: لبنة البناء
    • ماذا يعني "1.58 بت" فعليًا - ولماذا يتفوق على "1 بت"
  • البدء: قم بتشغيل BitNet b1.58 على جهازك اليوم
    • تثبيت bitnet.cpp
    • تشغيل الاستدلال
    • بديل عناق الوجه: اضبط وجهك بنفسك
  • تحت الغطاء: لماذا تعتبر BitNet سريعة - ولماذا هي مهمة
    • كثافة الذاكرة القصوى
    • حساب الطاقة
    • كيف يحقق BitNet.cpp السرعة
  • حيث تقف BitNet b1.58 في مواجهة النماذج التنافسية
  • متقدم: أنماط نشر الإنتاج
    • بدون خادم على AWS Lambda
    • الذكاء الاصطناعي على الجهاز واستدلال الحافة
  • المقارنة والبدائل: موقع BitNet في النظام البيئي للتكميم
  • الخاتمة والخطوات التالية

مقدمة

!BitNet b1.58 performance benchmarks: 1-bit vs full precision across latency, memory, accuracy

في أبريل 2025، حطمت شركة Microsoft Research بهدوء واحدة من أطول افتراضات الذكاء الاصطناعي: وهي أنه للحصول على أداء جيد من نموذج لغة كبير، فإنك تحتاج إلى أوزان الفاصلة العائمة كاملة الدقة. أطلقوا BitNet b1.58 2B4T، وهو أول نموذج لغة كبير مفتوح المصدر تم تدريبه من الصفر باستخدام الأوزان الثلاثية فقط - قيم {-1، 0، +1} - وقدم نتائج تتطابق مع النماذج 10× الأكبر أو تتفوق عليها في معظم المعايير.

الاسم "1.58 بت" يأتي من فكرة بسيطة من نظرية المعلومات: تمثيل ثلاث حالات متميزة يتطلب log₂(3) ≈ 1.58 بت. ومن خلال تقييد كل معلمة على تلك القيم الثلاث، تحقق BitNet الحد النظري لما يمكن لنظام الوزن ثلاثي الحالات تشفيره. إن التصنيف "b1.58" ليس وسيلة للتحايل التسويقي - فهو دقيق وقابل للقياس ومثالي للتكميم الثلاثي.

الأرقام مذهلة. نموذج يحتوي على 2 مليار معلمة يناسب أقل من 700 ميجابايت من مساحة القرص. نموذج مكون من 100 مليار معلمة يعمل بسرعة 5–7 رموز مميزة في الثانية على وحدة معالجة مركزية واحدة — وهي سرعة قراءة بشرية تقريبية. زيادة في كفاءة استخدام الطاقة تصل إلى 82.2% على وحدات المعالجة المركزية (CPUs) x86 مقارنة بالخطوط الأساسية ذات الدقة الكاملة. هذا ليس تحسينًا تدريجيًا. هذه نقطة جديدة على حدود باريتو.

في هذه المقالة، نوضح كيفية عمل BitNet تحت الغطاء، حيث تقف في مواجهة النماذج التنافسية مثل Qwen2.5 وGemma وSmolLM2، وكيف يمكنك تشغيلها محليًا اليوم، وما يخبئه المستقبل للذكاء الاصطناعي تحت 1 بت.


المشكلة: ماجستير إدارة الأعمال باهظ الثمن للغاية بحيث لا يمكن توفيره في كل مكان

لفهم سبب أهمية BitNet، عليك أن تبدأ بحقيقة صعبة: تُعد برامج LLM المفتوحة والمتطورة غير عملية بالنسبة لمعظم سيناريوهات النشر في العالم الحقيقي.

الأرقام تحكي القصة. يتطلب تشغيل نموذج مكون من 7 مليارات معلمة بدقة كاملة حوالي 14 جيجابايت من VRAM للاستدلال. قم بتكميمها إلى 4 بت وما زلت بحاجة إلى ما يقرب من 4 جيجابايت. وفي كلتا الحالتين، يتم إغلاق معظم أجهزة الكمبيوتر المحمولة الاستهلاكية والأجهزة الطرفية والخوادم الصغيرة. حتى خوادم الاستدلال المتواضعة تكلف مئات الدولارات شهريًا في ساعات GPU. بالنسبة لشركة ناشئة تقوم ببناء برنامج دردشة آلي، أو فريق ينشر مساعد معرفة داخلي، أو مطور يجري تجارب على جهاز كمبيوتر محمول - قد تكون جودة النموذج موجودة، ولكن البنية التحتية ليست كذلك.

تم تصميم طرق التكميم الحالية - INT4، وINT8، وGPTQ، وAWQ - كخطوات ما بعد التدريب المطبقة على نماذج كاملة الدقة. إنها فعالة في ضغط آثار الذاكرة ولكنها محدودة بشكل أساسي: فأنت لا تزال تجري عمليات حسابية على القيم التي تتصرف بشكل أساسي مثل أرقام الفاصلة العائمة. إنها تقلل من تكلفة الحجم؛ فهي لا تغير هندسة المشكلة.

ما تحتاجه الصناعة حقًا هو بنية نموذجية مصممة من الألف إلى الياء للحصول على تمثيل بأدنى قدر من الدقة - حيث تنتج عملية التدريب نفسها أوزانًا منفصلة بشكل طبيعي. وهذا هو بالضبط ما تقدمه BitNet.


الحل: BitNet b1.58 — بنية مصممة للأوزان الثلاثية

إن BitNet b1.58 ليس نسخة كمية لنموذج كامل الدقة. تم تدريبه من الصفر على مجموعة مكونة من 4 تريليون رمز مميز، مع استبدال جميع الطبقات الخطية بطبقة `BitLinear' مخصصة جديدة تفرض أوزانًا ثلاثية طوال عملية التدريب بأكملها. وهذا التمييز مهم للغاية: فالتكميم بعد التدريب يفقد دائمًا شيئًا ما في الترجمة. يضمن التدريب الأصلي بدقة 1.58 بت عدم حدوث تسرب دقيق.

الوزن الثلاثي: {-1، 0، +1}

يستخدم التكميم الأساسي مخطط absmean الذي يعين قيم وزن الفاصلة العائمة لمجموعة ثلاثية صحيحة موقعة أثناء كل تمريرة للأمام. يتم حساب عامل المقياس على أنه معكوس لمتوسط القيمة المطلقة عبر موتر الوزن:

مقياس_w = 1 / متوسط(|W_ij|)
W_quantized = المشبك (-1، 1) (دائري (W × مقياس_w))

القيمة الصفرية ليست ملائمة فحسب، بل إنها توفر تناثرًا مفيدًا. ما يقرب من 40-60٪ من الأوزان في النموذج المكمّم بهذه الطريقة تصل إلى الصفر أو بالقرب منه، مما يعني أن مضاعفات المصفوفة يمكن أن تتخطى مساحات كاملة من العمليات الحسابية. هذه هي نفس خدعة التناثر التي تدعم نماذج مزيج الخبراء - فيما عدا هنا، التناثر هو خاصية لمخطط التكميم، وليس خيار توجيه معماري متعمد.

BitLinear: لبنة البناء

يتم استبدال كل "torch.nn.Linear" في المحول بطبقة "BitLinear" مع ثلاثة تعديلات:

  • تكميم الوزن إلى الثلاثي {-1،0, +1} عبر absmean (أعلاه)
  • تكميم التنشيط إلى INT8 عبر absmax، المطبق لكل رمز مميز — يحافظ على تعيين الحد الأقصى للتنشيط المطلق لكل صف إلى 127، مما يحول عمليات تنشيط الرمز المميز بالكامل إلى نطاق INT8 دون فقدان المعلومات النسبية
  • SubLayerNorm (متغير مبسط من LayerNorm) تم وضعه قبل تكميم التنشيط من أجل استقرار التدريب في النظام الكمي

يقدم مسار التدريب مُقدِّرًا مباشرًا (STE) للتعامل مع الجولة () غير القابلة للتمييز في وظيفة التكميم - أثناء التمرير للخلف، يتم استبدال خطوة التقريب بهوية (فصل)، لذلك يتم التعامل مع التكميم بشكل فعال على أنه قابل للتمييز. بالاشتراك مع وظائف التنشيط "Squared ReLU" في طبقات التغذية الأمامية والتضمين الموضعي الدوار (RoPE)، تتقارب البنية بشكل ثابت عند مستوى الدقة الفائق هذا.

ماذا يعني "1.58 بت" فعليًا - ولماذا يتفوق على "1 بت"

هناك نقطة ارتباك شائعة: هل يعني "1.58 بت" 1 بت؟ ليس تماما. ترميز واحد يشفر log₂(3) ≈ 1.585 بت من المعلومات. شبكة مكونة من 1000 قطعة من هذا النوع تخزن حوالي 1585 بت من سعة المعلومات.

على النقيض من ذلك، يمكن للشبكة الثنائية الحقيقية ذات 1 بت أن تميز فقط بين {−1, +1} - لا صفر، لذلك لا يوجد تناثر، ولا توجد آليات تخطي فعالة. أظهر مؤلفو BitNet b1.58 أن إضافة الحالة الثالثة (صفر) يتفوق بشكل كبير على الأساليب الثنائية فقط دون تغيير تكلفة التخزين بشكل ملموس. تعتبر الـ ~0.58 بت الإضافية لكل وزن بمثابة صفقة للحصول على مكاسب الدقة والكفاءة التي تتيحها.


البدء: قم بتشغيل BitNet b1.58 على جهازك اليوم

يعمل BitNet b1.58 على وحدة المعالجة المركزية (x86 وARM)، مع إصدار نواة GPU في مايو 2025 ودعم NPU في خريطة الطريق. وإليك كيفية البدء.

تثبيت bitnet.cpp

إطار الاستدلال الرسمي هو microsoft/BitNet، وهو إطار عمل C++/Python مبني على أساس llama.cpp:

## استنساخ الريبو
استنساخ بوابة https://github.com/microsoft/BitNet.git
سي دي بيت نت

## تثبيت تبعيات بايثون
تثبيت النقطة -r متطلبات.txt

## تنزيل النموذج الموصى به (تكميم 2B، I2_S)
بايثون utils/prepare_model.py microsoft/BitNet-b1.58-2B-4T

تشغيل الاستدلال

## ابدأ الخادم
./build/bin/llama-server -mmodels/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \
  -ج 2048 --المواضيع 4

## إرسال الإكمال عبر واجهة برمجة التطبيقات (الافتراضي: http://localhost:8080)
حليقة http://localhost:8080/completion -H "نوع المحتوى: application/json" \
  -d '{"prompt": "شرح الحوسبة الكمومية في فقرة واحدة.", "n_predict": 256}'

على وحدة المعالجة المركزية للكمبيوتر المحمول الحديثة، من المفترض أن ترى الاستجابات بمئات الرموز المميزة في النطاق الثاني. في نموذج بمقاس 100 بايت - لا يزال وحدة معالجة مركزية واحدة - سترى ~5 t/s، وهو قابل للقراءة في الوقت الفعلي. وهذه النقطة الأخيرة لها آثار عميقة.

بديل عناق الوجه: اضبط وجهك بنفسك

إذا كنت ترغب في تحسين النماذج الحالية بدلاً من التدريب من الصفر، فقد نشر فريق Hugging Face خط أنابيب في سبتمبر 2024 يكيف أي LLM موجود بدقة 1.58 بت دون إعادة التدريب من الصفر. بمجرد تثبيت نقطة واحدة لأحدث "المحولات":

من المحولات استيراد AutoModelForCausalLM، AutoTokenizer
استيراد الشعلة

النموذج = AutoModelForCausalLM.from_pretrained(
    "HF1BitLLM/Llama3-8B-1.58-100B-الرموز"،
    خريطة_الجهاز = "كودا"،
    torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")

يعد هذا قابلاً للتوسيع وودودًا ومفيدًا على الفور لأي شخص يعمل بالفعل في نظام Hugging Face البيئي.


تحت الغطاء: لماذا تعتبر BitNet سريعة - ولماذا هي مهمة

كثافة الذاكرة القصوى

يبلغ وزن النموذج الذي يحتوي على 2 مليار معلمة و1.58 بت لكل معلمة حوالي 400 ميجابايت من أوزان النموذج — وهو ما يعادل ما تشغله صورة واحدة عالية الدقة. وهذا ليس مجرد فضول تقني؛ فهو يتيح سيناريوهات النشر التي كانت مستحيلة من قبل:

هدف النشرميزانية التخزينيناسب BitNet b1.58 2B؟
متصفح Rust + WebAssembly الثنائييقتصر على عدد قليل من ميغابايتشبه ملكة جمال. مرتبطة بكومة WASM
وظيفة التشغيل البارد بدون خادم (Lambda، Cloud Run)250 ميجا بايت مضغوطة✅ من المحتمل أن يتناسب مع الكود
بطاقة راسبيري باي 4 مايكرو اس دي32 جيجا بايت ميكرو إس دي✅ بشكل مريح
تحميل تطبيق الهاتفميزانيات حجم التطبيق✅ لا داعي للقلق

حساب الطاقة

أقوى رقم في ورقة BitNet موجود في جدول مقارنة استهلاك الطاقة لعمليات ضرب المصفوفات:

الدقةإضافة الطاقة (بيجو)MUL للطاقة (pJ)
FP160.160.34
INT80.0070.07

تستهلك مصفوفة INT8 المضاعفة تقريبًا 4.4% من الطاقة لمضاعف FP16 لعمليات الإضافة و~20.5% لعمليات الضرب. نظرًا لأن BitNet تستبدل عمليات الإضافة المضاعفة FP16 بعمليات إضافة INT8 - حيث تكون عملية الإضافة في حد ذاتها تافهة في الطاقة - فإن توفير الطاقة المركب عبر مليارات العمليات لكل تمريرة استدلال يضيف ما يصل إلى 71.9% إلى 82.2% من تخفيض الطاقة على x86 و 55.4% إلى 70.0% على ARM.

هذه ليست مجرد تجربة كمبيوتر محمول أسرع. يعد هذا تحولًا أساسيًا في فيزياء التكلفة لكل رمز لاستدلال الذكاء الاصطناعي، مع آثار مباشرة على البصمة البيئية لتشغيل دورات LLM على نطاق واسع.

كيف يحقق BitNet.cpp السرعة

تم بناء محرك الاستدلال BitNet.cpp على نواة محسّنة لجدول البحث (LUT) مستوحاة من T-MAC، وهو مشروع Microsoft يركز على تشغيل عمليات الموتر على وحدات التحكم الدقيقة Cortex-M:

  • عمليات تنفيذ kernel المتوازية التي تم إصدارها في يناير 2026 أضافت تجانبًا قابلاً للتكوين عبر الأنظمة الأساسية للأجهزة، مما يوفر سرعة إضافية تتراوح بين 1.15x و2.1x
  • عرض توضيحي لنموذج معلمة 2B: عرض توضيحي مباشر مستضاف بواسطة Azure (demo-bitnet-h0h8hcfqeqhrf5gf.canadacentral-01.azurewebsites.net) يقوم بتشغيل BitNet b1.58 3B على Apple M2، ويمكن لأي شخص الوصول إليه بدون إعداد
  • تخزين الوزن المعين بالذاكرة: نظرًا لأن الأوزان هي مجرد عمليات بحث من مجموعة صغيرة من قيم {-1، 0، +1}، فإن النواة تتجنب جدار الذاكرة الذي ابتليت به التصميمات التقليدية لتخزين الوزن

أدى إصدار نواة الاستدلال GPU لعام 2025 إلى توسيع القصة بشكل كبير. بينما يظل استنتاج وحدة المعالجة المركزية هو قصة الأداء الرئيسية، فإن نواة وحدة معالجة الرسومات تمكن من نشر نماذج BitNet b1.58 في سياقات تتطلب إنتاجية بدلاً من مجرد زمن انتقال أولي.


حيث تقف BitNet b1.58 في مواجهة النماذج التنافسية

كيف يعمل نموذج 2B ثلاثي الكمية بسعة 400 ميجابايت فعليًا؟ يقيس التقرير الفني لشهر أبريل 2025 معيار BitNet b1.58 2B4T مقابل نماذج الوزن المفتوح الأكثر تنافسية في نطاق المعلمات 1–3B:

المعياربيتنت b1.58 2B4TQwen2.5-1.5BSmolLM2-1.7Bفاي-3 ميني
إم إل يوتنافسية~55.2أقل~60.1
تحدي ARC⭐ الأعلى أداءتنافسيةأقل~75
جي إس إم 8 كيه⭐ الأعلى أداء~55أقلتنافسية
هيلا سواجتنافسية~75+~75+~80+
كومونسينسQA⭐ الأعلى أداءتنافسيةأقلتنافسية

BitNet b1.58 2B4T تتصدر في ARC-Challenge وGSM8K وCommonsenseQA — المجالات التي تتطلب تفكيرًا دقيقًا واسترجاع المعرفة العالمية — وتظل قادرة على المنافسة في مهام المنطق السليم والتفكير المنطقي.

والأمر الأكثر لفتًا للانتباه هو أنه يفعل ذلك أثناء استخدام مساحة ذاكرة أصغر ~4.5× من أقرب المنافسين. تعتبر مقارنة زمن الوصول الاستدلالي ملفتة للنظر بنفس القدر: ففي معايير المجتمع، سجلت زمن وصول يبلغ 29 مللي ثانية مقارنة بنطاق المنافسين الذي يتراوح بين 50 و200 مللي ثانية. كانت معظم النماذج التي تم اختبارها في نطاق المعلمات 1B-2B. كان BitNet b1.58 أسرع من جميع النواحي.

كما أكدت مناقشات المجتمع حول r/LocalLLaMA من Reddit هذه النتائج. قام أحد المقاييس على وجه التحديد بتشغيل نماذج 1 بت على ARM وx86 ووجد أن BitNet b1.58 هو أسرع نموذج 1 بت عبر الأنظمة الأساسية - على الرغم من أنهم لاحظوا أن المجال لا يزال في مرحلة النضج.


متقدم: أنماط نشر الإنتاج

بدون خادم على AWS Lambda

نشر موظف AWS [Manu Mishra] (https://manumishra.com/blog/deploy-microsoft-bitnet-llm-on-aws-lambda) برنامجًا تعليميًا كاملاً لتشغيل BitNet b1.58 على AWS Lambda كوظيفة حاوية. الوجبات الرئيسية من هذا النمط:

## البيئة الخاصة بـ Lambda - تمنع تعارض الخيوط
استيراد نظام التشغيل
os.environ['OMP_NUM_THREADS'] = '1'
os.environ['OMP_THREAD_LIMIT'] = '1'
os.environ['GGML_OPENMP'] = 'OFF'
os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'

يصل حجم صورة الحاوية إلى 1.1 غيغابايت تقريبًا، بما في ذلك جميع التبعيات — ضمن الحد المسموح به لـ Lambda وهو 250 ميغابايت مضغوطة / 10 غيغابايت غير مضغوطة — وتستخدم بنية Docker على مرحلتين لاستبعاد جميع عناصر البناء من الصورة النهائية. يؤدي هذا إلى تعيين نمط ملموس لـ BitNet بدون خادم في أي بيئة FaaS.

الذكاء الاصطناعي على الجهاز واستدلال الحافة

نظرًا لأن مسار الاستدلال الخاص بوحدة المعالجة المركزية (CPU) فقط لا يتطلب أي أجهزة متخصصة، فإن BitNet b1.58 يعد مرشحًا طبيعيًا لما يلي:

  • الذكاء الاصطناعي الموجود على الهاتف الذكي: حجم الطراز الذي يبلغ 400 ميجابايت صغير بما يكفي لتجميعه مسبقًا في التطبيقات
  • استدلال Raspberry Pi / SBC: يعمل بالكامل على أجهزة الكمبيوتر ذات اللوحة الواحدة ARM دون متطلبات وحدة معالجة الرسومات
  • المتصفح / WebAssembly: ملف طويل مثير للاهتمامإمكانية آر إم؛ BitNet.cpp هو C++ ويمكن تجميعه إلى WASM
  • وحدة تحكم IoT AI: ميزانية الطاقة الرمزية التي تصل إلى 0.028J تقريبًا لكل استدلال ومتطلبات تخزين صغيرة تجعل هذا أول خيار موثوق به من فئة LLM للأجهزة الطرفية التي تعمل بالبطارية

المقارنة والبدائل: موقع BitNet في النظام البيئي للتكميم

النهجالدقةالتدريب المطلوبعلى الجهازالمفاضلة الرئيسية
دقة كاملة (FP16)16 بتمن الصفرمحدودةأقصى قدر من الدقة، أقصى تكلفة
INT8 ما بعد التدريب8 بتما بعد الكمي فقطنعمفقدان دقة صغير، وفورات معتدلة
جبتق / أوق4 بتما بعد الكمي فقطنعمأفضل خيار بعد القطار؛ لا تزال محدودة
بيتنت b1.581.58 بتمن الصفر✅ نعمالتصميم الأصلي؛ أفضل الحدود الكفاءة
ثنائي (-1،+1 فقط)~1 بتمن الصفر✅ نعمدقة أسوأ. لا فوائد متفرقة

والفرق الرئيسي هو الأصل مقابل المعالجة اللاحقة: تم تصميم BitNet b1.58 وتدريبه على الأوزان الثلاثية. تطبق كل تقنية تكميم ما بعد التدريب فقدان الدقة على نموذج لم يتم تصميمه من أجله على الإطلاق. استوعبت BitNet b1.58 القيد من خطوة المحسن الأولى.

** البدائل في الفضاء: **

  • نماذج Neural Magic المتفرقة — تقليم الوزن + التكميم؛ أداء تنافسي للغاية، لكن النظام البيئي أقل نضجًا ويمكن أن يكون الترخيص مقيدًا
  • TinyLlama / SMS-1B — نماذج 1.1B مجردة من الطبقات؛ جيد لمشاريع الهوايات ولكن لا يحقق دقة قابلة للمقارنة
  • التقطير بأسلوب DistilBERT — يمكن أن يؤدي تقطير المعرفة إلى زيادة مكاسب 1.58 بت؛ البحث في هذا الاتجاه مستمر

الخاتمة والخطوات التالية

إن BitNet b1.58 ليس مجرد نتيجة ورقية أنيقة. إنه يتحدى الافتراضات الاقتصادية لما يكلفه تشغيل شهادة LLM - على الأجهزة، وعلى الطاقة، وفي الوقت المحدد. نموذج 2B، سعة 400 ميجابايت يمكنك تشغيله على كمبيوتر محمول بدون وحدة معالجة الرسومات، والذي يتفوق على المنافسين عدة مرات بحجمه في مهام التفكير، والذي حقق ذلك من خلال تعديل معماري نظيف (استبدال Linear بـ BitLinear والتدريب من الصفر) هو نتيجة تاريخية حقًا.

لا يتوقف Microsoft Research عند 2B. لقد ذكروا اتجاهات بحثية واضحة في المستقبل: متغيرات LLM أكبر بحجم 1 بت، وقدرات متعددة اللغات، وامتدادات متعددة الوسائط، ونوافذ سياقية أطول، و- ربما الأكثر إثارة - منطق الأجهزة المخصص للحسابات الثلاثية/الثلاثية، والتي يمكن أن تفتح قفزة في الكفاءة من الدرجة الثانية تتجاوز ما يمكن أن تقدمه معالجات x86 و ARM الحالية.

ما يمكنك فعله اليوم:

  • ⭐ نجمة الريبو: github.com/microsoft/BitNet
  • 🚀 تشغيل BitNet محليًا: استنساخ وإنشاء bitnet.cpp - يستغرق الأمر أقل من 10 دقائق على جهاز حديث
  • 🐳 جرب العرض التجريبي المباشر: demo-bitnet-h0h8hcfqeqhrf5gf.canadacentral-01.azurewebsites.net
  • 📚 اقرأ الورقة: عصر 1-بت LLMs والتقرير الفني لـ BitNet b1.58 2B4T
  • 🔬 الضبط الدقيق على Hugging Face: احصل على نموذج Llama 3 8B 1.58 بت من HF1BitLLM وقم بالتكرار

إن عصر LLMs ذو 1 بت ليس فضولًا هامشيًا. إنه هنا، وهو مفتوح المصدر، وربما يكون هذا هو الطريقة التي يتم بها تشغيل معظم الذكاء الاصطناعي خلال ثلاث إلى خمس سنوات. لم يعد السؤال هو ما إذا كانت برامج LLM ذات 1 بت تعمل أم لا، بل ما إذا كنت مستعدًا للبناء باستخدامها.

جدول المحتويات

  • ↗Table of Contents
  • ↗مقدمة
  • ↗المشكلة: ماجستير إدارة الأعمال باهظ الثمن للغاية بحيث لا يمكن توفيره في كل مكان
  • ↗الحل: BitNet b1.58 — بنية مصممة للأوزان الثلاثية
  • ↗الوزن الثلاثي: {-1، 0، +1}
  • ↗BitLinear: لبنة البناء
  • ↗ماذا يعني "1.58 بت" فعليًا - ولماذا يتفوق على "1 بت"
  • ↗البدء: قم بتشغيل BitNet b1.58 على جهازك اليوم
  • ↗تثبيت bitnet.cpp
  • ↗استنساخ الريبو
  • ↗تثبيت تبعيات بايثون
  • ↗تنزيل النموذج الموصى به (تكميم 2B، I2_S)
  • ↗تشغيل الاستدلال
  • ↗ابدأ الخادم
  • ↗إرسال الإكمال عبر واجهة برمجة التطبيقات (الافتراضي: http://localhost:8080)
  • ↗بديل عناق الوجه: اضبط وجهك بنفسك
  • ↗تحت الغطاء: لماذا تعتبر BitNet سريعة - ولماذا هي مهمة
  • ↗كثافة الذاكرة القصوى
  • ↗حساب الطاقة
  • ↗كيف يحقق BitNet.cpp السرعة
  • ↗حيث تقف BitNet b1.58 في مواجهة النماذج التنافسية
  • ↗متقدم: أنماط نشر الإنتاج
  • ↗بدون خادم على AWS Lambda
  • ↗البيئة الخاصة بـ Lambda - تمنع تعارض الخيوط
  • ↗الذكاء الاصطناعي على الجهاز واستدلال الحافة
  • ↗المقارنة والبدائل: موقع BitNet في النظام البيئي للتكميم
  • ↗الخاتمة والخطوات التالية

مقالات ذات صلة

يد روبوتية مستقبلية تلمس شبكة رقمية تمثل أنظمة الذكاء الاصطناعي متعددة العوامل

الأنظمة متعددة العوامل: اتجاه الذكاء الاصطناعي الذي يعيد تعريف العمليات المؤسسية في 2026

صنفت Gartner الأنظمة متعددة العوامل كاتجاه استراتيجي رئيسي لعام 2026. مع نمو بنسبة 327% في التبني المؤسسي وتوقعات بأن 15% من القرارات اليومية ستتخذ بشكل مستقل بحلول 2028، إليكم ما يحتاج المدراء التنفيذيون للتكنولوجيا معرفته.

Necolas HamwiNecolas Hamwi
22 يونيو 2026 - 8 دقائق للقراءة
OpenRouter Fusion API: ذكاء اصطناعي بمستوى Fable بنصف السعر (2026)

OpenRouter Fusion API: ذكاء اصطناعي بمستوى Fable بنصف السعر (2026)

مع تعليق Fable 5 من Anthropic بموجب توجيه حكومي أمريكي، يتسابق المطورون للبحث عن بدائل. نقدم OpenRouter Fusion — واجهة برمجة تطبيقات مركبة تجمع نماذج اللغة المتقدمة مع مُصنّع حكم، لتوفر أداءً قريبًا من Fable 5 بنصف التكلفة تقريبًا. إليكم كيف يعمل ومتى يجب استخدامه.

Necolas HamwiNecolas Hamwi
15 يونيو 2026 - 6 دقائق للقراءة
الذكاء الاصطناعي في التجارة الإلكترونية

الذكاء الاصطناعي في التجارة الإلكترونية: التطبيقات والتحديات وما هو التالي

يُحدث الذكاء الاصطناعي تحولاً جذرياً في التجارة الإلكترونية بوتيرة غير مسبوقة — من التوصيات المخصصة للغاية والبحث المدعوم بالذكاء الاصطناعي إلى التسعير الديناميكي وخدمة العملاء الآلية. يستكشف هذا الدليل الشامل تطبيقات الذكاء الاصطناعي الرئيسية التي تعيد تشكيل تجارة التجزئة عبر الإنترنت، والتحديات الحقيقية التي تواجهها الشركات أثناء التبني، وما يخبئه المستقبل للذكاء الاصطناعي في التجارة الإلكترونية.

Necolas HamwiNecolas Hamwi
14 يونيو 2026 - 14 دقائق للقراءة