تصور مظلم تجريدي لشبكة عصبية 1 بت مع تدفقات التعليمات البرمجية الثنائية ومجموعة الرموز الثلاثية {-1، 0، +1} متوهجة باللون السماوي الكهربائي والأرجواني العميق، مما يمثل بنية التكميم القصوى لـ BitNet b1.58 من Microsoft

BitNet b1.58: برنامج 1-Bit LLM من Microsoft الذي يقوم بتشغيل نموذج 100B على وحدة معالجة مركزية واحدة

مقدمة
المشكلة: ماجستير إدارة الأعمال باهظ الثمن للغاية بحيث لا يمكن توفيره في كل مكان
الحل: BitNet b1.58 — بنية مصممة للأوزان الثلاثية
البدء: قم بتشغيل BitNet b1.58 على جهازك اليوم
تحت الغطاء: لماذا تعتبر BitNet سريعة - ولماذا هي مهمة
حيث تقف BitNet b1.58 في مواجهة النماذج التنافسية
متقدم: أنماط نشر الإنتاج
- بدون خادم على AWS Lambda
- الذكاء الاصطناعي على الجهاز واستدلال الحافة
المقارنة والبدائل: موقع BitNet في النظام البيئي للتكميم
الخاتمة والخطوات التالية

مقدمة

!BitNet b1.58 performance benchmarks: 1-bit vs full precision across latency, memory, accuracy

في أبريل 2025، حطمت شركة Microsoft Research بهدوء واحدة من أطول افتراضات الذكاء الاصطناعي: وهي أنه للحصول على أداء جيد من نموذج لغة كبير، فإنك تحتاج إلى أوزان الفاصلة العائمة كاملة الدقة. أطلقوا BitNet b1.58 2B4T، وهو أول نموذج لغة كبير مفتوح المصدر تم تدريبه من الصفر باستخدام الأوزان الثلاثية فقط - قيم {-1، 0، +1} - وقدم نتائج تتطابق مع النماذج 10× الأكبر أو تتفوق عليها في معظم المعايير.

الاسم "1.58 بت" يأتي من فكرة بسيطة من نظرية المعلومات: تمثيل ثلاث حالات متميزة يتطلب log₂(3) ≈ 1.58 بت. ومن خلال تقييد كل معلمة على تلك القيم الثلاث، تحقق BitNet الحد النظري لما يمكن لنظام الوزن ثلاثي الحالات تشفيره. إن التصنيف "b1.58" ليس وسيلة للتحايل التسويقي - فهو دقيق وقابل للقياس ومثالي للتكميم الثلاثي.

الأرقام مذهلة. نموذج يحتوي على 2 مليار معلمة يناسب أقل من 700 ميجابايت من مساحة القرص. نموذج مكون من 100 مليار معلمة يعمل بسرعة 5–7 رموز مميزة في الثانية على وحدة معالجة مركزية واحدة — وهي سرعة قراءة بشرية تقريبية. زيادة في كفاءة استخدام الطاقة تصل إلى 82.2% على وحدات المعالجة المركزية (CPUs) x86 مقارنة بالخطوط الأساسية ذات الدقة الكاملة. هذا ليس تحسينًا تدريجيًا. هذه نقطة جديدة على حدود باريتو.

في هذه المقالة، نوضح كيفية عمل BitNet تحت الغطاء، حيث تقف في مواجهة النماذج التنافسية مثل Qwen2.5 وGemma وSmolLM2، وكيف يمكنك تشغيلها محليًا اليوم، وما يخبئه المستقبل للذكاء الاصطناعي تحت 1 بت.

المشكلة: ماجستير إدارة الأعمال باهظ الثمن للغاية بحيث لا يمكن توفيره في كل مكان

لفهم سبب أهمية BitNet، عليك أن تبدأ بحقيقة صعبة: تُعد برامج LLM المفتوحة والمتطورة غير عملية بالنسبة لمعظم سيناريوهات النشر في العالم الحقيقي.

الأرقام تحكي القصة. يتطلب تشغيل نموذج مكون من 7 مليارات معلمة بدقة كاملة حوالي 14 جيجابايت من VRAM للاستدلال. قم بتكميمها إلى 4 بت وما زلت بحاجة إلى ما يقرب من 4 جيجابايت. وفي كلتا الحالتين، يتم إغلاق معظم أجهزة الكمبيوتر المحمولة الاستهلاكية والأجهزة الطرفية والخوادم الصغيرة. حتى خوادم الاستدلال المتواضعة تكلف مئات الدولارات شهريًا في ساعات GPU. بالنسبة لشركة ناشئة تقوم ببناء برنامج دردشة آلي، أو فريق ينشر مساعد معرفة داخلي، أو مطور يجري تجارب على جهاز كمبيوتر محمول - قد تكون جودة النموذج موجودة، ولكن البنية التحتية ليست كذلك.

تم تصميم طرق التكميم الحالية - INT4، وINT8، وGPTQ، وAWQ - كخطوات ما بعد التدريب المطبقة على نماذج كاملة الدقة. إنها فعالة في ضغط آثار الذاكرة ولكنها محدودة بشكل أساسي: فأنت لا تزال تجري عمليات حسابية على القيم التي تتصرف بشكل أساسي مثل أرقام الفاصلة العائمة. إنها تقلل من تكلفة الحجم؛ فهي لا تغير هندسة المشكلة.

ما تحتاجه الصناعة حقًا هو بنية نموذجية مصممة من الألف إلى الياء للحصول على تمثيل بأدنى قدر من الدقة - حيث تنتج عملية التدريب نفسها أوزانًا منفصلة بشكل طبيعي. وهذا هو بالضبط ما تقدمه BitNet.

الحل: BitNet b1.58 — بنية مصممة للأوزان الثلاثية

إن BitNet b1.58 ليس نسخة كمية لنموذج كامل الدقة. تم تدريبه من الصفر على مجموعة مكونة من 4 تريليون رمز مميز، مع استبدال جميع الطبقات الخطية بطبقة `BitLinear' مخصصة جديدة تفرض أوزانًا ثلاثية طوال عملية التدريب بأكملها. وهذا التمييز مهم للغاية: فالتكميم بعد التدريب يفقد دائمًا شيئًا ما في الترجمة. يضمن التدريب الأصلي بدقة 1.58 بت عدم حدوث تسرب دقيق.

الوزن الثلاثي: {-1، 0، +1}

يستخدم التكميم الأساسي مخطط absmean الذي يعين قيم وزن الفاصلة العائمة لمجموعة ثلاثية صحيحة موقعة أثناء كل تمريرة للأمام. يتم حساب عامل المقياس على أنه معكوس لمتوسط القيمة المطلقة عبر موتر الوزن:

مقياس_w = 1 / متوسط(|W_ij|)
W_quantized = المشبك (-1، 1) (دائري (W × مقياس_w))

القيمة الصفرية ليست ملائمة فحسب، بل إنها توفر تناثرًا مفيدًا. ما يقرب من 40-60٪ من الأوزان في النموذج المكمّم بهذه الطريقة تصل إلى الصفر أو بالقرب منه، مما يعني أن مضاعفات المصفوفة يمكن أن تتخطى مساحات كاملة من العمليات الحسابية. هذه هي نفس خدعة التناثر التي تدعم نماذج مزيج الخبراء - فيما عدا هنا، التناثر هو خاصية لمخطط التكميم، وليس خيار توجيه معماري متعمد.

BitLinear: لبنة البناء

يتم استبدال كل "torch.nn.Linear" في المحول بطبقة "BitLinear" مع ثلاثة تعديلات:

تكميم الوزن إلى الثلاثي {-1،0, +1} عبر absmean (أعلاه)
تكميم التنشيط إلى INT8 عبر absmax، المطبق لكل رمز مميز — يحافظ على تعيين الحد الأقصى للتنشيط المطلق لكل صف إلى 127، مما يحول عمليات تنشيط الرمز المميز بالكامل إلى نطاق INT8 دون فقدان المعلومات النسبية
SubLayerNorm (متغير مبسط من LayerNorm) تم وضعه قبل تكميم التنشيط من أجل استقرار التدريب في النظام الكمي

يقدم مسار التدريب مُقدِّرًا مباشرًا (STE) للتعامل مع الجولة () غير القابلة للتمييز في وظيفة التكميم - أثناء التمرير للخلف، يتم استبدال خطوة التقريب بهوية (فصل)، لذلك يتم التعامل مع التكميم بشكل فعال على أنه قابل للتمييز. بالاشتراك مع وظائف التنشيط "Squared ReLU" في طبقات التغذية الأمامية والتضمين الموضعي الدوار (RoPE)، تتقارب البنية بشكل ثابت عند مستوى الدقة الفائق هذا.

ماذا يعني "1.58 بت" فعليًا - ولماذا يتفوق على "1 بت"

هناك نقطة ارتباك شائعة: هل يعني "1.58 بت" 1 بت؟ ليس تماما. ترميز واحد يشفر log₂(3) ≈ 1.585 بت من المعلومات. شبكة مكونة من 1000 قطعة من هذا النوع تخزن حوالي 1585 بت من سعة المعلومات.

على النقيض من ذلك، يمكن للشبكة الثنائية الحقيقية ذات 1 بت أن تميز فقط بين {−1, +1} - لا صفر، لذلك لا يوجد تناثر، ولا توجد آليات تخطي فعالة. أظهر مؤلفو BitNet b1.58 أن إضافة الحالة الثالثة (صفر) يتفوق بشكل كبير على الأساليب الثنائية فقط دون تغيير تكلفة التخزين بشكل ملموس. تعتبر الـ ~0.58 بت الإضافية لكل وزن بمثابة صفقة للحصول على مكاسب الدقة والكفاءة التي تتيحها.

البدء: قم بتشغيل BitNet b1.58 على جهازك اليوم

يعمل BitNet b1.58 على وحدة المعالجة المركزية (x86 وARM)، مع إصدار نواة GPU في مايو 2025 ودعم NPU في خريطة الطريق. وإليك كيفية البدء.

تثبيت bitnet.cpp

إطار الاستدلال الرسمي هو microsoft/BitNet، وهو إطار عمل C++/Python مبني على أساس llama.cpp:

## استنساخ الريبو
استنساخ بوابة https://github.com/microsoft/BitNet.git
سي دي بيت نت

## تثبيت تبعيات بايثون
تثبيت النقطة -r متطلبات.txt

## تنزيل النموذج الموصى به (تكميم 2B، I2_S)
بايثون utils/prepare_model.py microsoft/BitNet-b1.58-2B-4T

تشغيل الاستدلال

## ابدأ الخادم
./build/bin/llama-server -mmodels/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \
  -ج 2048 --المواضيع 4

## إرسال الإكمال عبر واجهة برمجة التطبيقات (الافتراضي: http://localhost:8080)
حليقة http://localhost:8080/completion -H "نوع المحتوى: application/json" \
  -d '{"prompt": "شرح الحوسبة الكمومية في فقرة واحدة.", "n_predict": 256}'

على وحدة المعالجة المركزية للكمبيوتر المحمول الحديثة، من المفترض أن ترى الاستجابات بمئات الرموز المميزة في النطاق الثاني. في نموذج بمقاس 100 بايت - لا يزال وحدة معالجة مركزية واحدة - سترى ~5 t/s، وهو قابل للقراءة في الوقت الفعلي. وهذه النقطة الأخيرة لها آثار عميقة.

بديل عناق الوجه: اضبط وجهك بنفسك

إذا كنت ترغب في تحسين النماذج الحالية بدلاً من التدريب من الصفر، فقد نشر فريق Hugging Face خط أنابيب في سبتمبر 2024 يكيف أي LLM موجود بدقة 1.58 بت دون إعادة التدريب من الصفر. بمجرد تثبيت نقطة واحدة لأحدث "المحولات":

من المحولات استيراد AutoModelForCausalLM، AutoTokenizer
استيراد الشعلة

النموذج = AutoModelForCausalLM.from_pretrained(
    "HF1BitLLM/Llama3-8B-1.58-100B-الرموز"،
    خريطة_الجهاز = "كودا"،
    torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")

يعد هذا قابلاً للتوسيع وودودًا ومفيدًا على الفور لأي شخص يعمل بالفعل في نظام Hugging Face البيئي.

تحت الغطاء: لماذا تعتبر BitNet سريعة - ولماذا هي مهمة

كثافة الذاكرة القصوى

يبلغ وزن النموذج الذي يحتوي على 2 مليار معلمة و1.58 بت لكل معلمة حوالي 400 ميجابايت من أوزان النموذج — وهو ما يعادل ما تشغله صورة واحدة عالية الدقة. وهذا ليس مجرد فضول تقني؛ فهو يتيح سيناريوهات النشر التي كانت مستحيلة من قبل:

هدف النشر	ميزانية التخزين	يناسب BitNet b1.58 2B؟
متصفح Rust + WebAssembly الثنائي	يقتصر على عدد قليل من ميغابايت	شبه ملكة جمال. مرتبطة بكومة WASM
وظيفة التشغيل البارد بدون خادم (Lambda، Cloud Run)	250 ميجا بايت مضغوطة	✅ من المحتمل أن يتناسب مع الكود
بطاقة راسبيري باي 4 مايكرو اس دي	32 جيجا بايت ميكرو إس دي	✅ بشكل مريح
تحميل تطبيق الهاتف	ميزانيات حجم التطبيق	✅ لا داعي للقلق

حساب الطاقة

أقوى رقم في ورقة BitNet موجود في جدول مقارنة استهلاك الطاقة لعمليات ضرب المصفوفات:

الدقة	إضافة الطاقة (بيجو)	MUL للطاقة (pJ)
FP16	0.16	0.34
INT8	0.007	0.07

تستهلك مصفوفة INT8 المضاعفة تقريبًا 4.4% من الطاقة لمضاعف FP16 لعمليات الإضافة و~20.5% لعمليات الضرب. نظرًا لأن BitNet تستبدل عمليات الإضافة المضاعفة FP16 بعمليات إضافة INT8 - حيث تكون عملية الإضافة في حد ذاتها تافهة في الطاقة - فإن توفير الطاقة المركب عبر مليارات العمليات لكل تمريرة استدلال يضيف ما يصل إلى 71.9% إلى 82.2% من تخفيض الطاقة على x86 و 55.4% إلى 70.0% على ARM.

هذه ليست مجرد تجربة كمبيوتر محمول أسرع. يعد هذا تحولًا أساسيًا في فيزياء التكلفة لكل رمز لاستدلال الذكاء الاصطناعي، مع آثار مباشرة على البصمة البيئية لتشغيل دورات LLM على نطاق واسع.

كيف يحقق BitNet.cpp السرعة

تم بناء محرك الاستدلال BitNet.cpp على نواة محسّنة لجدول البحث (LUT) مستوحاة من T-MAC، وهو مشروع Microsoft يركز على تشغيل عمليات الموتر على وحدات التحكم الدقيقة Cortex-M:

عمليات تنفيذ kernel المتوازية التي تم إصدارها في يناير 2026 أضافت تجانبًا قابلاً للتكوين عبر الأنظمة الأساسية للأجهزة، مما يوفر سرعة إضافية تتراوح بين 1.15x و2.1x
عرض توضيحي لنموذج معلمة 2B: عرض توضيحي مباشر مستضاف بواسطة Azure (demo-bitnet-h0h8hcfqeqhrf5gf.canadacentral-01.azurewebsites.net) يقوم بتشغيل BitNet b1.58 3B على Apple M2، ويمكن لأي شخص الوصول إليه بدون إعداد
تخزين الوزن المعين بالذاكرة: نظرًا لأن الأوزان هي مجرد عمليات بحث من مجموعة صغيرة من قيم {-1، 0، +1}، فإن النواة تتجنب جدار الذاكرة الذي ابتليت به التصميمات التقليدية لتخزين الوزن

أدى إصدار نواة الاستدلال GPU لعام 2025 إلى توسيع القصة بشكل كبير. بينما يظل استنتاج وحدة المعالجة المركزية هو قصة الأداء الرئيسية، فإن نواة وحدة معالجة الرسومات تمكن من نشر نماذج BitNet b1.58 في سياقات تتطلب إنتاجية بدلاً من مجرد زمن انتقال أولي.

حيث تقف BitNet b1.58 في مواجهة النماذج التنافسية

كيف يعمل نموذج 2B ثلاثي الكمية بسعة 400 ميجابايت فعليًا؟ يقيس التقرير الفني لشهر أبريل 2025 معيار BitNet b1.58 2B4T مقابل نماذج الوزن المفتوح الأكثر تنافسية في نطاق المعلمات 1–3B:

المعيار	بيتنت b1.58 2B4T	Qwen2.5-1.5B	SmolLM2-1.7B	فاي-3 ميني
إم إل يو	تنافسية	~55.2	أقل	~60.1
تحدي ARC	⭐ الأعلى أداء	تنافسية	أقل	~75
جي إس إم 8 كيه	⭐ الأعلى أداء	~55	أقل	تنافسية
هيلا سواج	تنافسية	~75+	~75+	~80+
كومونسينسQA	⭐ الأعلى أداء	تنافسية	أقل	تنافسية

BitNet b1.58 2B4T تتصدر في ARC-Challenge وGSM8K وCommonsenseQA — المجالات التي تتطلب تفكيرًا دقيقًا واسترجاع المعرفة العالمية — وتظل قادرة على المنافسة في مهام المنطق السليم والتفكير المنطقي.

والأمر الأكثر لفتًا للانتباه هو أنه يفعل ذلك أثناء استخدام مساحة ذاكرة أصغر ~4.5× من أقرب المنافسين. تعتبر مقارنة زمن الوصول الاستدلالي ملفتة للنظر بنفس القدر: ففي معايير المجتمع، سجلت زمن وصول يبلغ 29 مللي ثانية مقارنة بنطاق المنافسين الذي يتراوح بين 50 و200 مللي ثانية. كانت معظم النماذج التي تم اختبارها في نطاق المعلمات 1B-2B. كان BitNet b1.58 أسرع من جميع النواحي.

كما أكدت مناقشات المجتمع حول r/LocalLLaMA من Reddit هذه النتائج. قام أحد المقاييس على وجه التحديد بتشغيل نماذج 1 بت على ARM وx86 ووجد أن BitNet b1.58 هو أسرع نموذج 1 بت عبر الأنظمة الأساسية - على الرغم من أنهم لاحظوا أن المجال لا يزال في مرحلة النضج.

متقدم: أنماط نشر الإنتاج

بدون خادم على AWS Lambda

نشر موظف AWS [Manu Mishra] (https://manumishra.com/blog/deploy-microsoft-bitnet-llm-on-aws-lambda) برنامجًا تعليميًا كاملاً لتشغيل BitNet b1.58 على AWS Lambda كوظيفة حاوية. الوجبات الرئيسية من هذا النمط:

## البيئة الخاصة بـ Lambda - تمنع تعارض الخيوط
استيراد نظام التشغيل
os.environ['OMP_NUM_THREADS'] = '1'
os.environ['OMP_THREAD_LIMIT'] = '1'
os.environ['GGML_OPENMP'] = 'OFF'
os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'

يصل حجم صورة الحاوية إلى 1.1 غيغابايت تقريبًا، بما في ذلك جميع التبعيات — ضمن الحد المسموح به لـ Lambda وهو 250 ميغابايت مضغوطة / 10 غيغابايت غير مضغوطة — وتستخدم بنية Docker على مرحلتين لاستبعاد جميع عناصر البناء من الصورة النهائية. يؤدي هذا إلى تعيين نمط ملموس لـ BitNet بدون خادم في أي بيئة FaaS.

الذكاء الاصطناعي على الجهاز واستدلال الحافة

نظرًا لأن مسار الاستدلال الخاص بوحدة المعالجة المركزية (CPU) فقط لا يتطلب أي أجهزة متخصصة، فإن BitNet b1.58 يعد مرشحًا طبيعيًا لما يلي:

الذكاء الاصطناعي الموجود على الهاتف الذكي: حجم الطراز الذي يبلغ 400 ميجابايت صغير بما يكفي لتجميعه مسبقًا في التطبيقات
استدلال Raspberry Pi / SBC: يعمل بالكامل على أجهزة الكمبيوتر ذات اللوحة الواحدة ARM دون متطلبات وحدة معالجة الرسومات
المتصفح / WebAssembly: ملف طويل مثير للاهتمامإمكانية آر إم؛ BitNet.cpp هو C++ ويمكن تجميعه إلى WASM
وحدة تحكم IoT AI: ميزانية الطاقة الرمزية التي تصل إلى 0.028J تقريبًا لكل استدلال ومتطلبات تخزين صغيرة تجعل هذا أول خيار موثوق به من فئة LLM للأجهزة الطرفية التي تعمل بالبطارية

المقارنة والبدائل: موقع BitNet في النظام البيئي للتكميم

النهج	الدقة	التدريب المطلوب	على الجهاز	المفاضلة الرئيسية
دقة كاملة (FP16)	16 بت	من الصفر	محدودة	أقصى قدر من الدقة، أقصى تكلفة
INT8 ما بعد التدريب	8 بت	ما بعد الكمي فقط	نعم	فقدان دقة صغير، وفورات معتدلة
جبتق / أوق	4 بت	ما بعد الكمي فقط	نعم	أفضل خيار بعد القطار؛ لا تزال محدودة
بيتنت b1.58	1.58 بت	من الصفر	✅ نعم	التصميم الأصلي؛ أفضل الحدود الكفاءة
ثنائي (-1،+1 فقط)	~1 بت	من الصفر	✅ نعم	دقة أسوأ. لا فوائد متفرقة

والفرق الرئيسي هو الأصل مقابل المعالجة اللاحقة: تم تصميم BitNet b1.58 وتدريبه على الأوزان الثلاثية. تطبق كل تقنية تكميم ما بعد التدريب فقدان الدقة على نموذج لم يتم تصميمه من أجله على الإطلاق. استوعبت BitNet b1.58 القيد من خطوة المحسن الأولى.

** البدائل في الفضاء: **

نماذج Neural Magic المتفرقة — تقليم الوزن + التكميم؛ أداء تنافسي للغاية، لكن النظام البيئي أقل نضجًا ويمكن أن يكون الترخيص مقيدًا
TinyLlama / SMS-1B — نماذج 1.1B مجردة من الطبقات؛ جيد لمشاريع الهوايات ولكن لا يحقق دقة قابلة للمقارنة
التقطير بأسلوب DistilBERT — يمكن أن يؤدي تقطير المعرفة إلى زيادة مكاسب 1.58 بت؛ البحث في هذا الاتجاه مستمر

الخاتمة والخطوات التالية

إن BitNet b1.58 ليس مجرد نتيجة ورقية أنيقة. إنه يتحدى الافتراضات الاقتصادية لما يكلفه تشغيل شهادة LLM - على الأجهزة، وعلى الطاقة، وفي الوقت المحدد. نموذج 2B، سعة 400 ميجابايت يمكنك تشغيله على كمبيوتر محمول بدون وحدة معالجة الرسومات، والذي يتفوق على المنافسين عدة مرات بحجمه في مهام التفكير، والذي حقق ذلك من خلال تعديل معماري نظيف (استبدال Linear بـ BitLinear والتدريب من الصفر) هو نتيجة تاريخية حقًا.

لا يتوقف Microsoft Research عند 2B. لقد ذكروا اتجاهات بحثية واضحة في المستقبل: متغيرات LLM أكبر بحجم 1 بت، وقدرات متعددة اللغات، وامتدادات متعددة الوسائط، ونوافذ سياقية أطول، و- ربما الأكثر إثارة - منطق الأجهزة المخصص للحسابات الثلاثية/الثلاثية، والتي يمكن أن تفتح قفزة في الكفاءة من الدرجة الثانية تتجاوز ما يمكن أن تقدمه معالجات x86 و ARM الحالية.

ما يمكنك فعله اليوم:

⭐ نجمة الريبو: github.com/microsoft/BitNet
🚀 تشغيل BitNet محليًا: استنساخ وإنشاء bitnet.cpp - يستغرق الأمر أقل من 10 دقائق على جهاز حديث
🐳 جرب العرض التجريبي المباشر: demo-bitnet-h0h8hcfqeqhrf5gf.canadacentral-01.azurewebsites.net
📚 اقرأ الورقة: عصر 1-بت LLMs والتقرير الفني لـ BitNet b1.58 2B4T
🔬 الضبط الدقيق على Hugging Face: احصل على نموذج Llama 3 8B 1.58 بت من HF1BitLLM وقم بالتكرار

إن عصر LLMs ذو 1 بت ليس فضولًا هامشيًا. إنه هنا، وهو مفتوح المصدر، وربما يكون هذا هو الطريقة التي يتم بها تشغيل معظم الذكاء الاصطناعي خلال ثلاث إلى خمس سنوات. لم يعد السؤال هو ما إذا كانت برامج LLM ذات 1 بت تعمل أم لا، بل ما إذا كنت مستعدًا للبناء باستخدامها.

BitNet b1.58: برنامج 1-Bit LLM من Microsoft الذي يقوم بتشغيل نموذج 100B على وحدة معالجة مركزية واحدة

مقدمة
المشكلة: ماجستير إدارة الأعمال باهظ الثمن للغاية بحيث لا يمكن توفيره في كل مكان
الحل: BitNet b1.58 — بنية مصممة للأوزان الثلاثية
البدء: قم بتشغيل BitNet b1.58 على جهازك اليوم
تحت الغطاء: لماذا تعتبر BitNet سريعة - ولماذا هي مهمة
حيث تقف BitNet b1.58 في مواجهة النماذج التنافسية
متقدم: أنماط نشر الإنتاج
- بدون خادم على AWS Lambda
- الذكاء الاصطناعي على الجهاز واستدلال الحافة
المقارنة والبدائل: موقع BitNet في النظام البيئي للتكميم
الخاتمة والخطوات التالية

مقدمة

!BitNet b1.58 performance benchmarks: 1-bit vs full precision across latency, memory, accuracy

المشكلة: ماجستير إدارة الأعمال باهظ الثمن للغاية بحيث لا يمكن توفيره في كل مكان

الحل: BitNet b1.58 — بنية مصممة للأوزان الثلاثية

الوزن الثلاثي: {-1، 0، +1}

مقياس_w = 1 / متوسط(|W_ij|)
W_quantized = المشبك (-1، 1) (دائري (W × مقياس_w))

BitLinear: لبنة البناء

يتم استبدال كل "torch.nn.Linear" في المحول بطبقة "BitLinear" مع ثلاثة تعديلات:

تكميم الوزن إلى الثلاثي {-1،0, +1} عبر absmean (أعلاه)
تكميم التنشيط إلى INT8 عبر absmax، المطبق لكل رمز مميز — يحافظ على تعيين الحد الأقصى للتنشيط المطلق لكل صف إلى 127، مما يحول عمليات تنشيط الرمز المميز بالكامل إلى نطاق INT8 دون فقدان المعلومات النسبية
SubLayerNorm (متغير مبسط من LayerNorm) تم وضعه قبل تكميم التنشيط من أجل استقرار التدريب في النظام الكمي

ماذا يعني "1.58 بت" فعليًا - ولماذا يتفوق على "1 بت"

البدء: قم بتشغيل BitNet b1.58 على جهازك اليوم

تثبيت bitnet.cpp

إطار الاستدلال الرسمي هو microsoft/BitNet، وهو إطار عمل C++/Python مبني على أساس llama.cpp:

## استنساخ الريبو
استنساخ بوابة https://github.com/microsoft/BitNet.git
سي دي بيت نت

## تثبيت تبعيات بايثون
تثبيت النقطة -r متطلبات.txt

## تنزيل النموذج الموصى به (تكميم 2B، I2_S)
بايثون utils/prepare_model.py microsoft/BitNet-b1.58-2B-4T

تشغيل الاستدلال

## ابدأ الخادم
./build/bin/llama-server -mmodels/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \
  -ج 2048 --المواضيع 4

## إرسال الإكمال عبر واجهة برمجة التطبيقات (الافتراضي: http://localhost:8080)
حليقة http://localhost:8080/completion -H "نوع المحتوى: application/json" \
  -d '{"prompt": "شرح الحوسبة الكمومية في فقرة واحدة.", "n_predict": 256}'

بديل عناق الوجه: اضبط وجهك بنفسك

من المحولات استيراد AutoModelForCausalLM، AutoTokenizer
استيراد الشعلة

النموذج = AutoModelForCausalLM.from_pretrained(
    "HF1BitLLM/Llama3-8B-1.58-100B-الرموز"،
    خريطة_الجهاز = "كودا"،
    torch_dtype=torch.bfloat16,
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")

يعد هذا قابلاً للتوسيع وودودًا ومفيدًا على الفور لأي شخص يعمل بالفعل في نظام Hugging Face البيئي.

تحت الغطاء: لماذا تعتبر BitNet سريعة - ولماذا هي مهمة

كثافة الذاكرة القصوى

هدف النشر	ميزانية التخزين	يناسب BitNet b1.58 2B؟
متصفح Rust + WebAssembly الثنائي	يقتصر على عدد قليل من ميغابايت	شبه ملكة جمال. مرتبطة بكومة WASM
وظيفة التشغيل البارد بدون خادم (Lambda، Cloud Run)	250 ميجا بايت مضغوطة	✅ من المحتمل أن يتناسب مع الكود
بطاقة راسبيري باي 4 مايكرو اس دي	32 جيجا بايت ميكرو إس دي	✅ بشكل مريح
تحميل تطبيق الهاتف	ميزانيات حجم التطبيق	✅ لا داعي للقلق

حساب الطاقة

أقوى رقم في ورقة BitNet موجود في جدول مقارنة استهلاك الطاقة لعمليات ضرب المصفوفات:

الدقة	إضافة الطاقة (بيجو)	MUL للطاقة (pJ)
FP16	0.16	0.34
INT8	0.007	0.07

كيف يحقق BitNet.cpp السرعة

عمليات تنفيذ kernel المتوازية التي تم إصدارها في يناير 2026 أضافت تجانبًا قابلاً للتكوين عبر الأنظمة الأساسية للأجهزة، مما يوفر سرعة إضافية تتراوح بين 1.15x و2.1x
عرض توضيحي لنموذج معلمة 2B: عرض توضيحي مباشر مستضاف بواسطة Azure (demo-bitnet-h0h8hcfqeqhrf5gf.canadacentral-01.azurewebsites.net) يقوم بتشغيل BitNet b1.58 3B على Apple M2، ويمكن لأي شخص الوصول إليه بدون إعداد
تخزين الوزن المعين بالذاكرة: نظرًا لأن الأوزان هي مجرد عمليات بحث من مجموعة صغيرة من قيم {-1، 0، +1}، فإن النواة تتجنب جدار الذاكرة الذي ابتليت به التصميمات التقليدية لتخزين الوزن

حيث تقف BitNet b1.58 في مواجهة النماذج التنافسية

المعيار	بيتنت b1.58 2B4T	Qwen2.5-1.5B	SmolLM2-1.7B	فاي-3 ميني
إم إل يو	تنافسية	~55.2	أقل	~60.1
تحدي ARC	⭐ الأعلى أداء	تنافسية	أقل	~75
جي إس إم 8 كيه	⭐ الأعلى أداء	~55	أقل	تنافسية
هيلا سواج	تنافسية	~75+	~75+	~80+
كومونسينسQA	⭐ الأعلى أداء	تنافسية	أقل	تنافسية

متقدم: أنماط نشر الإنتاج

بدون خادم على AWS Lambda

## البيئة الخاصة بـ Lambda - تمنع تعارض الخيوط
استيراد نظام التشغيل
os.environ['OMP_NUM_THREADS'] = '1'
os.environ['OMP_THREAD_LIMIT'] = '1'
os.environ['GGML_OPENMP'] = 'OFF'
os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'

الذكاء الاصطناعي على الجهاز واستدلال الحافة

الذكاء الاصطناعي الموجود على الهاتف الذكي: حجم الطراز الذي يبلغ 400 ميجابايت صغير بما يكفي لتجميعه مسبقًا في التطبيقات
استدلال Raspberry Pi / SBC: يعمل بالكامل على أجهزة الكمبيوتر ذات اللوحة الواحدة ARM دون متطلبات وحدة معالجة الرسومات
المتصفح / WebAssembly: ملف طويل مثير للاهتمامإمكانية آر إم؛ BitNet.cpp هو C++ ويمكن تجميعه إلى WASM
وحدة تحكم IoT AI: ميزانية الطاقة الرمزية التي تصل إلى 0.028J تقريبًا لكل استدلال ومتطلبات تخزين صغيرة تجعل هذا أول خيار موثوق به من فئة LLM للأجهزة الطرفية التي تعمل بالبطارية

المقارنة والبدائل: موقع BitNet في النظام البيئي للتكميم

النهج	الدقة	التدريب المطلوب	على الجهاز	المفاضلة الرئيسية
دقة كاملة (FP16)	16 بت	من الصفر	محدودة	أقصى قدر من الدقة، أقصى تكلفة
INT8 ما بعد التدريب	8 بت	ما بعد الكمي فقط	نعم	فقدان دقة صغير، وفورات معتدلة
جبتق / أوق	4 بت	ما بعد الكمي فقط	نعم	أفضل خيار بعد القطار؛ لا تزال محدودة
بيتنت b1.58	1.58 بت	من الصفر	✅ نعم	التصميم الأصلي؛ أفضل الحدود الكفاءة
ثنائي (-1،+1 فقط)	~1 بت	من الصفر	✅ نعم	دقة أسوأ. لا فوائد متفرقة

** البدائل في الفضاء: **

نماذج Neural Magic المتفرقة — تقليم الوزن + التكميم؛ أداء تنافسي للغاية، لكن النظام البيئي أقل نضجًا ويمكن أن يكون الترخيص مقيدًا
TinyLlama / SMS-1B — نماذج 1.1B مجردة من الطبقات؛ جيد لمشاريع الهوايات ولكن لا يحقق دقة قابلة للمقارنة
التقطير بأسلوب DistilBERT — يمكن أن يؤدي تقطير المعرفة إلى زيادة مكاسب 1.58 بت؛ البحث في هذا الاتجاه مستمر

الخاتمة والخطوات التالية

ما يمكنك فعله اليوم:

⭐ نجمة الريبو: github.com/microsoft/BitNet
🚀 تشغيل BitNet محليًا: استنساخ وإنشاء bitnet.cpp - يستغرق الأمر أقل من 10 دقائق على جهاز حديث
🐳 جرب العرض التجريبي المباشر: demo-bitnet-h0h8hcfqeqhrf5gf.canadacentral-01.azurewebsites.net
📚 اقرأ الورقة: عصر 1-بت LLMs والتقرير الفني لـ BitNet b1.58 2B4T
🔬 الضبط الدقيق على Hugging Face: احصل على نموذج Llama 3 8B 1.58 بت من HF1BitLLM وقم بالتكرار

أهم النقاط

BitNet b1.58: برنامج 1-Bit LLM من Microsoft الذي يقوم بتشغيل نموذج 100B على وحدة معالجة مركزية واحدة

Table of Contents

مقدمة

المشكلة: ماجستير إدارة الأعمال باهظ الثمن للغاية بحيث لا يمكن توفيره في كل مكان

الحل: BitNet b1.58 — بنية مصممة للأوزان الثلاثية

الوزن الثلاثي: {-1، 0، +1}

BitLinear: لبنة البناء

ماذا يعني "1.58 بت" فعليًا - ولماذا يتفوق على "1 بت"

البدء: قم بتشغيل BitNet b1.58 على جهازك اليوم

تثبيت bitnet.cpp

تشغيل الاستدلال

بديل عناق الوجه: اضبط وجهك بنفسك

تحت الغطاء: لماذا تعتبر BitNet سريعة - ولماذا هي مهمة

كثافة الذاكرة القصوى

حساب الطاقة

كيف يحقق BitNet.cpp السرعة

حيث تقف BitNet b1.58 في مواجهة النماذج التنافسية

متقدم: أنماط نشر الإنتاج

بدون خادم على AWS Lambda

الذكاء الاصطناعي على الجهاز واستدلال الحافة

المقارنة والبدائل: موقع BitNet في النظام البيئي للتكميم

الخاتمة والخطوات التالية

مقالات ذات صلة

35 مشروع مستضاف ذاتيا على جيت هب: TaskView، ConvertX، Work-Review، relaticle، postlab، rejourney

35 Self-Hosted Projects on GitHub — Episode 5

Voicebox: استوديو الصوت AI مفتوح المصدر الذي ينافس ElevenLabs

أهم النقاط

BitNet b1.58: برنامج 1-Bit LLM من Microsoft الذي يقوم بتشغيل نموذج 100B على وحدة معالجة مركزية واحدة

Table of Contents

مقدمة

المشكلة: ماجستير إدارة الأعمال باهظ الثمن للغاية بحيث لا يمكن توفيره في كل مكان

الحل: BitNet b1.58 — بنية مصممة للأوزان الثلاثية

الوزن الثلاثي: {-1، 0، +1}

BitLinear: لبنة البناء

ماذا يعني "1.58 بت" فعليًا - ولماذا يتفوق على "1 بت"

البدء: قم بتشغيل BitNet b1.58 على جهازك اليوم

تثبيت bitnet.cpp

تشغيل الاستدلال

بديل عناق الوجه: اضبط وجهك بنفسك

تحت الغطاء: لماذا تعتبر BitNet سريعة - ولماذا هي مهمة

كثافة الذاكرة القصوى

حساب الطاقة

كيف يحقق BitNet.cpp السرعة

حيث تقف BitNet b1.58 في مواجهة النماذج التنافسية

متقدم: أنماط نشر الإنتاج

بدون خادم على AWS Lambda

الذكاء الاصطناعي على الجهاز واستدلال الحافة

المقارنة والبدائل: موقع BitNet في النظام البيئي للتكميم

الخاتمة والخطوات التالية

مقالات ذات صلة

35 مشروع مستضاف ذاتيا على جيت هب: TaskView، ConvertX، Work-Review، relaticle، postlab، rejourney

35 Self-Hosted Projects on GitHub — Episode 5

Voicebox: استوديو الصوت AI مفتوح المصدر الذي ينافس ElevenLabs