جديد التقنية

هل يغيّر Manzano موازين المنافسة؟ ابتكار آبل لفهم وتوليد الصور

كشفت شركة آبل عن أحدث ابتكاراتها في مجال الذكاء الاصطناعي بنموذج جديد يحمل اسم Manzano، وهو مصمم خصيصًا لمعالجة تحديات فهم الصور و توليدها في آن واحد. هذا المجال طالما شكّل عقبة أمام النماذج مفتوحة المصدر، التي غالبًا ما تعجز عن الجمع بين المهمتين بكفاءة مقارنة بالأنظمة التجارية المتقدمة مثل Google Gemini و OpenAI GPT-4o.

تصميم هجين لمعالجة معضلة الفهم والتوليد

توضح آبل أن جوهر الصعوبة يكمن في اختلاف متطلبات المهام:

  • فهم الصور يحتاج إلى تدفقات بيانات مستمرة.
  • توليد الصور يتطلب تقسيم الصور إلى رموز منفصلة.

هذا التعارض يؤدي عادة إلى ضعف الأداء عند محاولة الجمع بينهما. لحل ذلك، اعتمدت آبل على مُرمّز هجين ينتج نوعين من الرموز:

  • رموز مستمرة للفهم.
  • رموز منفصلة للتوليد.

وبفضل هذا التصميم، يتمكن Manzano من تقليل التعارض، مع توفير مرونة أكبر في التعامل مع النصوص والرسوم المعقدة.

مكونات النموذج

يتألف Manzano من ثلاثة مكونات رئيسية:

  1. المرمّز الهجين لفهم وتوليد الصور.
  2. نموذج لغوي موحّد يدير السياق والتفاعلات النصية.
  3. مُفكك صور مستقل لإنتاج المخرجات النهائية.

طوّرت آبل ثلاث نسخ من مُفكك الصور بأحجام مختلفة (0.9 و 1.75 و 3.52 مليار معلمة)، قادرة على دعم دقة تبدأ من 256 بكسل وتصل حتى 2048 بكسل.

تدريب ضخم ونتائج أولية مبشرة

دُرّب Manzano باستخدام:

  • 2.3 مليار زوج من الصور والنصوص.
  • مليار زوج من النصوص إلى الصور.
  • بإجمالي بيانات وصل إلى 1.6 تريليون رمز.

في الاختبارات المعيارية مثل ScienceQA و MMMU و MathVista، تفوّق النموذج على منافسين مفتوحين المصدر وحقق نتائج قوية خاصة في مهام النصوص مثل تحليل الوثائق والرسوم البيانية. وأظهرت النتائج أن الأداء يتحسن تدريجيًا كلما زاد حجم النموذج حتى 30 مليار معلمة.

قدرات متقدمة في توليد الصور

إلى جانب الفهم، أثبت النموذج قدرته على:

  • تنفيذ أوامر معقدة.
  • نقل الأنماط الفنية.
  • إجراء تعديلات مثل الإكمال (inpainting) و التوسيع (outpainting).
  • تقدير العمق وإنتاج صور أكثر واقعية.

خطوة نحو أنظمة متعددة الوسائط

تعتبر آبل أن Manzano يمثل حجر أساس نحو تطوير أنظمة ذكاء اصطناعي متعددة الوسائط بفضل بنيته المعيارية، التي تسمح بتحديث مكوناته بشكل مستقل وتوظيف أساليب تدريب متنوعة.

ومع ذلك، اعترفت الشركة أن نماذجها ما زالت متأخرة عن المنافسين، وهو ما يفسر استمرار اعتمادها على GPT-5 من OpenAI ضمن إطار Apple Intelligence بدءًا من iOS 26.