وبنفس الطريقة التي يعتبر بها "شات جي بي تي" تطبيقاً للمحادثات التي تعتمد على الشبكة المعروفة باسم GPT (يتم تدريبها على كميات هائلة من النص)، لدى غوغل تطبيق للمحادثة يسمى "بارد" Bard والذي يعتمد على نموذج يسمى LaMDA (تم تدريبه على حوار)، لكن غوغل تعمل الآن على ترقية ذلك استناداً إلى جيميني وفق رويترز.
وما يميز جيميني عن نماذج الذكاء الاصطناعي التوليدية السابقة مثل LaMDA هو أنه "نموذج متعدد الوسائط". وهذا يعني أنه يعمل مباشرة مع أوضاع متعددة تدعم إدخال النص وإخراجه، ويدعم الصور والصوت والفيديو، وبناءً على ذلك، ظهر اختصار جديد: LMM (نموذج كبير متعدد الوسائط)، ولا ينبغي الخلط بينه وبين LLM.
في سبتمبر، أعلنت "أوبن إيه آي" عن نموذج يسمى GPT-4Vision يمكنه معالجة الصور والصوت والنص أيضاً، ومع ذلك، فهو ليس نموذجاً متعدد الوسائط تماماً بالطريقة التي وعد بها جيميني.
وعلى سبيل المثال، في حين أن ChatGPT-4، المدعوم بواسطة GPT-4V، يمكنه العمل مع المدخلات الصوتية وإنشاء مخرجات الكلام، وأكدت "أوبن إيه آي" أن ذلك يتم عن طريق تحويل الكلام إلى نص عند الإدخال باستخدام نموذج تعلم عميق آخر يسمى Whisper. ويقوم ChatGPT-4 أيضاً بتحويل النص إلى كلام باستخدام نموذج مختلف، مما يعني أن GPT-4V نفسه يعمل فقط مع النص.
وبالمثل، يستطيع ChatGPT-4 إنتاج صور، لكنه يفعل ذلك عن طريق إنشاء مطالبات نصية يتم تمريرها إلى نموذج منفصل للتعلم العميق يسمى Dall-E 2، والذي يحول أوصاف النص إلى صور.
في المقابل، صممت غوغل برنامج "جيميني" ليكون "متعدد الوسائط"، وهذا يعني أن النموذج الأساسي يتعامل مباشرة مع مجموعة من أنواع الإدخال (الصوت والصور والفيديو والنص) ويمكنه إخراجها مباشرة أيضاً.
قد يبدو التمييز بين هذين النهجين أكاديمياً، لكنه مهم، والاستنتاج العام من تقرير غوغل الفني والاختبارات النوعية الأخرى حتى الآن هو أن الإصدار الحالي المتاح للجمهور من "جيميني"، والذي يسمى Gemini 1.0 Pro، ليس جيداً بشكل عام مثل GPT-4، وهو أكثر تشابهاً في قدراته مع GPT 3.5.
ولكن أعلنت غوغل أيضاً عن إصدار أقوى من "جيميني"، يسمى Gemini 1.0 Ultra، وعرضت بعض النتائج التي توضح أنه أقوى من GPT-4. لكن من الصعب تقييم ذلك لسببين، السبب الأول هو أن غوغل لم تصدر Ultra بعد، لذا لا يمكن التحقق من صحة النتائج بشكل مستقل في الوقت الحالي.
والسبب الثاني وراء صعوبة تقييم ادعاءات غوغل هو أنها اختارت إصدار فيديو توضيحي خادع إلى حد ما.
ومع ذلك، كما ذكرت بلومبرغ، لم يتم تنفيذ العرض التوضيحي في الفيديو في الوقت الفعلي. وعلى سبيل المثال، تعلم النموذج بعض المهام المحددة مسبقاً، مثل خدعة الأكواب الثلاثة والكرة، حيث يتتبع "جيميني" أي كوب توجد الكرة تحته. وللقيام بذلك، تم تزويده بسلسلة من الصور الثابتة التي تظهر فيها أيدي مقدم العرض على الأكواب التي يتم تبديلها.
وعلى الرغم من هذه المشكلات، يبدو أن نماذج "جيميني" والنماذج الكبيرة متعددة الوسائط تمثل خطوة مثيرة للغاية للأمام بالنسبة للذكاء الاصطناعي التوليدي. ويرجع ذلك إلى قدراتهم المستقبلية وإلى المشهد التنافسي لأدوات الذكاء الاصطناعي. وتم تدريب GPT-4 على حوالي 500 مليار كلمة - وهي في الأساس جميع النصوص عالية الجودة والمتاحة للعامة.
ويعتمد أداء نماذج التعلم العميق عموماً على زيادة تعقيد النموذج وكمية بيانات التدريب. وأدى هذا إلى التساؤل حول كيفية تحقيق المزيد من التحسينات، نظراً لأن بيانات التدريب الجديدة لنماذج اللغة قد استنفدت تقريباً. ومع ذلك، فإن النماذج متعددة الوسائط تفتح احتياطيات جديدة هائلة من بيانات التدريب - في شكل صور ومقاطع صوتية ومقاطع فيديو.
ومن المرجح أن تتمتع أنظمة الذكاء الاصطناعي، مثل جيميني، والتي يمكن تدريبها بشكل مباشر على كل هذه البيانات، بقدرات أكبر بكثير في المستقبل. على سبيل المثال، من المتوقع أن النماذج التي يتم تدريبها على الفيديو سوف تطور تمثيلات داخلية متطورة لما يسمى "الفيزياء الساذجة"، وهذا هو الفهم الأساسي لدى البشر والحيوانات حول السببية والحركة والجاذبية والظواهر الفيزيائية الأخرى.
في العام الماضي، على الرغم من ظهور العديد من نماذج الذكاء الاصطناعي التوليدية، كانت نماذج GPT من OpenAI هي المهيمنة، مما يدل على مستوى من الأداء لم تتمكن النماذج الأخرى من الاقتراب منه.
يشير جيميني من غوغل إلى ظهور منافس رئيسي سيساعد في دفع المجال إلى الأمام. وبطبيعة الحال، يكاد يكون من المؤكد أن "أوبن إيه آي" تعمل على GPT-5، ويمكننا أن نتوقع أنها ستكون أيضاً متعددة الوسائط وستُظهر قدرات جديدة رائعة.