وصول OpenAI GPT-4 في منتصف مارس 2023 وهو ضخم

أوبن إيه آي جي بي تي -4 على وشك أن يصدر. إنه متعدد الوسائط ، مما يعني أنه إذا لم تكن Google قلقة ، فيجب أن تبدأ الآن

أكد أندرياس براون ، CTO في Microsoft ألمانيا ، أن GPT-4 قادم في غضون أسبوع من 9 مارس 2023 وأنه سيكون متعدد الوسائط. يعني الذكاء الاصطناعي متعدد الوسائط أنه سيكون قادرًا على العمل ضمن أنواع متعددة من المدخلات ، مثل الفيديو والصور والصوت.

نماذج اللغات الكبيرة متعددة الوسائط
تتمثل النتيجة الكبيرة من الإعلان في أن GPT-4 متعدد الوسائط (توقع SEJ أن يكون GPT-4 متعدد الوسائط في يناير 2023).

الطريقة هي إشارة إلى نوع الإدخال الذي (في هذه الحالة) يتعامل فيه نموذج لغة كبير.

يمكن أن تشمل الوسائط المتعددة النص والكلام والصور والفيديو.

يعمل كل من GPT-3 و GPT-3.5 بطريقة واحدة فقط ، النص.

وفقًا لتقرير الأخبار الألماني ، قد يكون GPT-4 قادرًا على العمل بأربع طرق على الأقل ، الصور ، الصوت (السمعي) ، النص والفيديو.

مقتبس عن الدكتور أندرياس براون ، CTO Microsoft Germany:

“سنقدم GPT-4 الأسبوع المقبل ، سيكون لدينا نماذج متعددة الوسائط تقدم إمكانيات مختلفة تمامًا – على سبيل المثال مقاطع الفيديو …”

تفتقر التقارير إلى تفاصيل GPT-4 ، لذلك ليس من الواضح ما إذا كان ما تمت مشاركته حول الوسائط المتعددة خاصًا بـ GPT-4 أو بشكل عام فقط.

شرح هولجر كين ، مدير استراتيجية الأعمال في Microsoft ، الأساليب المتعددة ولكن لم يكن من الواضح ما إذا كان يشير إلى تعدد وسائط GPT-4 أو تعدد الوسائط في الأجناس.

أعتقد أن إشاراته إلى الوسائط المتعددة كانت خاصة بـ GPT-4.

شارك التقرير الإخباري:

“أوضح كين ما يدور حوله الذكاء الاصطناعي متعدد الوسائط ، والذي يمكنه ترجمة النص ليس فقط إلى صور ، ولكن أيضًا إلى موسيقى وفيديو.”

هناك حقيقة أخرى مثيرة للاهتمام وهي أن Microsoft تعمل على “مقاييس الثقة” من أجل إرساء أسس الذكاء الاصطناعي لديها بالحقائق لجعلها أكثر موثوقية.

مايكروسوفت كوزموس -1
الشيء الذي لم يتم الإبلاغ عنه على ما يبدو في الولايات المتحدة هو أن Microsoft أصدرت نموذج لغة متعدد الوسائط يسمى Kosmos-1 في بداية مارس 2023.

“… أخضع الفريق النموذج المدرب مسبقًا لاختبارات مختلفة ، وحقق نتائج جيدة في تصنيف الصور ، والإجابة على أسئلة حول محتوى الصورة ، ووضع العلامات الآلي للصور ، والتعرف البصري على النص ، ومهام إنشاء الكلام.

… يبدو أن التفكير البصري ، أي استخلاص استنتاجات حول الصور دون استخدام اللغة كخطوة وسيطة ، هو المفتاح هنا … “

Kosmos-1 هو نموذج متعدد الوسائط يدمج أساليب النص والصور.

يذهب GPT-4 إلى أبعد من Kosmos-1 لأنه يضيف طريقة ثالثة ، الفيديو ، ويبدو أيضًا أنه يتضمن طريقة الصوت.

يعمل عبر لغات متعددة
يبدو أن GPT-4 يعمل عبر جميع اللغات. يوصف بأنه قادر على تلقي سؤال باللغة الألمانية والإجابة عليه باللغة الإيطالية.

هذا مثال غريب لأن من سيطرح سؤالًا باللغة الألمانية ويريد الحصول على إجابة باللغة الإيطالية؟

هذا ما تم تأكيده:

“… وصلت التكنولوجيا إلى حد أنها” تعمل في جميع اللغات “: يمكنك طرح سؤال باللغة الألمانية والحصول على إجابة باللغة الإيطالية.

باستخدام الوسائط المتعددة ، ستقوم Microsoft (-OpenAI) “بجعل النماذج شاملة”.

أعتقد أن الهدف من الاختراق هو أن النموذج يتجاوز اللغة بقدرته على جذب المعرفة عبر لغات مختلفة. لذلك إذا كانت الإجابة باللغة الإيطالية ، فستعرفها وستتمكن من تقديم الإجابة باللغة التي تم طرح السؤال بها.

وهذا من شأنه أن يجعله مشابهًا لهدف الذكاء الاصطناعي متعدد الوسائط من Google والذي يسمى MUM. يقال إن أمي قادرة على تقديم إجابات باللغة الإنجليزية والتي لا تتوفر البيانات الخاصة بها إلا بلغة أخرى ، مثل اليابانية.

تطبيقات GPT-4
لا يوجد إعلان حالي عن مكان ظهور GPT-4. ولكن تم ذكر Azure-OpenAI على وجه التحديد.

تكافح Google للحاق بمايكروسوفت من خلال دمج تقنية منافسة في محرك البحث الخاص بها. يؤدي هذا التطور إلى تفاقم التصور القائل بأن Google تتخلف عن الركب وتفتقر إلى القيادة في مجال الذكاء الاصطناعي الذي يواجه المستهلك.

تقوم Google بالفعل بدمج الذكاء الاصطناعي في العديد من المنتجات مثل Google Lens و Google Maps وغيرها من المجالات التي يتفاعل معها المستهلكون مع Google. هذا النهج هو استخدام الذكاء الاصطناعي كتقنية مساعدة لمساعدة الأشخاص في المهام الصغيرة.

الطريقة التي تطبقها Microsoft هي أكثر وضوحًا ، وبالتالي فهي تستحوذ على كل الاهتمام وتعزز صورة Google على أنها تتعثر وتكافح من أجل اللحاق بالركب.