Dites bonjour à GPT-4o ! C’est le tout nouveau modèle de langage gratuit pour ChatGPT, venant s’ajouter aux modèles déjà présents tels que GPT-3.5 et GPT-4. En introduisant ce nouveau modèle, la startup OpenAI entend bien poursuivre son avancée dans le domaine de l’intelligence artificielle. Et pour cause, GPT-4o est capable de traiter simultanément le texte, l’audio et les images, rendant nos échanges avec l’IA plus fluides et plus naturels.
OpenAI repousse une fois de plus les limites de l’intelligence artificielle
GPT-4o, dont le « o » signifie « omni » (venant du latin signifiant « tout »), est conçu pour être un modèle de langage capable de tout. Il accepte comme entrée n’importe quelle combinaison de texte, d’audio et d’image, et peut produire ces mêmes types de sortie.
Ce modèle novateur répond aux entrées audio en seulement 232 millisecondes en moyenne, ce qui est comparable au temps de réponse humain dans une conversation. Cette performance représente une amélioration significative par rapport aux modèles précédents.
En termes de texte en rédigé en anglais et en code, GPT-4o égale les performances de GPT-4 Turbo. Il offre également une amélioration notable pour les textes rédigés dans d’autres langues, dont le français.
De plus, GPT-4o est bien plus rapide et 50 % moins cher via l’API. Mais ses avantages ne s’arrêtent pas là : il excelle également dans la compréhension visuelle et audio, domaines où les modèles précédents avaient quelques lacunes.
Les capacités et innovations de GPT-4o
Avant l’arrivée de GPT-4o, l’utilisation du « mode vocal » impliquait une latence notable : 2,8 secondes avec GPT-3.5 et 5,4 secondes avec GPT-4. Ce délai s’expliquait par le fait que ces deux modèles utilisaient trois modèles distincts.
Avec GPT-4o, un seul modèle entraîne simultanément l’audio, la vision et le texte. Cela permet une compréhension plus riche des entrées et des sorties, y compris le ton, les multiples locuteurs, et les bruits de fond. GPT-4o peut même générer des rires, des chants ou exprimer des émotions, rendant l’interaction avec l’IA plus humaine et naturelle.
Les vidéos de démonstration d’OpenAI montrent bien la diversité des fonctionnalités offertes par GPT-4o. Par exemple, le modèle peut :
- Traduire une conversation en temps réel ;
- Servir de guide audio interactif pour les aveugles ;
- Aider à apprendre une langue à l’oral en temps réel ;
- Participer à une réunion avec plusieurs personnes et l’animer ;
- Compter à haute voix et changer de vitesse ;
- Reconnaître une situation d’anniversaire et chanter ;
- Faire preuve d’un petit peu de sarcasme (oui, oui).
GPT-4o est donc une véritable avancée technologique, poussant les frontières de ce que l’IA peut accomplir. Avec ce modèle, OpenAI offre des outils encore plus puissants et polyvalents pour les développeurs et les utilisateurs finaux.
Disponibilité du nouveau modèle de ChatGPT
Le modèle GPT-4o est actuellement en cours de déploiement pour tous les utilisateurs gratuits et est d’ores et déjà disponible pour les abonnés à ChatGPT Plus. Toutefois, seules les fonctionnalités de reconnaissance de texte et d’image sont présentes pour le moment. Pour les abonnés à ChatGPT Plus, la limite de messages avec GPT-4o sera « 5 fois plus élevée ».
OpenAI déploiera ensuite le mode vocal avec GPT-4o en version alpha pour les abonnés à ChatGPT Plus dans les semaines à venir. Les développeurs peuvent quant à eux accéder à GPT-4o via l’API en tant que modèle de texte et de vision.
Enfin, notez que le support pour les nouvelles capacités audio et vidéo de GPT-4o sera lancé à un groupe restreint de partenaires de confiance dans les prochaines semaines. Wait & See…
Source : OpenAI
À la fois impressionnant et flippant ^^ Je ne sais pas jusqu’où ils vont aller… mais j’ai peur pour le monde de demain avec toutes ces IA…