OpenAI Spring Update, GPT-4o enfin un vrais assistant personnel ?

Dernière mise à jour le
14/5/2024
H2 sommaire link
H2 sommaire link

320 millisecondes, c'est le temps que GPT-4o de OpenAI met à répondre à une requête audio. Et ça change tout. OpenAI veut réduire au maximum les frictions propres aux agents IA afin d’intégrer ChatGPT dans le quotidien d’un maximum d’utilisateurs, y compris les utilisateurs gratuits.

Pour ce faire, ils déploient deux solutions :

- le nouveau modèle GPT-4o

- et une application desktop.

Le modèle GPT-4o est disponible gratuitement aujourd’hui pour sa version texte. Les fonctionnalités d’audio et de vision ainsi que la version desktop seront disponibles dans les prochains mois.

GPT-4o : Le nouveau modele d'OpenAI

OpenAI déploie un nouveau modèle d’IA GPT-4o. GPT-4o est une version de GPT-4 accessible aux utilisateurs gratuits et payant. Il comporte les fonctionnalités suivantes : les GPTs, Vision, Browsing, Memory et Advanced Data Analysis. Les utilisateurs payants auront une limite d’usage cinq fois supérieure à celle des utilisateurs gratuits.

Réduction de la Latence de la Transcription Vocale

Cette amélioration est sans doute l’aspect le plus important de cette mise à jour, permettant au modèle de devenir un réel assistant conversationnel, en brisant la barrière psychologique de la latence entre une question et une réponse.

Lors de la présentation, le modèle a été capable de lire un code d’une vingtaine de lignes et de répondre instantanément à l’utilisateur lui demandant d’expliquer le code.

Fonctionnalité "Voice Mode"

Depuis l’intégration de leur fonctionnalité « Voice mode » permettant d’avoir une conversation à l’oral avec ChatGPT, OpenAI utilise un système multiple composé de trois modèles : Transcription, Intelligence, puis Texte-to-speech, créant une latence de 2,8 secondes entre une requête vocale et l’obtention d’une réponse.

À présent, le modèle traite nativement l’audio, le texte et la vision, réduisant la latence à 320 millisecondes, ce qui est similaire à une réponse humaine. Il est possible d’interrompre l’agent lorsqu’il parle et l’IA est également plus expressive, avec des tons de voix adaptés au contexte, permettant une interaction encore plus naturelle.

Nouvelles Fonctionnalités Grâce à GPT-4o

Ces nouvelles fonctionnalités seront déployées dans les prochaines semaines sur la version mobile et ordinateur de l’application ChatGPT.

Conversation Vocale en Temps Réel

Vous pouvez à présent interrompre l’assistant ; il n’est pas nécessaire d’attendre qu’il ait fini pour qu’il se remette à écouter. Il n’y a plus de latence entre le moment où vous faites votre requête et le moment où l’assistant répond, éliminant les 1 à 2 secondes d'attente. Le modèle peut comprendre l’intonation de voix et les émotions. Lors de la démonstration, il a même pu comprendre l’intensité de la respiration de l’utilisateur pour lui dire de se calmer.

La voix de l’assistant peut être très expressive, changeant son timbre et ses onomatopées pour correspondre au contexte. Lors de la démonstration, l’IA a pu imiter une voix de robot ou même chanter.

Vision en Temps Réel

GPT-4o est capable de vous aider dans vos exercices de mathématiques. Lors de la présentation, l’assistant a utilisé la vision pour lire une équation sur une feuille de papier et expliquer à l’utilisateur comment la résoudre étape par étape, de manière naturelle et sans latence.

Traduction en Temps Réel

Grâce à sa fonctionnalité de conversation en temps réel, l’assistant est capable de jouer le rôle de traducteur entre plusieurs personnes parlant des langues différentes, d’une manière naturelle et inédite.

OpenAI Desktop

La grosse nouveauté de cette version ordinateur donne accès à la fonctionnalité vocale de ChatGPT. Il est maintenant possible de parler à l’assistant afin qu’il vous assiste de manière plus naturelle dans vos activités quotidiennes. Il est possible de partager son écran en temps réel afin que l’assistant puisse assister l’utilisateur en fonction de ce qui se passe à l’écran.

Lors de la démonstration, l’assistant a pu comprendre en détail un graphique météorologique, retranscrire de manière précise à quoi correspondait le graphique et déterminer que l’axe des températures était en degré Celsius et non Fahrenheit de manière logique alors que cette information n’était pas disponible à l’écran. Il devient également plus facile de copier-coller du texte dans l’assistant.

GPT-4o Disponible sur l'API Playground

GPT-4o est deux fois plus rapide, 50% moins cher, et offre cinq fois plus de limites de taux que GPT-4 Turbo.

Auteur(s) :
No items found.

Souscrivez gratuitement à notre newsletter et obtenez notre liste des 99 outils indispensable pour entreprendre

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.