Google Gemini : tout ce qu'il faut savoir sur la nouvelle plateforme d'IA générative

Google Gemini : tout ce qu'il faut savoir sur la nouvelle plateforme d'IA générative

Google tente de faire des vagues avec Gemini, sa suite phare de modèles, d'applications et de services d'IA générative.

Alors, qu’est-ce que Google Gemini exactement ? Comment pouvez-vous l'utiliser? Et comment Gemini se situe-t-il par rapport à la concurrence ?

Pour vous permettre de suivre plus facilement les derniers développements de Gemini, nous avons élaboré ce guide pratique, que nous tiendrons à jour au fur et à mesure de la publication de nouveaux modèles, fonctionnalités et actualités Gemini sur les projets de Google pour Gemini.

Qu’est-ce que les Gémeaux ?

Gemini est la famille de modèles d'IA générative de nouvelle génération de Google , promise depuis longtemps , développée par les laboratoires de recherche en IA de Google, DeepMind et Google Research. Il se décline en quatre saveurs :

  • Gemini Ultra , le modèle Gemini le plus performant.
  • Gemini Pro , une alternative légère à Ultra.
  • Gemini Flash , une version plus rapide et « distillée » de Pro.
  • Gemini Nano , deux petits modèles – Nano-1 plus performant et le Nano-2, – destinés à fonctionner hors ligne sur les appareils mobiles.

Tous les modèles Gemini ont été formés pour être nativement multimodaux, en d’autres termes, capables de travailler et d’analyser plus que du simple texte. Google affirme avoir été pré-formé et affiné sur une variété d'audio, d'images et de vidéos publics, propriétaires et sous licence, un large ensemble de bases de code et de texte dans différentes langues.

Cela distingue Gemini des modèles tels que le LaMDA de Google , qui a été formé exclusivement sur des données textuelles. LaMDA ne peut pas comprendre ou générer quoi que ce soit au-delà du texte (par exemple, des essais, des brouillons d'e-mails), mais ce n'est pas nécessairement le cas avec les modèles Gemini.

Nous noterons ici que l' éthique et la légalité des modèles de formation sur les données publiques, dans certains cas à l'insu ou sans le consentement des propriétaires des données, sont effectivement floues. Google a une politique d'indemnisation de l'IA pour protéger certains clients de Google Cloud contre les poursuites judiciaires s'ils y sont confrontés, mais cette politique contient des exclusions. Procédez avec prudence, surtout si vous avez l'intention d'utiliser Gemini à des fins commerciales.

Quelle est la différence entre les applications Gemini et les modèles Gemini ?

Google, prouvant une fois de plus qu'il manque de talent en matière de branding , n'a pas précisé dès le départ que Gemini était séparé et distinct des applications Gemini sur le Web et sur mobile ( anciennement Bard ).

Les applications Gemini sont des clients qui se connectent à différents modèles Gemini – Gemini Ultra (avec Gemini Advanced, voir ci-dessous) et Gemini Pro jusqu'à présent – ​​et superposent des interfaces de type chatbot. Considérez-les comme des frontaux pour l'IA générative de Google, analogue à ChatGPT d'OpenAI et Claude d'Anthropic la famille d'applications .

Application mobile Google Gemini
Crédits image : Google

Les Gémeaux sur le Web vivent ici . Sur Android, l' application Gemini remplace l'application Google Assistant existante. Et sur iOS, les applications Google et Google Search servent de clients Gemini à cette plateforme.

Les applications Gemini peuvent accepter des images ainsi que des commandes vocales et du texte (y compris des fichiers tels que des PDF et bientôt des vidéos, téléchargés ou importés depuis Google Drive) et générer des images. Comme vous vous en doutez, les conversations avec les applications Gemini sur mobile sont transférées vers Gemini sur le Web et vice versa si vous êtes connecté au même compte Google aux deux endroits.

Gemini dans Gmail, Docs, Chrome, outils de développement et plus

Les applications Gemini ne sont pas le seul moyen de recruter l'aide des modèles Gemini pour les tâches. Lentement mais sûrement, les fonctionnalités imprégnées de Gemini font leur chemin dans les applications et services Google de base comme Gmail et Google Docs.

Pour profiter de la plupart d’entre eux, vous aurez besoin du forfait Google One AI Premium. Techniquement faisant partie de Google One , le plan AI Premium coûte 20 $ et donne accès à Gemini dans les applications Google Workspace telles que Docs, Slides, Sheets et Meet. Il permet également ce que Google appelle Gemini Advanced, qui apporte Gemini Ultra aux applications Gemini ainsi qu'une prise en charge pour analyser et répondre aux questions sur les fichiers téléchargés.

Crédits image : Google

Les utilisateurs de Gemini Advanced bénéficient également d'extras ici et là, comme la planification de voyage dans la recherche Google, qui crée des itinéraires de voyage personnalisés à partir d'invites. En tenant compte d'éléments tels que les horaires de vol (à partir des e-mails dans la boîte de réception Gmail d'un utilisateur), les préférences alimentaires et les informations sur les attractions locales (à partir des données de recherche Google et Maps), ainsi que les distances entre ces attractions, Gemini générera un itinéraire qui se mettra automatiquement à jour. pour refléter tout changement.

Dans Gmail, Gemini réside dans un panneau latéral qui peut rédiger des e-mails et résumer les fils de discussion. Vous trouverez le même panneau dans Docs, où il vous aide à rédiger et à affiner votre contenu et à réfléchir à de nouvelles idées. Gemini dans Slides génère des diapositives et des images personnalisées. Et Gemini dans Google Sheets suit et organise les données, créant des tableaux et des formules.

La portée de Gemini s'étend également à Drive, où il peut résumer des fichiers et donner des informations rapides sur un projet. Dans Meet, quant à lui, Gemini traduit les sous-titres dans des langues supplémentaires.

Gémeaux dans Gmail
Crédits image : Google

Gemini est récemment arrivé sur le navigateur Chrome de Google sous la forme d'un outil d'écriture d'IA. Vous pouvez l'utiliser pour écrire quelque chose de complètement nouveau ou réécrire un texte existant ; Google indique qu'il prendra en compte la page Web sur laquelle vous vous trouvez pour faire des recommandations.

Ailleurs, vous trouverez des allusions à Gemini dans les produits de base de données de Google , les outils de sécurité cloud , les plateformes de développement d'applications (y compris Firebase et Project IDX ), sans parler des applications comme Google TV (où Gemini génère des descriptions pour les films et les émissions de télévision), Google Photos. (où il gère les requêtes de recherche en langage naturel) et l' assistant de prise de notes NotebookLM .

Code Assist (anciennement Duet AI for Developers ), la suite d'outils d'assistance basés sur l'IA de Google pour la complétion et la génération de code, confie une lourde charge de calcul à Gemini. Il en va de même pour les produits de sécurité de Google soutenus par Gemini , comme Gemini dans Threat Intelligence, qui peuvent analyser de grandes parties de code potentiellement malveillant et permettre aux utilisateurs d'effectuer des recherches en langage naturel pour détecter les menaces en cours ou les indicateurs de compromission.

Chatbots personnalisés Gemini Gems

Annoncé lors de Google I/O 2024, les utilisateurs de Gemini Advanced pourront à l'avenir créer des Gems, des chatbots personnalisés alimentés par des modèles Gemini. Les gemmes peuvent être générées à partir de descriptions en langage naturel, par exemple : « Vous êtes mon entraîneur de course à pied. Donnez-moi un plan de course quotidien » – et partagé avec d’autres ou gardé privé.

À terme, Gems pourra exploiter un ensemble étendu d'intégrations avec les services Google, notamment Google Calendar, Tasks, Keep et YouTube Music, pour effectuer diverses tâches.

Chats vocaux approfondis Gemini Live

Une nouvelle expérience appelée Gemini Live , exclusive aux abonnés Gemini Advanced, arrivera bientôt sur les applications Gemini sur mobile, permettant aux utilisateurs d'avoir des discussions vocales « approfondies » avec Gemini.

Avec Gemini Live activé, les utilisateurs pourront interrompre Gemini pendant que le chatbot parle pour poser des questions de clarification, et il s'adaptera à leurs modèles de parole en temps réel. Et Gemini sera capable de voir et de réagir à l'environnement des utilisateurs, soit via des photos ou des vidéos capturées par les caméras de leurs smartphones.

Live est également conçu pour servir de coach virtuel, aidant les utilisateurs à répéter des événements, à réfléchir à des idées, etc. Par exemple, Live peut suggérer les compétences à mettre en valeur lors d'un prochain entretien d'embauche ou de stage, et il peut donner des conseils pour prendre la parole en public.

Que peuvent faire les modèles Gemini ?

Les modèles Gemini étant multimodaux, ils peuvent effectuer une gamme de tâches multimodales, de la transcription de la parole au sous-titrage d'images et de vidéos en temps réel. Beaucoup de ces fonctionnalités ont atteint le stade du produit (comme évoqué dans la section précédente), et Google en promet bien davantage dans un avenir pas trop lointain.

Bien sûr, il est un peu difficile de croire l’entreprise sur parole.

Google a sérieusement sous-livré le lancement original de Bard. Plus récemment, il a ébranlé les plumes avec une vidéo prétendant montrer les capacités de Gemini qui était plus ou moins ambitieuse, pas en direct, et avec une fonction de génération d'images qui s'est avérée offensivement inexacte .

De plus, Google ne propose aucune solution à certains des problèmes sous-jacents de la technologie d'IA générative actuelle, comme ses codés préjugés et sa tendance à inventer des choses (c'est-à-dire à halluciner ). Ses rivaux non plus, mais c'est quelque chose à garder à l'esprit lorsque vous envisagez d'utiliser ou de payer pour Gemini.

En supposant, pour les besoins de cet article, que Google soit honnête avec ses récentes affirmations, voici ce que les différents niveaux de Gemini peuvent faire maintenant et ce qu'ils pourront faire une fois qu'ils auront atteint leur plein potentiel :

Ce que vous pouvez faire avec Gemini Ultra

Google affirme que Gemini Ultra , grâce à sa multimodalité, peut être utilisé pour faciliter des tâches telles que les devoirs de physique, résoudre des problèmes étape par étape sur une feuille de calcul et signaler d'éventuelles erreurs dans les réponses déjà remplies.

Ultra peut également être appliqué à des tâches telles que l'identification d'articles scientifiques pertinents pour un problème, indique Google. Le modèle pourrait par exemple extraire des informations de plusieurs articles et mettre à jour un graphique à partir d'un seul en générant les formules nécessaires pour recréer le graphique avec des données plus actuelles.

Gemini Ultra prend techniquement en charge la génération d’images. Mais cette fonctionnalité n'a pas encore été intégrée à la version produit du modèle, peut-être parce que le mécanisme est plus complexe que la manière dont des applications telles que ChatGPT génèrent des images. Plutôt que de transmettre des invites à un générateur d'images (comme DALL-E 3 , dans le cas de ChatGPT), Gemini génère des images « nativement », sans étape intermédiaire.

Ultra est disponible sous forme d'API via Vertex AI, la plate-forme de développement d'IA entièrement gérée de Google, et AI Studio, l'outil Web de Google destiné aux développeurs d'applications et de plates-formes. Il alimente également les applications Gemini de Google, mais pas gratuitement. Encore une fois, l'accès à Ultra via n'importe quelle application Gemini nécessite un abonnement au plan AI Premium.

Les capacités de Gemini Pro

Google affirme que Gemini Pro constitue une amélioration par rapport à LaMDA dans ses capacités de raisonnement, de planification et de compréhension. La dernière version, Gemini 1.5 Pro , dépasse même les performances d'Ultra dans certains domaines, affirme Google.

Gemini 1.5 Pro est amélioré dans un certain nombre de domaines par rapport à son prédécesseur, Gemini 1.0 Pro, peut-être plus évidemment dans la quantité de données qu'il peut traiter. Gemini 1.5 Pro peut enregistrer jusqu'à 1,4 million de mots, deux heures de vidéo ou 22 heures d'audio, et raisonner ou répondre à des questions sur toutes ces données.

1.5 Pro est devenu généralement disponible sur Vertex AI et AI Studio en juin, aux côtés d'une fonctionnalité appelée exécution de code, qui vise à réduire les bogues dans le code générés par le modèle en affinant ce code de manière itérative sur plusieurs étapes. (L'exécution de code prend également en charge Gemini Flash.)

Dans Vertex AI, les développeurs peuvent personnaliser Gemini Pro en fonction de contextes et de cas d'utilisation spécifiques via un processus de réglage fin ou de « mise à la terre ». Par exemple, Pro (ainsi que d'autres modèles Gemini) peut être invité à utiliser des données provenant de fournisseurs tiers tels que Moody's, Thomson Reuters, ZoomInfo et MSCI, ou à rechercher des informations à partir d'ensembles de données d'entreprise ou de la recherche Google au lieu de sa banque de connaissances plus large. Gemini Pro peut également être connecté à des API externes tierces pour effectuer des actions particulières, comme l'automatisation d'un flux de travail.

AI Studio propose des modèles pour créer des invites de discussion structurées avec Pro. Les développeurs peuvent contrôler la gamme créative du modèle et fournir des exemples pour donner des instructions de ton et de style, ainsi qu'ajuster les paramètres de sécurité de Pro.

Vertex AI Agent Builder permet aux utilisateurs de créer des « agents » basés sur Gemini dans Vertex AI. Par exemple, une entreprise pourrait créer un agent qui analyse les campagnes marketing précédentes pour comprendre le style d’une marque, puis appliquer ces connaissances pour aider à générer de nouvelles idées cohérentes avec le style.

Gemini Flash est destiné aux travaux moins exigeants

Pour les applications moins exigeantes, il existe Gemini Flash. La version la plus récente est la 1.5 Flash.

Émanation de Gemini Pro, petite et efficace, conçue pour les charges de travail d'IA génératives étroites et à haute fréquence, Flash est multimodal comme Gemini Pro, ce qui signifie qu'il peut analyser l'audio, la vidéo et les images ainsi que le texte (mais générer uniquement du texte).

Flash est particulièrement adapté aux tâches telles que le résumé, les applications de chat, le sous-titrage d'images et de vidéos et l'extraction de données à partir de longs documents et tableaux, indique Google. Il sera généralement disponible via Vertex AI et AI Studio d'ici la mi-juillet.

Les développeurs utilisant Flash et Pro peuvent éventuellement exploiter la mise en cache contextuelle, ce qui leur permet de stocker de grandes quantités d'informations (par exemple, une base de connaissances ou une base de données d'articles de recherche) dans un cache auquel les modèles Gemini peuvent accéder rapidement et à moindre coût. La mise en cache contextuelle constitue toutefois des frais supplémentaires en plus des autres frais d'utilisation du modèle Gemini.

Gemini Nano peut fonctionner sur votre téléphone

Gemini Nano est une version beaucoup plus petite des modèles Gemini Pro et Ultra, et il est suffisamment efficace pour s'exécuter directement sur (certains) téléphones au lieu d'envoyer la tâche à un serveur quelque part. Jusqu'à présent, Nano alimente quelques fonctionnalités sur le Pixel 8 Pro, le Pixel 8 et le Samsung Galaxy S24 , notamment Résumer dans l'enregistreur et Réponse intelligente dans Gboard.

L'application Recorder, qui permet aux utilisateurs d'appuyer sur un bouton pour enregistrer et transcrire de l'audio, comprend un résumé alimenté par Gemini des conversations, interviews, présentations et autres extraits audio enregistrés. Les utilisateurs reçoivent des résumés même s'ils ne disposent pas de signal ou de connexion Wi-Fi - et, dans un souci de confidentialité, aucune donnée ne quitte leur téléphone au cours du processus.

Nano est également présent dans Gboard, le remplacement du clavier de Google. Là, il alimente une fonctionnalité appelée Smart Reply, qui permet de suggérer la prochaine chose que vous voudrez dire lors d'une conversation dans une application de messagerie. La fonctionnalité ne fonctionne initialement qu'avec WhatsApp, mais s'étendra à davantage d'applications au fil du temps, indique Google.

Dans l'application Google Messages sur les appareils pris en charge, Nano pilote Magic Compose, qui peut créer des messages dans des styles tels que « excité », « formel » et « lyrique ».

Google indique qu'une future version d'Android exploitera Nano pour alerter les utilisateurs des escroqueries potentielles lors des appels. Et bientôt, TalkBack, le service d'accessibilité de Google, utilisera Nano pour créer des descriptions sonores d'objets pour les utilisateurs malvoyants et aveugles.

Gemini est-il meilleur que le GPT-4 d'OpenAI ?

à plusieurs reprises Google a vanté la supériorité de Gemini sur les benchmarks, affirmant que Gemini Ultra dépasse les résultats de pointe actuels sur « 30 des 32 benchmarks académiques largement utilisés dans la recherche et le développement de grands modèles de langage ». Mais en laissant de côté la question de savoir si les benchmarks indiquent vraiment un meilleur modèle , les scores indiqués par Google ne semblent que légèrement meilleurs que les modèles GPT-4 d'OpenAI .

d'OpenAI Le dernier modèle phare , GPT-4o , devance considérablement la version 1.5 Pro en termes d'évaluation de texte, de compréhension visuelle et de performances de traduction audio. d'Anthropic Claude 3.5 Sonnet les bat tous les deux – mais peut-être pas pour longtemps, étant donné le rythme effréné de l'industrie de l'IA.

Combien coûtent les modèles Gemini ?

Gemini 1.0 Pro (la première version de Gemini Pro), 1.5 Pro et Flash sont disponibles via l'API Gemini de Google pour créer des applications et des services, le tout avec des options gratuites. Mais les options gratuites imposent des limites d’utilisation et laissent de côté certaines fonctionnalités, comme la mise en cache contextuelle.

Sinon, les modèles Gemini sont payants. Voici le prix de base (sans compter les modules complémentaires tels que la mise en cache contextuelle) à compter de juin 2024 :

  • Gemini 1.0 Pro : 50 cents pour 1 million de jetons d'entrée, 1,50 $ pour 1 million de jetons de sortie
  • Gemini 1.5 Pro : 3,05 $ pour 1 million de jetons saisis (pour les invites jusqu'à 128 000 jetons) ou 7 $ pour 1 million de jetons (pour les invites de plus de 128 000 jetons) ; 10,50 $ pour 1 million de jetons (pour les invites jusqu'à 128 000 jetons) ou 21,00 $ pour 1 million de jetons (pour les invites de plus de 128 000)
  • Gemini 1.5 Flash : 35 cents pour 1 million de jetons (pour les invites jusqu'à 128 000 jetons), 70 cents pour 1 million de jetons (pour les invites de plus de 128 000 jetons) ; 1,05 $ pour 1 million de jetons (pour les invites jusqu'à 128 000 jetons), 2,10 $ pour 1 million de jetons (pour les invites de plus de 128 000 jetons)

Les jetons sont des morceaux de données brutes subdivisés, comme les syllabes « fan », « tas » et « tic » dans le mot « fantastique » ; 1 million de jetons équivaut à environ 700 000 mots. « Entrée » fait référence aux jetons introduits dans le modèle, tandis que « sortie » fait référence aux jetons générés par le modèle.

Le prix Ultra n'a pas encore été annoncé et Nano est toujours en accès anticipé .

Gemini arrive-t-il sur iPhone ?

C'est possible ! Apple et Google seraient en pourparlers pour utiliser Gemini pour un certain nombre de fonctionnalités qui seront incluses dans une prochaine mise à jour iOS plus tard cette année. Rien n'est définitif, car Apple serait également en pourparlers avec OpenAI et travaillerait au développement de ses propres capacités d'IA générative .

Après une présentation liminaire à la WWDC 2024, le vice-président directeur d'Apple, Craig Federighi, a confirmé son intention de travailler avec des modèles tiers supplémentaires, notamment Gemini, mais n'a pas divulgué de détails supplémentaires.

Commentaires