Les capacités d'analyse de données de Gemini ne sont pas aussi bonnes que le prétend Google

L'un des arguments de vente des modèles phares d'IA générative de Google, Gemini 1.5 Pro et 1.5 Flash , est la quantité de données qu'ils sont censés traiter et analyser. Lors de points de presse et de démonstrations, Google a affirmé à plusieurs reprises que les modèles pouvaient accomplir des tâches auparavant impossibles grâce à leur « contexte long », comme résumer des documents de plusieurs centaines de pages ou effectuer des recherches dans des scènes de films.

Mais de nouvelles recherches suggèrent que les modèles ne sont pas, en fait, très efficaces dans ces domaines.

Deux distinctes études ont examiné dans quelle mesure les modèles Gemini de Google et d'autres donnaient un sens à partir d'une énorme quantité de données – pensez aux œuvres de type « Guerre et Paix ». Tous deux constatent que Gemini 1.5 Pro et 1.5 Flash ont du mal à répondre correctement aux questions sur les grands ensembles de données ; dans une série de tests basés sur des documents, les modèles n'ont donné la bonne réponse que dans 40 à 50 % des cas.

"Bien que des modèles comme Gemini 1.5 Pro puissent techniquement traiter des contextes longs, nous avons vu de nombreux cas indiquant que les modèles ne" comprennent "pas réellement le contenu", Marzena Karpinska, postdoctorante à l'UMass Amherst et co-auteur de l'un des études, a déclaré à TechCrunch.

La fenêtre contextuelle de Gemini manque

Le contexte d'un modèle, ou fenêtre contextuelle, fait référence aux données d'entrée (par exemple, du texte) que le modèle prend en compte avant de générer une sortie (par exemple, du texte supplémentaire). Une question simple : « Qui a gagné l’élection présidentielle américaine de 2020 ? » - peut servir de contexte, tout comme un scénario de film, une émission ou un clip audio. Et à mesure que les fenêtres contextuelles s'agrandissent, la taille des documents qui y sont insérés augmente également.

Les versions les plus récentes de Gemini peuvent accepter plus de 2 millions de jetons comme contexte. (« Les jetons » sont des morceaux de données brutes subdivisés, comme les syllabes « fan », « tas » et « tic » dans le mot « fantastique ».) Cela équivaut à environ 1,4 million de mots, deux heures de vidéo ou 22 heures d'audio. — le contexte le plus vaste de tous les modèles disponibles dans le commerce.

Lors d'un briefing plus tôt cette année, Google a montré plusieurs démos préenregistrées destinées à illustrer le potentiel des capacités de Gemini en contexte long. L'un d'eux a demandé à Gemini 1.5 Pro de rechercher dans la transcription de l'émission télévisée d'alunissage d'Apollo 11 - environ 402 pages - des citations contenant des blagues, puis de trouver une scène dans l'émission télévisée qui ressemblait à un croquis au crayon.

Le vice-président de la recherche chez Google DeepMind, Oriol Vinyals, qui a dirigé le briefing, a qualifié le modèle de « magique ».

« [1.5 Pro] effectue ce genre de tâches de raisonnement sur chaque page, sur chaque mot », a-t-il déclaré.

C'était peut-être une exagération.

Dans l’une des études susmentionnées évaluant ces capacités, Karpinska, en collaboration avec des chercheurs de l’Allen Institute for AI et de Princeton, a demandé aux modèles d’évaluer les déclarations vraies/fausses sur les livres de fiction écrits en anglais. Les chercheurs ont choisi des travaux récents afin que les modèles ne puissent pas « tricher » en s'appuyant sur des connaissances préalables, et ils ont parsemé les déclarations de références à des détails spécifiques et à des points de l'intrigue qui seraient impossibles à comprendre sans lire les livres dans leur intégralité.

Compte tenu d'une déclaration telle que "En utilisant ses compétences d'Apoth, Nusis est capable de procéder à une ingénierie inverse du type de portail ouvert par la clé des réactifs trouvée dans le coffre en bois de Rona", Gemini 1.5 Pro et 1.5 Flash - après avoir ingéré le livre correspondant - ont dû dire si la déclaration était vraie ou fausse et expliquer son raisonnement.

Crédits image : UMass Amherst

Testés sur un livre d'environ 260 000 mots (~ 520 pages), les chercheurs ont constaté que 1.5 Pro répondait correctement aux affirmations vrai/faux dans 46,7 % du temps, tandis que Flash ne répondait correctement que 20 % du temps. Cela signifie qu'une pièce de monnaie répond bien mieux aux questions sur le livre que le dernier modèle d'apprentissage automatique de Google. En faisant la moyenne de tous les résultats de référence, aucun des deux modèles n'a réussi à atteindre un hasard plus élevé que le hasard en termes de précision des réponses aux questions.

"Nous avons remarqué que les modèles ont plus de difficulté à vérifier les affirmations qui nécessitent de considérer de plus grandes parties du livre, voire l'intégralité du livre, par rapport aux affirmations qui peuvent être résolues en récupérant des preuves au niveau de la phrase", a déclaré Karpinska. « Sur le plan qualitatif, nous avons également observé que les modèles ont du mal à vérifier les affirmations concernant des informations implicites qui sont claires pour un lecteur humain mais qui ne sont pas explicitement énoncées dans le texte. »

La deuxième des deux études, co-écrite par des chercheurs de l'UC Santa Barbara, a testé la capacité de Gemini 1.5 Flash (mais pas de 1.5 Pro) à « raisonner » sur des vidéos, c'est-à-dire à rechercher et à répondre à des questions sur leur contenu. .

Les co-auteurs ont créé un ensemble de données d'images (par exemple, une photo d'un gâteau d'anniversaire) associé à des questions auxquelles le modèle doit répondre sur les objets représentés dans les images (par exemple, « Quel personnage de dessin animé est sur ce gâteau ? »). Pour évaluer les modèles, ils ont choisi l’une des images au hasard et ont inséré des images « divertissantes » avant et après celle-ci pour créer des séquences de type diaporama.

Flash n'a pas très bien fonctionné. Dans un test qui demandait au modèle de transcrire six chiffres manuscrits à partir d'un « diaporama » de 25 images, Flash a réussi environ 50 % des transcriptions correctes. La précision est tombée à environ 30 % avec huit chiffres.

"Sur de véritables tâches de réponse à des questions sur des images, cela semble être particulièrement difficile pour tous les modèles que nous avons testés", a déclaré à TechCrunch Michael Saxon, doctorant à l'UC Santa Barbara et l'un des co-auteurs de l'étude. "Ce petit raisonnement - reconnaître qu'un nombre est dans un cadre et le lire - pourrait être ce qui brise le modèle."

Google fait trop de promesses avec Gemini

Aucune des études n'a été évaluée par des pairs et n'examine pas non plus les versions de Gemini 1.5 Pro et 1.5 Flash avec des contextes de 2 millions de jetons. (Les deux ont testé les versions contextuelles à 1 million de jetons.) Et Flash n'est pas censé être aussi performant que Pro en termes de performances ; Google le présente comme une alternative peu coûteuse.

Néanmoins, les deux alimentent le feu que Google a trop promis – et sous-estimé – avec Gemini depuis le début . Aucun des modèles testés par les chercheurs, y compris le GPT-4o d'Anthropic d'OpenAI et le Claude 3.5 Sonnet , n'a donné de bons résultats. Mais Google est le seul fournisseur de modèles à donner la priorité à la fenêtre contextuelle dans ses publicités.

« Il n'y a rien de mal à affirmer simplement : « Notre modèle peut prendre un nombre X de jetons » sur la base de détails techniques objectifs », a déclaré Saxon. "Mais la question est : que pouvez-vous faire d'utile avec cela ?"

D'une manière générale, l'IA générative fait l'objet d'une surveillance accrue à mesure que les entreprises (et les investisseurs) sont de plus en plus frustrées par les limites de la technologie.

Dans deux enquêtes récentes du Boston Consulting Group, environ la moitié des personnes interrogées – tous des cadres supérieurs – ont déclaré qu'elles ne s'attendaient pas à ce que l'IA générative entraîne des gains de productivité substantiels et qu'elles s'inquiétaient du potentiel d'erreurs et d'erreurs. compromissions de données résultant d’outils génératifs basés sur l’IA. PitchBook a récemment rapporté que, pendant deux trimestres consécutifs, la conclusion d'accords d'IA générative aux premiers stades a diminué, chutant de 76 % par rapport à son pic du troisième trimestre 2023.

Face aux chatbots résumant les réunions qui évoquent des détails fictifs sur des personnes et aux plateformes de recherche d’IA qui constituent essentiellement des générateurs de plagiat, les clients sont à la recherche de différenciateurs prometteurs. Google – qui a couru, parfois maladroitement , pour rattraper ses rivaux en matière d'IA générative – cherchait désespérément à faire du contexte de Gemini l'un de ces différenciateurs.

Mais le pari était semble-t-il prématuré.

"Nous n'avons pas trouvé de moyen de vraiment montrer qu'un 'raisonnement' ou une 'compréhension' sur de longs documents a lieu, et fondamentalement, chaque groupe publiant ces modèles bricole ses propres évaluations ad hoc pour faire ces affirmations", a déclaré Karpinska. . « Sans connaître la durée de mise en œuvre du traitement contextuel – et les entreprises ne partagent pas ces détails – il est difficile de dire dans quelle mesure ces affirmations sont réalistes. »

Google n'a pas répondu à une demande de commentaire.

Saxon et Karpinska estiment que les antidotes aux affirmations exagérées autour de l’IA générative constituent de meilleurs points de référence et, dans le même ordre d’idées, mettent davantage l’accent sur les critiques de tiers. Saxon note que l'un des tests de contexte long les plus courants (généralement cité par Google dans ses supports marketing), « l'aiguille dans la botte de foin », mesure uniquement la capacité d'un modèle à récupérer des informations particulières, comme des noms et des numéros, à partir d'ensembles de données - et non à répondre. des questions complexes sur ces informations.

"Tous les scientifiques et la plupart des ingénieurs qui utilisent ces modèles sont pour l'essentiel d'accord sur le fait que notre culture de référence actuelle est brisée", a déclaré Saxon. "Il est donc important que le public comprenne qu'il faut prendre ces rapports géants contenant des chiffres tels que "l'intelligence générale à travers les références" avec une importance considérable. grain de sel."

Commentaires