Google GeminiGemini
Generalized Multimodal Intelligence Network
Google Gemini est une intelligence artificielle (IA), générative et multimodale, de type transformeur, créée par Google, annoncée lors de la conférence I/O destinée aux développeurs en juin 2023, puis présentée au public le 7 décembre 2023. Gemini signifie ici Generalized Multimodal Intelligence Network. Ce grand modèle de langage (LLM) a été formé sur un ensemble massif de données de texte et d'images, entraîné sur les Tensor Processing Units (TPU) de Google. Gemini peut comprendre et interagir avec l'audio et la vidéo, et générer du texte (poésie, scripts, pièces musicales, courriels, lettres, etc.), du code, des traductions (entre plus de 100 langues). Il peut produire plusieurs types de contenu créatif (images, dessins, sons, musique, vidéos...), aider des chercheurs en analysant des données ou en générant des hypothèses. Gemini peut répondre aux questions de manière informative ou en produisant des cours personnalisés, des jeux, des tutoriels..., avec les limites des IA (erreurs, biais, « hallucinations »...). Selon Demis Hassabis, Gemini doit peu à peu pouvoir se connecter à des éléments robotiques, être doté d'un sens du toucher et de capacités à agir sur des actionneurs, tout en devenant plus précis et plus conscient du contexte et du monde[1]. HistoireAu début des années 2020, dans le domaine de l'IA générative, Google a été distancé par ChatGPT. Tout en poursuivant ses projets d'IA (ex. : Teachable Machine, Quick Draw, AutoDraw, Art Palette, ou Semantris et BARD) Google a mis en avant son nouveau projet majeur : Gemini AI, qui est une collaboration entre Google Brain (connue pour avoir créé l'outil Google Traduction, ainsi que TensorFlow, les modèles Transformer (le T de GPT) et le modèle LaMDA, qui permet à Bard de fonctionner) et DeepMind (filiale de Google, notamment connue pour avoir créé AlphaGo, l'IA qui a battu Lee Sedol au jeu de go en 2016, et AlphaFold capable de prédire la structure des protéines). Ces deux groupes ont fusionné en 2023 pour accélérer la mise au point de Gemini après le succès de ChatGPT. Peu de données étaient disponibles sur Gemini avant décembre 2023, mais selon Google, ce nouveau système d'IA pourrait remplacer et améliorer PaLM 2 de Google, dont en intégrant des techniques plus efficaces d'apprentissage par renforcement, permettant une amélioration continue des capacités de l'IA à répondre à des questions complexes. Dès le début d'année 2023, Google avait annoncé une riposte claire à OpenAI au travers du projet Sparrow un chatbot qui avait l'avantage, contrairement à ChatGPT, de citer ses sources[2], gagnant ainsi en crédibilité. Gemini a été entrainé sur sur les Tensor Processing Units (TPU) de Google[1]. Plus rapide et moins couteux dans ses exécutions que les précédents modèles de Google (comme PaLM)[1], Gemini intègre en particulier des « mécanismes d'attention » (MA) perfectionnés, permettant aux réseaux de neurones artificiels de « concentrer » leurs calculs sur les parties les plus pertinentes des « données d'entrée », pour générer ensuite des « sorties » plus cohérentes, et répondant plus fidèlement aux « invites » des utilisateurs.
La capacité annoncée de Gemini à générer et combiner des objets sonores, visuels (graphiques et cartographie y compris) et du texte devrait également lui permettre de générer plus d'un type de données à la fois. En ce sens, Gemini se rapproche d'une intelligence artificielle générale (IAG) un peu plus que GPT-4. Gemini pourra probablement, par exemple, extraire des caractéristiques d'une vidéo, d'un podcast ou d'un texte complexe pour en générer une analyse ou un résumé en tenant compte plus finement des demandes de l'utilisateur, mais aussi — et éventuellement dans le même temps — créer du contenu nouveau et le mettre en page, l'illustrer d'images, de graphiques et/ou de cartographies, en créer une version vidéo ou podcast, multilingue, etc. Mi-2023, Gemini est encore en phase d'entraînement, et testé pour sa sécurité. Comme c'était déjà le cas pour PaLM 2, Google propose plusieurs itérations du modèle, de tailles différentes, qui seront exploitées en fonction des avancées de l'IA, des besoins émis en interne par les services ou filiales de Google, puis par les utilisateurs et clients, et en fonction de contraintes spécifiques[7]. Les versions de Gemini, en différentes tailles et capacités[8], pourraient être disponibles via le « Google Cloud Vertex AI » (anciennement « Google AI Platform »), une « plateforme d'apprentissage automatique, qui regroupe tous les services cloud de Google, permet de faciliter le déploiement et la maintenance des modèles d'IA »[7]. Google continue ses recherches et expérimentations sur la recherche générative assistée par IA. Gemini est présenté le 6 décembre 2023[1]. C'est une suite qui compte trois modèles :
Si Google DeepMind ne précise pas les tailles des modèles, l'accent est mis sur les performances du plus puissant (Gemini Ultra) par rapport à GPT-4[9] d'OpenAI, qui est alors de loin le modèle le plus puissant du marché. Il est annoncé aussi que Gemini Pro sera disponible pour les développeurs via le Google Generative AI Studio ou Vertex AI sur Google Cloud le 13 décembre 2023 et que Gemini Ultra sera proposée aux Data Centers et aux entreprises, d'abord en version beta contrôlée et dans un contexte expérimental sécurisée[1]. Le 15 février 2024, Google lance une nouvelle version plus avancée nommée Gemini 1.5 Pro. C'est aussi le premier modèle capable de prendre jusqu'à 1 million de tokens en entrée, même si la limite est fixée à 128 000 tokens dans un premier temps. Le même mois, Google suspend son outil de création d'images Gemini, « pensé pour promouvoir la diversité », après qu'il a généré des résultats embarrassants, refusant dans certains cas de représenter des personnes blanches ou générant des images historiquement fausses, telles que « des soldats nazis de couleur » ou le « pape imaginé en femme ». Des polémiques en série, dont l'une liée à l'affirmation de Gemini selon laquelle il serait « difficile de dire » qui de Hitler ou d’Elon Musk avait eu l’impact le plus négatif sur la société, poussent Sundar Pichai, le PDG de Google, à recadrer ses équipes. Il leur rappelle le risque de briser la confiance envers les produits Google. Il déplore les réponses embarrassantes de Gemini qui « ont fait preuve de partialité »[10],[11] En mai, une version allégée est lancée, nommée Gemini 1.5 Flash et capable d'accepter 1 million de tokens. Gemini 1.5 Pro bénéficie d'une amélioration à ce niveau, permettant d'utiliser jusqu'à 2 millions de tokens en entrée. En août 2024, Google introduit les « Gems », qui permettent de créer des versions personnalisées de Gemini que les utilisateurs définissent en fonction de leurs besoins[12]. C'est une réponse au GPT Store de OpenAI ou au Copilot Studio de Microsoft, et l'un des nombreux efforts que déploie le groupe pour tenter d'attirer du public vers Gemini, alors que l'adoption des professionnels et développeurs restent très faible par rapport aux rivaux[13]. DescriptionGemini, en tant qu'intelligence artificielle multimodale, c'est-à-dire capable de combiner plusieurs modes d'expression et de compréhension, s'inscrit dans la dernière génération d'intelligence artificielle[1]. Gemini a été annoncée en 2023 comme devant surpasser les modèles existants comme GPT-4, en pouvant traiter simultanément et de manière polyvalente un grand nombre de types différents de données (texte, images, cartographies, sons, vidéos ou graphiques). Elle peut ainsi répondre à une large variété de demandes, comme la génération de textes écrits, d'images, de sons et de code ; l'analyse de flux vidéo, la création de modèles 3D complexes, l'analyse et l'interprétation de graphiques complexes, de cartes, etc.[14],[15]. Selon Google, Gemini est particulièrement douée pour le codage informatique, grâce à son nouveau système de génération de code AlphaCode 2 qui lui permettrait de surpasser 85% des concurrents[1]. FonctionnementGemini utilise le réseau de neurone du modèle PaLM 2 et l'architecture (framework) « Google Transformer » qui sous-tend déjà d'autres modèles de langage à grande échelle comme l'IA BERT (Bidirectional Encoder Representations from Transformers) et GPT-3 (Generative Pre-trained Transformer 3) d'OpenAI. Il intègre aussi Duet AI, une IA qui peut générer du texte et des images. Par rapport à BARD, ChatGPT et d'autres IA, Gemini offrirait toutefois de nouvelles fonctionnalités et une avancée importante en termes d'IA : il peut aisément traiter des données multimodales grâce à son architecture unifiée capable d'encoder et décoder divers types de données en utilisant le même réseau (l'encodeur de Gemini convertit différents types de données en un langage commun que le décodeur peut comprendre et sur lequel l'IA peut travailler). Ce décodeur peut aussi ensuite générer des « sorties » de divers types[16]. En 2023, dans Wired, Demis Hassabis dit « À un niveau élevé, vous pouvez considérer Gemini comme combinant certaines des forces des systèmes de type AlphaGo avec les capacités linguistiques étonnantes des grands modèles », et il ajoute que Gemini permettra d'analyser des graphiques ou de contrôler des logiciels par la voix. Il s'y est aussi dit (en juin 2023) favorable à une ouverture anticipée de Gemini pour le milieu académique, afin que ce dernier puisse aider à évaluer cette nouvelle IA[17]. Selon le média The Information (14 septembre 2023), Gemini aurait aussi été testé par un groupe externe (restreint) de développeurs et d'entreprises. Notes et références
Voir aussiArticles connexes
Liens externes
|