Mise à jour des modèles linguistiques Gemini et Gemma

Lancement de 1.5 Flash et 1.5 Pro

Google a présenté la version 1.5 de Flash, une nouvelle itération de son modèle linguistique Gemini conçu pour les tâches à haute fréquence. Le modèle s’adresse aux développeurs qui souhaitent optimiser les applications nécessitant un traitement rapide des tâches d’intelligence artificielle, telles que la traduction linguistique en temps réel ou l’analyse instantanée de contenu.

Google propose également une évolution révolutionnaire avec la version 1.5 Pro, qui comporte une fenêtre contextuelle de deux millions de jetons, ce qui accroît considérablement la capacité du modèle à comprendre et à générer des séquences de texte plus complexes.

Google a mis ces outils à la disposition de tous dans plus de 200 pays et territoires, dans le cadre de ses efforts visant à créer une communauté mondiale de développeurs.

Les développeurs souhaitant explorer les capacités de Flash 1.5 peuvent le faire via l’API Gemini dans Google AI Studio. Cette accessibilité permet à un large éventail de développeurs, qu’il s’agisse de startups ou de géants technologiques établis, d’exploiter et d’intégrer des fonctionnalités d’IA avancées dans leurs applications.

PaliGemma : Extension de la famille de modèles ouverts Gemma

Google a également élargi la famille de modèles ouverts Gemma avec l’introduction de PaliGemma – une amélioration majeure des capacités d’IA multimodale du cadre Gemini.

PaliGemma est spécifiquement conçu pour les tâches vision-langage, traitant et interprétant simultanément les informations visuelles et textuelles. Ceci est essentiel pour le développement d’applications telles que le sous-titrage automatisé d’images, la réponse à des questions visuelles ou les outils éducatifs interactifs où l’intégration de données visuelles et textuelles permet une compréhension plus complète et une meilleure expérience pour l’utilisateur.

S’appuyant sur le cadre Gemini, PaliGemma tire parti de la solide infrastructure d’apprentissage automatique que Google a perfectionnée au fil des ans pour assurer la compatibilité et la facilité d’intégration avec les systèmes existants.

Cette démarche s’inscrit dans l’intention de Google de jouer un rôle de premier plan dans le domaine de l’IA en élargissant sans cesse la portée et l’applicabilité de ses technologies d’IA afin de répondre à des besoins divers et concrets.

Améliorations de l’API et nouvelles fonctionnalités

Les dernières améliorations apportées à l’API de Google visent à rationaliser les opérations d’IA et à accroître l’efficacité du traitement des demandes de données volumineuses.

L’introduction de la mise en cache du contexte se distingue comme une mise à jour essentielle pour améliorer les performances lors de la gestion d’invites volumineuses, un défi courant dans les applications pilotées par l’IA. Les développeurs peuvent conserver un cache des contextes précédemment calculés, ce qui réduit la redondance et accélère les temps de réponse.

La prise en charge de l’appel de fonctions en parallèle permet aux développeurs d’exécuter simultanément plusieurs demandes d’API. Il est conçu pour les applications qui nécessitent un traitement des données en temps réel et est particulièrement utile dans les environnements où le temps est un facteur critique, comme dans les algorithmes de trading financier ou les systèmes d’intervention d’urgence.

L’ajout de l’extraction d’images vidéo à la boîte à outils API de Google ouvre de nouvelles voies aux développeurs qui travaillent avec du contenu vidéo. Cela facilite l’analyse des données vidéo en permettant d’extraire des images spécifiques pour un traitement détaillé, ce qui est essentiel pour les applications dans les domaines de la sécurité, des médias et de la modération de contenu.

Intégration du cadre et développement de l’IA

Outils de formation accélérée et de mise au point

Les récentes annonces de Google s’inscrivent dans le cadre de l’amélioration de la productivité des développeurs et des performances des modèles dans plusieurs frameworks d’IA : Keras, TensorFlow, PyTorch, JAX et RAPIDS cuDF. Ils constituent la base du développement de l’IA, offrant diverses capacités allant de la création de réseaux neuronaux et de l’entraînement au traitement et à l’analyse avancés des données.

OpenXLA et LoRA dans Keras sont conçus pour accélérer la formation et l’ajustement des modèles. OpenXLA, qui pourrait être une extension ou une évolution de XLA (Accelerated Linear Algebra) de Google, optimise les calculs sous-jacents pour les rendre plus rapides et plus efficaces en termes de ressources. Ceci est important pour les entreprises qui ont besoin d’un déploiement rapide des modèles d’IA, réduisant ainsi le temps entre le concept et la production.

LoRA est idéal pour les applications où les mises à jour doivent être rapides et fréquentes, comme dans les conditions dynamiques du marché ou les scénarios d’interaction en temps réel avec l’utilisateur.

LoRA, ou Low-Rank Adaptation, utilisé dans Keras, offre une méthode pour affiner les modèles d’apprentissage profond plus efficacement. En n’adaptant qu’une petite partie des paramètres du modèle, LoRA réduit la charge de calcul généralement associée à l’apprentissage de grands modèles.

Amélioration du déploiement mobile et web

Google étend les capacités de TensorFlow Lite pour prendre en charge le déploiement des modèles PyTorch sur les appareils mobiles. Ceci est essentiel pour les entreprises qui développent des applications multiplateformes, car cela leur permet d’utiliser les fonctions de modélisation flexibles et intuitives de PyTorch avec les performances mobiles efficaces de TensorFlow Lite.

Ces nouvelles fonctionnalités facilitent le déploiement de modèles d’IA sur les appareils périphériques, ce qui est essentiel pour les applications nécessitant une faible latence et une grande confidentialité.

L’informatique en périphérie rapproche le traitement des données de leur source (c’est-à-dire l’appareil mobile ou le navigateur web), ce qui réduit les délais et préserve la confidentialité des données de l’utilisateur en localisant le traitement des données.

Pour les environnements web, ces avancées permettent aux développeurs d’intégrer des fonctions plus intelligentes directement dans les applications web sans inconvénient majeur en termes de performances. Par exemple, la traduction linguistique en temps réel, la recommandation de contenu personnalisé ou le traitement avancé des images peuvent désormais être intégrés de manière plus transparente dans les plateformes web.

Outils de développement Android

Google a intégré sa technologie d’IA avancée, Gemini, dans Android Studio, offrant aux développeurs des capacités assistées par l’IA pour mieux soutenir le développement d’applications. Cela permet de compléter le code de manière plus intelligente, de détecter les bogues et de suggérer des optimisations, ce qui accélère le processus de développement et améliore la qualité du code.

Ces outils sont désormais disponibles sur les derniers appareils Pixel et Samsung Galaxy, alimentant des calculs d’IA performants et à faible latence directement sur les smartphones. Le traitement sur l’appareil est essentiel pour les applications préservant la vie privée et pour les scénarios dans lesquels des temps de réponse rapides sont primordiaux, comme dans les jeux ou les applications de traduction en temps réel.

L’introduction de Gemini Nano et du service système AICore constitue une avancée majeure dans le traitement de l’IA sur l’appareil.

Parmi les autres fonctionnalités annoncées figure la prise en charge de Kotlin Multiplatform, qui permet aux développeurs d’utiliser une base de code unique pour déployer des applications sur plusieurs systèmes d’exploitation, réduisant ainsi le temps et les ressources de développement. Les optimisations de performance dans Jetpack Compose rationalisent le développement de l’interface utilisateur grâce à des processus de rendu plus efficaces.

En outre, la nouvelle reconnaissance de l’écriture manuscrite au stylet alimentée par l’IA améliore l’interaction avec l’utilisateur en permettant une saisie au stylet plus précise et plus réactive, ce qui peut être particulièrement utile pour les applications de prise de notes ou de conception graphique.

Outils de développement web : Nouvelles fonctionnalités et intégrations pour Chrome

Google travaille à l’amélioration des capacités du navigateur Chrome en intégrant Gemini Nano, qui fournit une IA sur l’appareil qui fonctionne sans que les données ne quittent l’appareil de l’utilisateur, ce qui garantit la confidentialité de l’utilisateur et un traitement rapide des données. Il est particulièrement utile pour le filtrage de contenu personnalisé et la saisie prédictive.

L’introduction de l’API Règles de spéculation est une autre amélioration notable conçue pour réduire les temps de chargement des pages en prédisant les actions des utilisateurs et en préchargeant les ressources nécessaires. Le chargement prédictif peut améliorer considérablement l’expérience des utilisateurs en rendant la navigation sur le web plus rapide et plus fluide.

Les transitions d’affichage favorisent une navigation fluide entre les pages sans les interruptions de chargement traditionnelles, créant ainsi une transition plus douce et plus attrayante pour les utilisateurs. Elle est particulièrement utile dans les applications web où l’engagement et l’expérience de l’utilisateur sont prioritaires.

Chrome DevTools comprend désormais des informations alimentées par l’IA, qui offrent aux développeurs des capacités de débogage avancées. Insights peut automatiquement suggérer des optimisations et identifier des problèmes potentiels avant qu’ils n’affectent l’utilisateur final, ce qui améliore considérablement l’efficacité du développement et la stabilité de l’application.

Projet IDX et mises à jour de Firebase

Google a ouvert le projet IDX à tous les développeurs, en supprimant l’obligation de liste d’attente. Il s’agit d’une solution de développement unifiée qui s’intègre à des outils tels que Chrome DevTools et offre un déploiement rationalisé vers Cloud Run, facilitant ainsi un flux de travail plus fluide du développement à la production.

Flutter 3.22 a également apporté des améliorations de performance grâce à l’utilisation d’Impeller pour améliorer la prise en charge des compilations Android et Web. Cette nouvelle mise à jour permet de rendre des animations plus complexes et des conceptions d’interface utilisateur plus fluides, ce qui améliore l’expérience de l’utilisateur final.

Firebase a été mis à jour pour prendre en charge le développement d’applications modernes en introduisant des fonctionnalités telles que la connectivité PostgreSQL sans serveur. Les développeurs peuvent ainsi utiliser les bases de données PostgreSQL dans leurs applications sans avoir à gérer l’infrastructure sous-jacente, ce qui simplifie l’utilisation et la maintenance des bases de données tout en garantissant leur évolutivité et leur fiabilité.

Conformité et soutien aux développeurs

Outils de conformité et de protection de la vie privée alimentés par l’IA

Google a également présenté Checks, une nouvelle plateforme de conformité alimentée par l’IA et conçue pour rationaliser les flux de travail relatifs à la confidentialité et à la conformité qui font partie intégrante du développement d’applications.

Les contrôles s’appuient sur des algorithmes avancés pour automatiser l’évaluation des risques en matière de protection de la vie privée et garantir la conformité avec les exigences réglementaires et les politiques internes tout au long du cycle de développement.

En intégrant les contrôles, les développeurs peuvent traiter de manière proactive les problèmes potentiels liés à la législation et à la protection de la vie privée, réduisant ainsi le risque de sanctions pour non-conformité et renforçant la confiance des consommateurs.

La plateforme est conçue pour être facile à utiliser, ce qui permet aux développeurs d’intégrer facilement des contrôles de conformité sans avoir besoin de connaissances juridiques spécialisées. Ceci est particulièrement critique dans des secteurs tels que la santé et la finance, où la conformité avec des réglementations strictes en matière de protection des données telles que HIPAA ou GDPR est obligatoire.

Checks s’assure que les applications répondent à ces normes strictes dès le départ, ce qui constitue une base solide pour le déploiement d’applications sécurisées.

Programme Google pour les développeurs : Incitations et ressources pour les développeurs

Le programme Google pour les développeurs, qui a été remanié, propose désormais une série de mesures incitatives destinées à soutenir et à encourager les développeurs dans leurs projets. Parmi ces incitations, notons l’accès gratuit à Gemini, des ressources d’apprentissage adaptées au développement de l’IA, et des crédits cloud.

Les ressources proposées ici visent à réduire la barrière à l’entrée pour les développeurs qui cherchent à intégrer les technologies de l’IA dans leurs applications, favorisant ainsi une communauté de développement plus dynamique et plus innovante.

L’accès gratuit à Gemini permet aux développeurs d’expérimenter et de déployer des technologies d’IA de pointe sans investissement initial, ce qui peut être particulièrement bénéfique pour les startups et les développeurs indépendants. Les ressources d’apprentissage, y compris les tutoriels, les exemples de code et les meilleures pratiques, permettent aux développeurs d’acquérir les compétences nécessaires pour utiliser efficacement ces technologies.

Parallèlement, les crédits cloud fournissent la puissance de calcul nécessaire à l’entraînement et au déploiement des modèles d’IA, ce qui permet aux développeurs de faire évoluer leurs applications en fonction de la demande des utilisateurs.

La vision de Google pour l’avenir du développement

Google s’est clairement donné pour mission d’aider les développeurs à concrétiser leurs idées novatrices à l’aide de sa gamme d’outils. Ils ont souligné leur engagement en faveur d’une innovation technologique continue, visant à fournir aux développeurs les outils les plus avancés nécessaires à la création d’applications puissantes et intelligentes.

Google se concentre sur le développement de solutions qui couvrent plusieurs plates-formes – mobile, web et pile complète – afin que les développeurs aient la flexibilité de créer des applications qui peuvent fonctionner de manière transparente dans différents environnements. Les capacités multiplateformes de ce type sont essentielles pour atteindre un public plus large et améliorer l’engagement des utilisateurs, car elles permettent aux consommateurs d’interagir avec les applications par le biais de leurs appareils et plateformes préférés.

Grâce à ces initiatives stratégiques, Google s’assure que les développeurs disposent des ressources, de l’assistance et de la technologie nécessaires pour réussir dans un monde de plus en plus numérique.

Tim Boesen

juin 10, 2024

12 Min