Présentation de Claude Sonnet 4.5 \ Anthropic

ahsan65@gmail.comSeptember 29, 2025

0 0 8 minutes read

Présentation de Claude Sonnet 4.5 \ Anthropic

Claude Sonnet 4.5 est le meilleur modèle de codage au monde. C’est le modèle le plus fort pour construire des agents complexes. C’est le meilleur modèle pour utiliser des ordinateurs. Et cela montre des gains substantiels dans le raisonnement et les mathématiques.

Le code est partout. Il exécute chaque application, feuille de calcul et outil logiciel que vous utilisez. Être capable d’utiliser ces outils et la raison à travers des problèmes difficiles est la façon dont le travail moderne est effectué.

Claude Sonnet 4.5 rend cela possible. Nous le publions avec un ensemble de mises à niveau majeures de nos produits. Dans Claude Code, nous avons ajouté des points de contrôle – l’une de nos fonctionnalités les plus demandées – qui économisez vos progrès et vous permettez de revenir instantanément à un état précédent. Nous avons actualisé l’interface du terminal et expédié une extension de code native vs. Nous avons ajouté une nouvelle fonctionnalité d’édition de contexte et un outil de mémoire à l’API Claude qui permet aux agents de fonctionner encore plus longtemps et de gérer une complexité encore plus grande. Dans les applications Claude, nous avons apporté directement l’exécution du code et la création de fichiers (feuilles de calcul, diapositives et documents) dans la conversation. Et nous avons mis à disposition le Claude for Chrome Extension pour les utilisateurs max qui ont rejoint la liste d’attente le mois dernier.

Nous donnons également aux développeurs les éléments constitutifs que nous nous utilisons pour faire du code Claude. Nous appelons cela le SDK de l’agent Claude. L’infrastructure qui alimente nos produits de la frontière – et leur permet d’atteindre leur plein potentiel – est maintenant à vous de construire.

Il s’agit du modèle de frontière le plus aligné que nous ayons jamais sorti, montrant de grandes améliorations dans plusieurs domaines d’alignement par rapport aux modèles Claude précédents.

Claude Sonnet 4.5 est disponible partout aujourd’hui. Si vous êtes développeur, utilisez simplement claude-sonnet-4-5 via l’API Claude. Le prix reste le même que Claude Sonnet 4, à 3 $ / 15 $ par million de jetons.

Intelligence de la frontière

Claude Sonnet 4.5 est à l’état de l’art sur l’évaluation vérifiée SWE-Bench, qui mesure les capacités de codage logiciel du monde réel. En pratique, nous l’avons observé de maintenir la concentration pendant plus de 30 heures sur des tâches complexes et en plusieurs étapes.

Claude Sonnet 4.5 représente un bond en avant significatif sur l’utilisation de l’ordinateur. Sur OSWorld, une référence qui teste les modèles AI sur les tâches d’ordinateur du monde réel, Sonnet 4.5 mène désormais à 61,4%. Il y a seulement quatre mois, Sonnet 4 a tenu les devants à 42,2%. Notre extension Claude for Chrome met ces capacités améliorées à utiliser. Dans la démo ci-dessous, nous montrons à Claude travailler directement dans un navigateur, naviguer dans des sites, remplir des feuilles de calcul et accomplir des tâches.

Le modèle montre également des capacités améliorées sur un large éventail d’évaluations, y compris le raisonnement et les mathématiques:

Table de référence comparant les modèles frontaliers à travers les évaux publics populaires — Claude Sonnet 4.5 est notre modèle le plus puissant à ce jour. Voir les notes de bas de page pour la méthodologie.

Les experts en finance, en droit, en médecine et en STEM ont trouvé le Sonnet 4.5 montre une connaissance et un raisonnement spécifiques au domaine considérablement meilleurs par rapport aux modèles plus anciens, y compris l’OPU 4.1.

Les capacités du modèle se reflètent également dans les expériences des premiers clients:

“

Nous voyons des performances de codage de pointe de Claude Sonnet 4.5avec des améliorations significatives sur les tâches d’horizon plus longues. Il renforce pourquoi de nombreux développeurs utilisant le curseur choisissent Claude pour résoudre leurs problèmes les plus complexes.

“

Claude Sonnet 4.5 amplifie les forces principales de Github Copilot. Nos évaux initiaux montrent des améliorations significatives du raisonnement en plusieurs étapes et de la compréhension du code – permettant les expériences agentiques de Copilot pour gérer mieux les tâches complexes de base de base.

“

Claude Sonnet 4.5 est excellent dans les tâches de développement logicielapprendre nos modèles de base de code pour fournir des implémentations précises. Il gère tout, du débogage à l’architecture avec une compréhension contextuelle profonde, transformant notre vitesse de développement.

“

Claude Sonnet 4.5 Réduction de 44% du temps de réduction de la vulnérabilité de la vulnérabilité pour nos agents de sécurité HAI tout en améliorant la précision de 25%nous aider à réduire les risques pour les entreprises en toute confiance.

“

Claude Sonnet 4.5 est à la pointe des tâches de litige les plus complexes. Par exemple, l’analyse des cycles complets de briefing et la réalisation de recherches pour synthétiser d’excellentes premières versions d’une opinion pour les juges, ou interroger des dossiers de litige entiers pour créer une analyse détaillée du jugement sommaire.

“

Les capacités de modification de Claude Sonnet 4.5 sont exceptionnelles – Nous sommes passés du taux d’erreur de 9% sur Sonnet 4 à 0% sur notre référence d’édition de code interne. Un succès d’outil plus élevé à moindre coût est un saut majeur pour le codage agentique. Claude Sonnet 4.5 équilibre parfaitement la créativité et le contrôle.

“

Claude Sonnet 4.5 offre des gains impressionnants sur nos tâches les plus complexes et à long contexte – de l’ingénierie dans notre base de code aux fonctionnalités et recherches en cours. C’est sensiblement plus intelligent et un grand bond en avantnous aidant à pousser ce que les utilisateurs de 240 m et peuvent concevoir avec Canva.

“

Claude Sonnet 4.5 a sensiblement amélioré Figma faire des tests précocesce qui facilite la proximité et l’itéré. Les équipes peuvent explorer et valider leurs idées avec des prototypes plus fonctionnels et des interactions plus lisses, tout en obtenant la qualité de conception que Figma est connue.

“

Sonnet 4.5 représente une nouvelle génération de modèles de codage. Il est étonnamment efficace pour maximiser les actions par fenêtre de contexte grâce à l’exécution d’outils parallèles, par exemple en exécutant plusieurs commandes bash à la fois.

“

Pour Devin, Claude Sonnet 4,5 a augmenté les performances de planification de 18% et l’évaluation de bout en bout de 12% –Le plus gros saut que nous ayons vu depuis la sortie de Claude Sonnet 3.6. Il excelle à tester son propre code, permettant à Devin d’exécuter plus longtemps, de gérer les tâches plus dures et de fournir du code prêt pour la production.

“

Claude Sonnet 4.5 montre une forte promesse pour faire équipe rougegénérant des scénarios d’attaque créatifs qui accélèrent la façon dont nous étudions l’attaquant Tradecraft. Ces idées renforcent nos défenses entre les points d’extrémité, l’identité, le cloud, les données, le SaaS et les charges de travail de l’IA.

“

Claude Sonnet 4.5 réinitialise nos attentes –il gère plus de 30 heures de codage autonomelibérer nos ingénieurs pour lutter contre des mois de travail architectural complexe dans considérablement moins de temps tout en maintenant la cohérence à travers les bases massives.

“

Pour une analyse financière complexe – des produits structurés à risque, un dépistage du portefeuille – Claude Sonnet 4.5 avec réflexion Fournit des informations de qualité investissement qui nécessitent moins d’examen humain. Lorsque la profondeur compte plus que la vitesse, c’est un pas en avant significatif pour la finance institutionnelle.

Notre modèle le plus aligné à ce jour

En plus d’être notre modèle le plus compétent, Claude Sonnet 4.5 est notre modèle frontalier le plus aligné à ce jour. Les capacités améliorées de Claude et notre vaste formation sur la sécurité nous ont permis d’améliorer considérablement le comportement du modèle, en réduisant les comportements comme la sycophance, la tromperie, la recherche de pouvoir et la tendance à encourager la pensée délirante. Pour les capacités d’agence et d’utilisation informatique du modèle, nous avons également réalisé des progrès considérables sur la défense contre les attaques d’injection rapides, l’un des risques les plus graves pour les utilisateurs de ces capacités.

Vous pouvez lire un ensemble détaillé d’évaluations de sécurité et d’alignement, qui comprend pour la première fois des tests utilisant des techniques de l’interprétabilité mécaniste, dans la carte système Claude Sonnet 4.5.

Les scores globaux de comportement mal aligné d’un auditeur comportemental automatisé (plus bas, c’est mieux). Les comportements mal alignés comprennent (sans s’y limiter) la tromperie, la sycophance, la recherche de pouvoir, l’encouragement des délires et le respect des invites de système nuisibles. Plus de détails peuvent être trouvés dans la carte système Claude Sonnet 4.5.

Claude Sonnet 4.5 est publié dans nos protections de niveau de sécurité AI (ASL-3), selon notre cadre qui correspond aux capacités du modèle avec des garanties appropriées. Ces garanties comprennent des filtres appelés classificateurs qui visent à détecter les entrées et les sorties potentiellement dangereuses – en particulier celles liées aux armes chimiques, biologiques, radiologiques et nucléaires (CBRN).

Ces classificateurs peuvent parfois signaler par inadvertance le contenu normal. Nous avons permis aux utilisateurs de poursuivre les conversations interrompues avec Sonnet 4, un modèle qui pose un risque CBRN inférieur. Nous avons déjà fait des progrès significatifs dans la réduction de ces faux positifs, les réduisant par un facteur de dix depuis que nous les avons décrits à l’origine, et un facteur de deux depuis que Claude Opus 4 a été libéré en mai. Nous continuons à progresser pour rendre les classificateurs plus exigeants¹.

Le SDK de l’agent Claude

Nous avons passé plus de six mois à expédier des mises à jour de Claude Code, nous savons donc ce qu’il faut pour construire et concevoir des agents d’IA. Nous avons résolu des problèmes difficiles: comment les agents devraient gérer la mémoire sur les tâches de longue durée, comment gérer les systèmes d’autorisation qui équilibrent l’autonomie avec le contrôle des utilisateurs et comment coordonner les sous-agents travaillant vers un objectif partagé.

Maintenant, nous mettons tout cela à votre disposition. Le SDK de l’agent Claude est la même infrastructure qui alimente le code Claude, mais il montre des avantages impressionnants pour une très grande variété de tâches, pas seulement le codage. À ce jour, vous pouvez l’utiliser pour construire vos propres agents.

Nous avons construit Claude Code parce que l’outil que nous voulions n’existait pas encore. Le SDK de l’agent vous donne le même fondement pour construire quelque chose tout aussi capable pour le problème que vous résolvez.

Aperçu de la recherche bonus

Nous publions un aperçu de recherche temporaire aux côtés de Claude Sonnet 4.5, intitulé “Imagine with Claude”.

Dans cette expérience, Claude génère des logiciels à la volée. Aucune fonctionnalité n’est prédéterminée; Aucun code n’est pré-écrit. Ce que vous voyez, c’est la création de Claude en temps réel, répondant et s’adaptant à vos demandes lorsque vous interagissez.

C’est une démonstration amusante montrant ce que Claude Sonnet 4.5 peut faire – une façon de voir ce qui est possible lorsque vous combinez un modèle capable avec la bonne infrastructure.

“Imaginez avec Claude” est disponible pour les abonnés Max pour les cinq prochains jours. Nous vous encourageons à l’essayer sur Claude.ai/imagine.

Plus d’informations

Nous recommandons la mise à niveau vers Claude Sonnet 4.5 pour toutes les utilisations. Que vous utilisiez Claude via nos applications, notre API ou CLAUDE CODE, SONNET 4.5 est un remplaçant répertorié qui offre des performances bien améliorées pour le même prix. Les mises à jour du code Claude sont disponibles pour tous les utilisateurs. Les mises à jour de la plate-forme des développeurs Claude, y compris le SDK de l’agent Claude, sont disponibles pour tous les développeurs. L’exécution de code et la création de fichiers sont disponibles sur tous les plans payants dans les applications Claude.

Pour des détails techniques complets et des résultats d’évaluation, consultez notre carte système, notre page modèle et notre documentation. Pour plus d’informations, explorez nos postes d’ingénierie et nos articles de recherche sur la cybersécurité.

ahsan65@gmail.comSeptember 29, 2025

0 0 8 minutes read