Amazon Web Services a annoncé vendredi qu'il installera des processeurs de Cerebras dans ses centres de données dans le cadre d'un partenariat pluriannuel axé sur l'inférence d'IA. L'accord donneAmazon Web Services a annoncé vendredi qu'il installera des processeurs de Cerebras dans ses centres de données dans le cadre d'un partenariat pluriannuel axé sur l'inférence d'IA. L'accord donne

Amazon exploite les puces à l'échelle de wafer de Cerebras pour booster les modèles d'IA sur AWS

2026/03/14 08:32
Temps de lecture : 5 min
Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : crypto.news@mexc.com

Amazon Web Services a annoncé vendredi qu'il installerait des processeurs de Cerebras dans ses centres de données dans le cadre d'un partenariat pluriannuel axé sur l'inférence IA.

L'accord donne à Amazon un nouveau moyen d'accélérer la façon dont les modèles IA répondent aux invites, écrivent du code et gèrent les demandes des utilisateurs en direct. AWS a déclaré qu'il utilisera la technologie Cerebras, y compris le Wafer-Scale Engine, pour les tâches d'inférence.

Les sociétés n'ont pas communiqué les conditions financières. La configuration est prévue pour Amazon Bedrock à l'intérieur des centres de données AWS, plaçant le partenariat directement au sein de l'un des principaux produits IA d'Amazon.

AWS a déclaré que le système combinera des serveurs alimentés par Amazon Trainium, des systèmes Cerebras CS-3 et le réseau Elastic Fabric Adapter d'Amazon.

Plus tard cette année, AWS prévoit également de proposer des modèles de langage de grande taille open-source de premier plan et Amazon Nova sur du matériel Cerebras. David Brown, vice-président des services de calcul et de ML chez AWS, a déclaré que la vitesse reste un problème majeur dans l'inférence IA, en particulier pour l'assistance au codage en temps réel et les applications interactives.

David a déclaré : "L'inférence est là où l'IA apporte une réelle valeur aux clients, mais la vitesse reste un goulot d'étranglement critique pour les charges de travail exigeantes comme l'assistance au codage en temps réel et les applications interactives."

Amazon sépare le prefill et le décodage sur des puces distinctes

AWS a déclaré que la conception utilise une méthode appelée désagrégation de l'inférence. Cela signifie diviser l'inférence IA en deux parties. La première partie est le traitement des invites, également appelé prefill. La deuxième partie est la génération de sortie, également appelée décodage.

AWS a déclaré que les deux tâches se comportent très différemment. Le prefill est parallèle, lourd en calcul et nécessite une bande passante mémoire modérée. Le décodage est séquentiel, plus léger en calcul et beaucoup plus dépendant de la bande passante mémoire. Le décodage prend également la plupart du temps dans ces cas car chaque jeton de sortie doit être produit un par un.

C'est pourquoi AWS attribue un matériel différent à chaque étape. Trainium gérera le prefill. Cerebras CS-3 gérera le décodage.

AWS a déclaré que le réseau EFA à faible latence et à haut débit connectera les deux côtés afin que le système puisse fonctionner comme un seul service tandis que chaque processeur se concentre sur une tâche distincte.

David a déclaré : "Ce que nous construisons avec Cerebras résout ce problème : en divisant la charge de travail d'inférence entre Trainium et CS-3, et en les connectant avec l'Elastic Fabric Adapter d'Amazon, chaque système fait ce qu'il fait de mieux. Le résultat sera une inférence d'un ordre de grandeur plus rapide et de meilleures performances que ce qui est disponible aujourd'hui."

AWS a également déclaré que le service fonctionnera sur le système AWS Nitro, qui est la couche de base de son infrastructure cloud.

Cela signifie que les systèmes Cerebras CS-3 et les instances alimentées par Trainium devraient fonctionner avec la même sécurité, isolation et cohérence que les clients AWS utilisent déjà.

Amazon pousse Trainium plus fort alors que Nvidia fait face à une autre menace

L'annonce donne également à Amazon une autre ouverture pour promouvoir Trainium contre les puces de Nvidia, AMD et d'autres grandes sociétés de puces. AWS décrit Trainium comme sa puce IA interne conçue pour des performances évolutives et une efficacité des coûts à travers l'entraînement et l'inférence.

AWS a déclaré que deux laboratoires d'IA majeurs y sont déjà engagés. Anthropic a désigné AWS comme son principal partenaire d'entraînement et utilise Trainium pour entraîner et déployer des modèles. OpenAI consommera 2 gigawatts de capacité Trainium via l'infrastructure AWS pour Stateful Runtime Environment, les modèles frontières et d'autres charges de travail avancées.

AWS a ajouté que Trainium3 a connu une forte adoption depuis sa récente sortie, avec des clients de tous les secteurs engageant une capacité importante.

Cerebras gère le côté décodage de la configuration. AWS a déclaré que le CS-3 est dédié à l'accélération du décodage, ce qui lui donne plus de place pour des jetons de sortie rapides. Cerebras affirme que le CS-3 est le système d'inférence IA le plus rapide au monde et offre une bande passante mémoire des milliers de fois supérieure à celle du GPU le plus rapide.

La société a déclaré que les modèles de raisonnement représentent désormais une plus grande part du travail d'inférence et génèrent plus de jetons par demande lorsqu'ils résolvent des problèmes. Cerebras a également déclaré qu'OpenAI, Cognition, Mistral et d'autres utilisent ses systèmes pour des charges de travail exigeantes, en particulier le codage agentique.

Andrew Feldman, fondateur et directeur général de Cerebras Systems, a déclaré : "Le partenariat avec AWS pour construire une solution d'inférence désagrégée apportera l'inférence la plus rapide à une clientèle mondiale."

Andrew a ajouté : "Toutes les entreprises du monde entier pourront bénéficier d'une inférence extrêmement rapide au sein de leur environnement AWS existant."

L'accord ajoute plus de pression sur Nvidia, qui en décembre a signé un accord de licence de 20 milliards de dollars avec Groq et prévoit la semaine prochaine de dévoiler un nouveau système d'inférence utilisant la technologie Groq.

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y avec notre newsletter.

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter crypto.news@mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.