Tether, l'émetteur du stablecoin USDT, a annoncé le lancement de ce qu'il décrit comme le premier framework de réglage fin LoRA multiplateforme conçu pour les modèles Microsoft BitNet, qui sont basés sur une architecture de modèle de langage de grande taille à 1 bit. Cette fonctionnalité est intégrée à son système QVAC Fabric et est censée réduire considérablement à la fois l'utilisation de la mémoire et les demandes de calcul. Selon l'entreprise, ce développement permet aux modèles de langage de grande taille, y compris ceux avec des milliards de paramètres, d'être affinés en utilisant du matériel grand public largement disponible tel que des ordinateurs portables, des unités de traitement graphique standard et des smartphones modernes.
Le développement et la maintenance des systèmes d'intelligence artificielle ont traditionnellement nécessité du matériel de niveau entreprise, en particulier une infrastructure NVIDIA spécialisée ou des environnements basés sur le cloud computing. Ces exigences ont contribué à des coûts opérationnels élevés, limitant l'accès au développement d'IA avancée principalement aux grandes organisations disposant de ressources financières substantielles et d'un accès à des systèmes informatiques spécialisés.
Tether a déclaré que son modèle de langage de grande taille QVAC Fabric, amélioré par le framework basé sur BitNet nouvellement introduit, répond à ces limitations en prenant en charge le réglage fin LoRA multiplateforme et en accélérant l'inférence sur une gamme de GPU grand public hétérogènes. Ceux-ci incluent du matériel d'Intel, AMD et Apple Silicon, entre autres. Par conséquent, les utilisateurs sont en mesure d'entraîner et de personnaliser des modèles d'IA directement sur des appareils grand public couramment disponibles plutôt que de s'appuyer sur une infrastructure centralisée.
L'entreprise a rapporté que son équipe d'ingénierie a démontré avec succès le réglage fin BitNet sur des unités de traitement graphique mobiles pour la première fois, y compris des plateformes telles que les GPU Adreno, Mali et Apple Bionic. Les tests internes ont indiqué qu'un modèle BitNet de 125 millions de paramètres pouvait être affiné en environ dix minutes sur un appareil Samsung S25 équipé d'un GPU Adreno en utilisant un ensemble de données biomédicales composé d'environ 300 documents, soit environ 18 000 jetons. Pour un modèle de 1 milliard de paramètres, le même ensemble de données a nécessité environ une heure et dix-huit minutes sur le Samsung S25 et une heure et quarante-cinq minutes sur un iPhone 16. L'entreprise a également signalé qu'elle avait pu étendre les tests à des modèles aussi grands que 13 milliards de paramètres sur l'iPhone 16 dans des conditions de capacité maximale de l'appareil.
D'autres résultats suggèrent que le framework peut prendre en charge le réglage fin de modèles jusqu'à deux fois la taille de modèles non-BitNet comparables fonctionnant sous quantification Q4 sur des appareils périphériques. Ce résultat est attribué à l'empreinte mémoire réduite associée à l'architecture BitNet.
En plus des améliorations de l'entraînement, le framework démontre également des performances d'inférence améliorées. Les tests menés sur des appareils mobiles ont indiqué que les modèles BitNet fonctionnent sensiblement plus rapidement lorsqu'ils sont exécutés sur des GPU, avec des vitesses de traitement allant de deux à onze fois supérieures à l'exécution basée sur CPU. Ces résultats indiquent que les GPU mobiles sont de plus en plus capables de gérer des charges de travail qui nécessitaient auparavant du matériel spécialisé ou des ressources de niveau centre de données.
Le système montre également des gains notables en efficacité mémoire. Les données de référence suggèrent qu'un modèle BitNet-1B utilisant la configuration TQ1_0 nécessite jusqu'à 77,8 pour cent de VRAM en moins par rapport à un modèle Gemma-3-1B 16 bits et 65,6 pour cent de moins qu'un modèle Qwen3-0.6B 16 bits pendant les processus d'inférence et de réglage fin LoRA. Ces réductions offrent une capacité supplémentaire pour exécuter des modèles plus grands et activer des fonctionnalités personnalisées sur du matériel qui aurait auparavant été considéré comme insuffisant.
Tether a en outre indiqué que le framework introduit des capacités de réglage fin LoRA pour les modèles de langage de grande taille à 1 bit sur du matériel non-NVIDIA pour la première fois, étendant la compatibilité aux plateformes AMD, Intel, Apple Silicon et GPU mobiles. En réduisant la dépendance à l'infrastructure spécialisée et aux services cloud, l'approche permet aux données sensibles de rester stockées localement sur les appareils des utilisateurs. L'entreprise a noté que cette efficacité peut également soutenir le développement de systèmes d'apprentissage fédéré, dans lesquels les modèles peuvent être entraînés de manière collaborative sur des appareils distribués tout en maintenant la confidentialité des données et en minimisant la dépendance aux systèmes centralisés.
L'article Tether lance le framework BitNet LoRA multiplateforme permettant l'entraînement et l'inférence d'IA avec des milliards de paramètres sur des appareils grand public est apparu en premier sur Metaverse Post.


