Home Sciences et technologies La leçon amère: l’avenir de la tokenisation

La leçon amère: l’avenir de la tokenisation

0 comments 96 views

24 juin 2025

Un monde de LLMS sans tokenisation est souhaitable et de plus en plus possible

Publié le 24/06/2025 • ⏱️ 29 min Read


Plongeons-nous dans le monde fascinant et potentiellement révolutionnaire des modèles de grande langue (LLM) et la quête pour les libérer des entraves de la tokenisation. Il ne s’agit pas seulement des détails techniques; Il s’agit de l’avenir de la façon dont nous interagissons et de la façon dont ces modèles puissants comprennent le langage. En tant que journaliste suivant attentivement les développements de l’intelligence artificielle (IA), j’ai vu de première main les limites de la tokenisation et les possibilités passionnantes d’un avenir «sans jeton».

L’envocation de la tokenisation: pourquoi c’est important

Pour ceux qui ne sont pas familiers, la tokenisation est le processus de décomposition du texte en unités plus petites – des token – que les LLM comprennent. Pensez-y comme la conversion de mots en une langue qu’un ordinateur peut traiter. Bien que apparemment simple, la tokenisation introduit les inefficacités et les limitations. La stratégie de tokenisation idéale vise un équilibre optimal entre la représentation de la compression des octets et les représentations granulaires du langage. Les approches modernes, comme le codage des paires d’octets (BPE), tentent d’y parvenir, mais même les systèmes les plus avancés ont leurs lacunes.

Un problème important est que les jetons sont «avec perte». Ils compressent des informations, supprimant potentiellement les nuances et le contexte qu’un modèle pourrait autrement tirer parti. Cela devient particulièrement perceptible avec le vocabulaire spécialisé, l’argot ou même les emojis et les nombres. Les modèles ont besoin d’un moyen d’être plus efficace pour extraire les nuances qui comptent sans utiliser la tokenisation.

Saviez-vous? Les méthodes de tokenisation comme BPE sont des procédures apprises qui extraient un vocabulaire compressé à partir d’un ensemble de données. Ces méthodes ne sont pas une exigence stricte des transformateurs, mais sont conçues pour réduire la charge de traitement.

La leçon amère et la quête de la généralité

Le champ d’IA est motivé par ce que l’on appelle «la leçon amère». Ce principe favorise les méthodes générales qui tirent parti de grandes quantités de données et de puissance de calcul sur des approches soigneusement conçues et spécifiques au domaine. Les LLM en témoignent, car la capacité du modèle s’est améliorée aux côtés des mises à niveau matérielle, plus de talents, des avancées architecturales et l’ubiquité des données initiales.

Cet effet de «loi d’échelle» a été une tendance clé dans le paysage LLM, et les LLM les plus réussies l’embrassent. Cela signifie que la quête pour optimiser la tokenisation, qui peut ressembler à une approche «fabriquée», peut être une solution difficile à vendre.

La recherche d’alternatives: au-delà des jetons

Les défis, cependant, sont importants. Les modèles au niveau des octets sont confrontés à des obstacles informatiques, car ils nécessitent le traitement d’un vocabulaire plus important (256 pour les octets contre 32 000 ou plus pour les jetons). Cela peut augmenter le temps de formation et, plus important encore, les coûts d’inférence. Mais les récompenses potentielles, en termes de compréhension plus complète du langage, sont importantes.

Conseil de pro: recherche sur Modèles au niveau des octets est en cours et les résultats sont prometteurs. Cependant, attendez-vous à ce que ces nouveaux modèles soient probablement beaucoup plus chers pendant un certain temps.

BYTE TRANSFORMEURS LATET: Un nouvel espoir?

BLT présente des avantages en ce qu’il est conçu pour augmenter la quantité d’informations traitées à la fois et est toujours en mesure de réduire les coûts de calcul et de mémoire. Il a une stratégie similaire à celle du décodage spéculatif pour résoudre ce problème, mais dans ce cas, le modèle réduit les échantillons d’octets, ce qui lui permet de modéliser plus d’octets à la fois et d’utiliser un transformateur global plus économe en mémoire.

Les principales fonctionnalités qui contribuent à l’efficacité de BLT comprennent:

  • Patchage dynamique: Utilisation de l’entropie d’un LLM de niveau d’octets plus petit pour déterminer où créer des patchs d’octets.
  • Approche à plusieurs échelles: L’utilisation des informations au niveau des octets avec le transformateur global est plus efficace.
  • Échelle contrôlée par calcul: Évaluer les performances par rapport aux modèles de sous-mots dans un paramètre contrôlé par calcul, plutôt qu’à un paramètre de calcul variable, pour fournir une comparaison plus juste.

Les implications de BLT

L’un des aspects les plus intéressants du BLT est qu’il peut être exécuté de deux manières différentes, ce qui crée une propriété «anti-fragile» intéressante. Il peut consacrer dynamiquement plus ou moins la puissance de calcul aux parties les plus inhabituelles du texte en augmentant ou en diminuant le nombre d’octets dans chaque patch. Cela signifie que les sous-séquences les plus surprenantes peuvent obtenir plus de puissance de calcul, et donc le BLT peut gagner plus de puissance de l’incertitude des événements OOD ou proches. Cela ouvre de nouvelles possibilités pour gérer les données hors distribution, les tâches de raisonnement complexes et les langues à faible ressource où les difficultés de tokenisation.

Cette architecture modèle pourrait avoir des implications de grande envergure pour le paysage LLM. Il pourrait ouvrir la voie à des modèles qui sont meilleurs pour comprendre les nuances subtiles du langage, la gestion des tâches complexes et l’adaptation à de nouvelles informations. L’architecture de BLT ouvre la porte à la création d’un modèle dont les performances augmentent avec plus de calcul.

L’évolution des LLM sera façonnée par plusieurs tendances clés:

  • Apprentissage de bout en bout: Alors que l’architecture BLT devient plus répandue, nous pouvons nous attendre à voir un passage vers des modèles qui apprennent l’ensemble du pipeline de traitement du langage, y compris la tokenisation, au lieu de compter sur des composants externes et formés séparément. Ceci est une dépression clé par rapport au fonctionnement de l’état actuel des LLMS.
  • Multimodalité: L’intégration du texte, des images, de l’audio et de la vidéo dans un seul LLM. Les modèles doivent gérer les informations sur différentes modalités, ce qui peut être un défi pour les méthodes de tokenisation actuelles, et ouvrir la porte aux modèles de bout en bout.
  • Architectures calculées par adaptation: Nous pouvons voir des architectures qui allouer des ressources informatiques dynamiquement basées sur la complexité de l’entrée. Cela inclut des correctifs dynamiques ainsi que d’autres méthodes qui peuvent compresser automatiquement ou développer les données en fonction de son contenu surprenant.

Attendez-vous à ce que ces tendances apportent l’innovation et perturbent l’ordre établi de la façon dont nous utilisons les LLM. Si l’industrie continue de suivre la voie de la leçon amère, alors la tokenisation externe peut tomber au bord du chemin, ouvrant la voie à des LLM plus puissantes.

Section FAQ

Q: Qu’est-ce que la tokenisation?

R: La tokenisation est le processus de décomposition du texte en unités plus petites (jetons) qu’un ordinateur peut comprendre.

Q: Pourquoi la tokenisation est-elle un problème?

R: Les méthodes de tokenisation actuelles peuvent entraîner une perte d’informations et une inefficacité, ainsi qu’un manque de granularité lors de la gestion du langage.

Q: Quels sont les modèles au niveau des octets?

R: Les modèles au niveau des octets traitent le texte du niveau d’octets au lieu d’utiliser des jetons, ce qui est plus efficace. C’est ce que les architectures comme BLT Levier pour être plus performante.

Q: Qu’est-ce qu’un transformateur latent (BLT) d’octets?

R: Le BLT est une architecture qui peut traiter les données en réduisant le texte, puis en effectuant un transformateur global sur les «correctifs» résultants de texte.

Q: Quels sont les avantages du BLT?

R: BLT peut mieux comprendre les nuances du langage, gérer des tâches plus complexes et s’adapter à de nouvelles informations.

Q: Le BLT est-il le «futur» des LLMS?

R: Il est trop tôt pour le dire, mais le BLT semble être un progrès majeur vers un avenir avec les caractéristiques qui permettent des performances plus élevées. La clé ici est les tests contrôlés par calcul et les résultats de ces études.

Q: Quels sont les principaux défis avec les modèles au niveau des octets?

R: Les modèles au niveau des octets ont le défi de gérer un vocabulaire beaucoup plus important d’informations, augmentant ainsi le temps de formation et les coûts de calcul.

Q: Comment BLT se compare-t-il aux autres modèles?

R: BLT a montré que l’architecture, dans des conditions contrôlées, peut évoluer les modèles actuels passés. Cela pourrait être un progrès majeur pour les modèles de l’avenir.

Q: Quelles sont les implications du BLT pour l’avenir?

R: Si BLT continue de donner des résultats positifs, alors il peut s’agir d’une nouvelle norme pour les LLM qui est également beaucoup plus efficace pour l’inférence.

Q: Comment cela affecte-t-il le tokenisation?

R: L’architecture du BLT lui permet d’être autonome, ce qui supprime la tokenisation de l’équation.

Q: Sur quoi dois-je garder un œil?

R: Surveillez les applications multimodales, les modèles de calcul adaptatifs et l’innovation continue autour du traitement linguistique plus efficace et l’impact sur les méthodes existantes.

Explorez plus:

Leave a Comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.