1
La demande croissante d’intelligence artificielle sur disque entraîne le développement d’accélérateurs de bord, et la compréhension de leurs limites de performance est cruciale pour le déploiement efficace de réseaux de neurones profonds. Prashanthi SK, Kunal Kumar Sahoo et Amartya Ranjan Saikia, ainsi que leurs collègues, enquêtent sur les caractéristiques de l’énergie et du temps de ces accélérateurs, en particulier l’Agx Jetson Orin, à travers une gamme de milieux de puissance. Leur travail établit de nouveaux modèles analytiques, appelés «lignes de toit», qui révèlent des relations fondamentales entre le calcul, l’accès à la mémoire et la consommation d’énergie pour les tâches d’inférence et de formation. Cette recherche démontre que les modes de puissance par défaut couramment utilisés ne sont pas toujours les plus économes en énergie et, surtout, fournissent une méthode pour régler les paramètres de dispositifs pour réduire considérablement la consommation d’énergie avec un impact minimal sur les performances, offrant une voie vers un calcul de bord plus durable et puissant.
Inférence de bord, analyse de ligne de toit et apprentissage fédéré
Cette recherche détaille des enquêtes sur la performance et l’efficacité énergétique de apprentissage en profondeur Modèles pendant l’inférence sur les dispositifs de bord comme le Nvidia Jetson Agx Orin. L’objectif primordial est d’identifier les goulots d’étranglement des performances et de développer des méthodes pour optimiser les performances et réduire la consommation d’énergie. Une composante centrale de ce travail consiste à utiliser et à étendre le modèle de ligne de toit pour analyser et prédire les caractéristiques de performance, s’étendant au-delà des métriques simples pour inclure des considérations pour l’apprentissage fédéré, la tolérance aux défauts et les architectures du modèle. Le modèle de ligne de toit sert d’outil analytique principal, visualisant les limites de performance basées sur le débit de calcul et la bande passante de la mémoire.
Les chercheurs ont exploré des extensions sur le modèle de base de la ligne de toit, y compris une ligne de toit basée sur le temps se concentrant sur le temps d’exécution, une ligne de toit consciente du cache envisageant des hiérarchies de cache et une ligne de toit énergétique incorporant la consommation d’énergie. L’intensité arithmétique, le rapport des opérations à virgule flottante aux accès à la mémoire, est une métrique cruciale, avec des modèles présentant des caractéristiques variables ayant un impact sur les performances sur différentes plates-formes matérielles. La recherche examine comment ces considérations de performance s’appliquent aux scénarios et techniques d’apprentissage fédéré pour maintenir les performances même avec des défaillances matérielles. La bande passante de la mémoire limite fréquemment l’inférence d’apprentissage en profondeur, en particulier pour les modèles à faible intensité arithmétique, un défi prononcé sur les dispositifs de bord avec des ressources de mémoire limitées.
Les techniques d’optimisation telles que la quantification, l’élagage, la fusion du noyau et l’utilisation des noyaux du tenseur peuvent améliorer les performances et réduire l’empreinte de la mémoire, tandis que la mise à l’échelle de tension dynamique peut réduire la consommation d’énergie. Le travail couvre une gamme de modèles et d’ensembles de données, y compris la classification d’images avec Resnet et MobileNet, la détection d’objets avec Yolov8 et le traitement du langage naturel avec LSTMS et Bert, en utilisant des ensembles de données comme Wikitext et Squad. Les expériences d’apprentissage fédérées ont utilisé l’ensemble de données GLDV2V, en tirant parti de Nvidia Cuda, Nsight Compute et de l’outil de ligne de toit empirique, aux côtés de Tensorflow, Pytorch et des ensembles de données de visage étreintes. Les orientations de recherche futures comprennent le développement de modèles de lignes de toit plus sophistiqués, l’automatisation du réglage des performances, la hiérarchisation de l’optimisation conscient de l’énergie, le développement de techniques d’inférence tolérantes aux failles et l’application de l’analyse de la ligne de toit à l’apprentissage fédéré, avec un objectif clé sur l’inférence des modèles de langues importants sur les accélérateurs de bord. Reconnaissant les limites des approches existantes basées sur les données, l’équipe de recherche s’est concentrée sur la compréhension des raisons fondamentales des variations de performance à travers de nombreux modes de puissance, pionnier de la création d’une ligne de toit temporelle et d’un nouveau modèle de ligne de toit énergétique pour le Jetson Orin Agx. Ces modèles de lignes de toit étaient couplés à un modèle analytique quantifiant les opérations de calcul et l’accès à la mémoire pour les charges de travail DNN à inférence, permettant à l’équipe de disséquer les caractéristiques de performance des premiers principes et de révéler des informations sur la façon dont les différents modes de puissance ont un impact sur la vitesse et la consommation d’énergie. Les chercheurs ont méticuleusement analysé à quel point les fréquences de CPU, GPU et de mémoire variables affectent diverses couches DNN, compte tenu des passes avant et arrière pendant la formation et l’inférence, prolongeant l’analyse aux charges de travail de formation DNN. L’équipe a appliqué ces modèles pour régler le mode d’alimentation du dispositif Edge, optimisant à la fois pour la latence et la consommation d’énergie pendant l’inférence DNN, atteignant une réduction allant de 15% de la consommation d’énergie avec une dégradation minimale en temps d’inférence. La recherche se concentre sur la création de modèles Time et Energy Roofline, fournissant une compréhension détaillée des limites de calcul et des caractéristiques de consommation d’énergie de l’appareil dans un large éventail de conditions de fonctionnement. Les expériences révèlent que le mode de puissance MAXN par défaut, tout en offrant des performances de pointe, n’est pas nécessairement le plus économe en énergie. L’équipe a collecté des données sur la ligne de toit à partir de 96 modes de puissance divers, variant le GPU, le processeur et les fréquences de mémoire, pour cartographier les performances et l’efficacité énergétique, démontrant qu’un réglage minutieux du mode de puissance peut fournir une consommation d’énergie plus faible tout en maintenant une dégradation minimale en temps d’inférence. La recherche s’étend au-delà de l’inférence, analysant également six charges de travail de formation DNN en utilisant la même méthodologie de ligne de toit. Les modèles analytiques de l’équipe prédisent avec précision les performances des réseaux de neurones, offrant des informations sur la façon d’optimiser la configuration de l’appareil pour des tâches spécifiques, démontrant le potentiel de déplacer les limites de performances de l’appareil en ajustant les modes de puissance plutôt que de modifier le réseau neuronal lui-même.