Google annonce une nouvelle ère pour la recherche vocale

Publié le 24 octobre 2023. Google révolutionne sa recherche vocale en introduisant une nouvelle approche, Speech-to-Retrieval (S2R), qui traite directement les requêtes audio sans passer par une transcription textuelle, promettant ainsi une expérience plus rapide et plus précise.

Le nouveau système S2R analyse directement la parole pour l’associer à des documents pertinents, contournant la conversion texte.
Cette méthode élimine les erreurs potentielles liées à la transcription audio-texte.
Elle repose sur un modèle de réseau neuronal à double encodeur pour une compréhension sémantique approfondie.

Jusqu’à présent, Google utilisait un système baptisé Cascade ASR. Avec cette approche, une requête vocale était d’abord convertie en texte avant d’être traitée par le moteur de recherche classique. Cette étape de transcription présentait cependant des limites, car elle pouvait entraîner une perte d’informations contextuelles et introduire des erreurs.

Le nouveau modèle, Speech-to-Retrieval (S2R), change radicalement la donne. Il s’agit d’un système d’apprentissage automatique basé sur des réseaux neuronaux, spécifiquement entraîné à associer des requêtes audio à des documents pertinents sans passer par l’étape intermédiaire du texte. Cette innovation permet une compréhension plus directe et conceptuelle de l’intention de l’utilisateur.

Un modèle à double encodeur pour une compréhension sémantique

Au cœur du système S2R se trouvent deux réseaux neuronaux distincts qui travaillent de concert :

L’encodeur audio : Ce réseau prend la requête vocale et la transforme en une représentation vectorielle. Ce vecteur capture la signification sémantique de ce qui a été dit.
L’encodeur de documents : Ce second réseau analyse le contenu textuel des documents (comme des pages web) et les représente également sous forme de vecteurs, reflétant leur sujet.

L’objectif de cet entraînement conjoint est de faire correspondre les requêtes vocales et les documents dans un « espace sémantique partagé ». Ainsi, les éléments ayant une signification similaire se retrouvent physiquement proches dans cet espace vectoriel.

L’encodeur audio : du son au sens

Concrètement, l’encodeur audio traduit le son de la voix humaine en une série de chiffres (un vecteur) qui encapsule le sens de la requête. Google illustre ce processus avec l’exemple du tableau « Le Cri » d’Edvard Munch. Une requête comme « la peinture du cri » est ainsi traduite en un point dans l’espace vectoriel, très proche des informations relatives à cette œuvre célèbre.

L’encodeur de documents : structurer l’information écrite

De manière symétrique, l’encodeur de documents traite les pages web et autres contenus textuels pour les transformer en leurs propres représentations vectorielles. Pendant la phase d’apprentissage, les deux encodeurs sont ajustés simultanément. L’objectif est que les vecteurs correspondant à des requêtes et des documents liés soient rapprochés, tandis que les vecteurs sans lien soient éloignés.

Des représentations vectorielles « riches »

Google met en avant le concept de « représentations vectorielles riches » générées par ces encodeurs. Il ne s’agit pas d’une simple correspondance de mots-clés, mais d’une intégration profonde du sens et du contexte de l’audio et du texte. Ces représentations codent l’intention de l’utilisateur.

Ainsi, même une requête formulée de manière informelle ou créative, comme « montrez-moi le maquillage hurlant de Munch », peut être comprise et rapprochée des documents pertinents sur « Le Cri ».

« La clé de ce modèle réside dans la manière dont il est formé. À l’aide d’un vaste ensemble de données de requêtes audio appariées et de documents pertinents, le système apprend à ajuster simultanément les paramètres des deux encodeurs. L’objectif de formation garantit que le vecteur d’une requête audio est géométriquement proche des vecteurs de ses documents correspondants dans l’espace de représentation. Cette architecture permet au modèle d’apprendre quelque chose de plus proche de l’intention essentielle requise pour la récupération directement à partir de l’audio, en contournant la fragile étape intermédiaire de transcription de chaque mot, qui constitue la principale faiblesse de la conception en cascade. »

Un processus de classement affiné

Le système S2R intègre également une phase de classement, similaire à celle de la recherche textuelle classique. Lorsqu’une requête vocale est formulée, l’encodeur audio la transforme en vecteur. Ce vecteur est ensuite comparé à l’index de Google pour identifier les documents dont le sens est le plus proche.

Une fois les correspondances potentielles établies, une couche de classement indépendante intervient. Elle combine les scores de similarité obtenus avec des centaines d’autres signaux – tels que la pertinence et la qualité – pour déterminer l’ordre final des résultats.

Des performances prometteuses

Dans ses évaluations comparatives, Google a opposé S2R à Cascade ASR et à une version « idéale » de ce dernier, Cascade Groundtruth. Les résultats montrent que S2R surpasse significativement Cascade ASR et atteint des performances quasi identiques à Cascade Groundtruth. Bien que prometteur, Google reconnaît qu’il reste encore des marges d’amélioration.

La recherche vocale entre dans une nouvelle ère

Malgré les pistes d’optimisation identifiées, Google a d’ores et déjà déployé son nouveau système S2R. Il est désormais actif dans plusieurs langues, y compris l’anglais, marquant le début d’une nouvelle ère pour la recherche vocale. « La recherche vocale est désormais alimentée par notre nouveau moteur Speech-to-Retrieval, qui obtient des réponses directement à partir de votre requête vocale sans avoir à la convertir au préalable en texte, ce qui permet une recherche plus rapide et plus fiable pour tout le monde », explique l’entreprise.

Pour en savoir plus sur cette avancée, vous pouvez consulter l’article de blog de Google :

Speech-to-Retrieval (S2R) : Une nouvelle approche de la recherche vocale

Google annonce une nouvelle ère pour la recherche vocale

Un modèle à double encodeur pour une compréhension sémantique

L’encodeur audio : du son au sens

L’encodeur de documents : structurer l’information écrite

Des représentations vectorielles « riches »

Un processus de classement affiné

Des performances prometteuses

La recherche vocale entre dans une nouvelle ère

Related

Leave a Comment Cancel Reply

À propos de nous

Google annonce une nouvelle ère pour la recherche vocale

Un modèle à double encodeur pour une compréhension sémantique

L’encodeur audio : du son au sens

L’encodeur de documents : structurer l’information écrite

Des représentations vectorielles « riches »

Un processus de classement affiné

Des performances prometteuses

La recherche vocale entre dans une nouvelle ère

Partager :

Related

Leave a Comment Cancel Reply

Critique du restaurant de Lucinda O’Sullivan : Réservé depuis des semaines, j’ai finalement trouvé une place dans cet endroit rétro avec une ambiance joyeuse et des sacs de saveurs

Arsenal s’excuse auprès de l’Atletico Madrid pour le manque d’eau chaude à l’Emirates Stadium

Tu pourrais aussi aimer

À propos de nous