Home Sciences et technologies Follow live: Kings look to avoid sweep vs. Avalanche in Game 4

Follow live: Kings look to avoid sweep vs. Avalanche in Game 4

0 comments 41 views

L’extraction automatisée de données issues de documents non structurés franchit une nouvelle étape grâce à la reconnaissance d’entités nommées (NER). En associant la reconnaissance optique de caractères et le traitement du langage naturel, les entreprises peuvent désormais identifier précisément des informations clés, telles que des compétences professionnelles ou des clauses contractuelles, au sein de textes bruts.

La reconnaissance d’entités nommées, ou NER (Named Entity Recognition), est une technique de traitement du langage naturel (NLP) utilisée pour identifier et classifier des informations cruciales dans des textes non structurés. Ce procédé permet de repérer des noms propres — comme des personnes, des organisations ou des lieux — ainsi que des catégories plus spécifiques, notamment des dates, des produits ou des valeurs monétaires.

Pour opérationnaliser cette technologie, des solutions comme celles d’Amazon permettent de combiner deux services distincts : Amazon Textract et Amazon Comprehend. Le premier, basé sur l’apprentissage automatique (ML), extrait le texte et les données de documents scannés. Il dépasse la simple reconnaissance optique de caractères (OCR) en identifiant les contenus de champs dans des formulaires ou des informations organisées en tableaux.

Une fois le texte extrait, Amazon Comprehend intervient pour analyser le langage naturel. Ce service peut identifier des phrases clés, des lieux, des organisations, des événements ou encore le sentiment d’un texte. L’utilisation de la reconnaissance d’entités personnalisées permet ainsi d’extraire des données spécifiques aux besoins d’une entreprise, là où les catégories génériques ne suffisent pas.

Cette approche est particulièrement efficace pour traiter des documents où les informations ne sont pas présentées sous forme de structure clé/valeur. C’est le cas, par exemple, des contrats où les noms et les termes sont insérés dans des paragraphes, ou des curriculum vitae. Dans ce dernier cas, les sociétés de gestion de talents peuvent automatiser l’extraction des compétences d’un candidat pour obtenir des analyses rapides.

L’industrialisation de ces outils s’appuie sur des bases théoriques anciennes. Dès septembre 1997, la définition de la tâche d’entités nommées MUC-7 établissait déjà des règles de marquage précises, précisant notamment que les noms d’événements ne devaient pas être tagués, même lorsqu’ils se produisaient de manière régulière.

Leave a Comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.