Connexion
7 565 Livres Blancs | | |

Catégorisation automatique de textes

  • EditeurDigimind
  • Version Pdf - 17 pages - Septembre 2006 - Français

Obtenir le livre blanc

 

Introduction ou extrait du livre blanc

"Face à l’accroissement de l’information disponible en ligne, la catégorisation automatique de textes s’impose de plus en plus comme une technologie clé dans la gestion de l’intelligence, aussi bien interne qu’externe, au sein de l’entreprise. Elle n’en reste pas moins un domaine scientifique et technique complexe qui requiert des connaissances avancées en matière de technologies de traitement du texte et du langage.

Ce livre blanc a pour but d’expliquer les objectifs, modes de fonctionnement et avantages de la catégorisation automatique dans le cadre d’une veille stratégique. Il présente l’approche retenue par Digimind dans sa technologie Digimind Categorizer. Il est important de souligner que ce livre blanc se concentre sur la catégorisation d’informations de veille stratégique.

Un algorithme de catégorisation automatique n’est pas pertinent en soi. Il est pertinent pour traiter un type d’information. Par exemple, un algorithme peut être excellent pour traiter le spam, et totalement inefficace pour classer une information de veille stratégique.

La catégorisation automatique de textes consiste à classer de manière automatisée des documents suivant certains critères (le thème du texte, son style, …). Elle connaît depuis une dizaine d’années un fort regain d’intérêt. Cela est dû essentiellement à la forte croissance des documents numériques disponibles et à la nécessité de les organiser de façon rapide.

C’est une discipline assez ancienne, datant des années 60 et qui a connu des progrès considérables (surtout à partir des années 90) avec l’apparition d’algorithmes beaucoup plus performants qu’auparavant. Elle a été appliquée avec succès à la classification automatique, la classification d’emails ou encore les filtres anti-spams. Jusqu’au début des années 80, pour construire un classifieur, il fallait consacrer d’importantes ressources humaines à cette tâche. Plusieurs experts éditaient des règles manuellement puis les affinaient au fur et à mesure des tests. L’avènement de l’apprentissage automatique s’est donc traduit par un gain de temps conséquent.

Il n’est plus nécessaire par exemple de reconfigurer tout le système en cas de changement d’arborescence. Ces évolutions technologiques et algorithmes avancés font aujourd’hui de la catégorisation un outil fiable."