Chargement...

 

Explorer != Rechercher

L'objectif est d'expliciter ici pourquoi explorer un corpus de documents sans connaissance à priori de celui-ci est un problème différent de celui de la recherche d'information.

L'exploration d'un corpus de données consiste à trouver le petit nombre de documents pertinents contenant des informations critiques parmi une grande masse de documents hétérogènes.

La capacité à extraire des informations pertinentes de corpus hétérogènes peut s'avérer être un atout majeur lors d'investigations cybercriminelles nécessitant par exemple d'identifier et d'extraire d'un ou plusieurs ordinateurs des fichiers d'intérêt.

Bien qu'il existe des solutions permettant de naviguer efficacement dans des corpus de documents couvrant un domaine particulier, par exemple la médecine, ou possédant un format homogène, par exemple des Tweets (1); ces solutions se généralisent mal à des corpus de documents hétérogènes (2)(3).

L’approche standard consiste généralement à effectuer une recherche par mots clefs puis à faire examiner les résultats un par un par un agent pour déterminer la pertinence de ceux-ci. Les challenges posés par cette approche sont les suivants :

  • Il est difficile de déterminer les mots clefs à utiliser pour éliminer rapidement le plus grand nombre de documents possibles.

  • Des documents pertinents peuvent être ignorés car les mots clefs sélectionnés ne sont pas suffisamment représentatifs de la question analytique posée (faux négatifs).

  • De nombreux documents peuvent ne faire que mentionner les mots clefs sélectionnés « en passant » (faux positifs). De plus, certains des mots clefs utilisés peuvent ne pas être suffisamment discriminants car ils possèdent plusieurs significations (ex. acronymes largement en usage dans les organisations gouvernementales)

  • Tous les documents pertinents renvoyés lors d’une recherche ne sont pas pertinents de la même manière. La fréquence d’apparition d’un mot clef dans un document peut ne pas être corrélé à la pertinence du document (ex. documents techniques). D’expérience, les algorithmes TF-IDF et BM25 se comportent assez mal dans ce genre de situation.

  • Quand le contenu du corpus de documents n’est pas connu « à priori », il est difficile pour un agent de sélectionner des mots clefs pertinents pour commencer ses recherches.

Références

  1. Enrico Bertini. From Data Visualization to Interactive Data Analysis. 2017.
  2. Navigating Information Facets on Twitter. Kumar, S., et al. 2012.
  3. MIT Lincoln Laboratory. Structured Knowledge Space. 2013.
  4. Maiya, Arun S., et al. Evaluating Highly Heterogeneous Document Collections. Institute for Defense Analysis. 2015.