Évitez la navigation.
AFUL · Parinux · FFII France · APRIL · ADULLACT · MongueursPerl · Wikipédia · OFSET · Scidéralle · LéaLinux · LinuxFrench · LinuxFr · FirstJeudi · AgendaLibre

sylvain(à)lhullier(.)org

Difficultés et techniques
pour l'indexation et la recherche
de documents sur Internet

© 1999 - Philippe Blayo / Sylvain Lhullier
Rapport de linguistique en DEA informatique

Introduction

Rechercher une information passe le plus souvent par les moyens traditionnellement regroupés dans une bibliothèque : livres, presse, etc. Mais depuis peu, deux autres importantes sources d'information, électroniques celles-là, sont apparues : les CDROMs et Internet.

Les premiers sont forts similaires aux média papiers, de par leur contenu figé pour l'éternité et leur facilité à être classés.

Internet par contre, de par sa nature même, est une réelle nouveauté et pose d'importants problèmes quand il s'agit d'y effectuer une recherche. En effet, notamment en raison de l'anarchie qui y règne, Internet nécessite d'autres méthodes d'indexation et de recherche que les média papiers.

Présentation du Web

Créé dans les années 1970 par les militaires aux États-Unis, Internet s'est depuis beaucoup démocratisé. Vers 1980 apparaissent sur ce réseau les premières universités et organismes publiques de recherche des USA. Quelques années plus tard, le réseau s'ouvre au reste du monde : universités et écoles puis entreprises et particuliers utilisent aujourd'hui Internet.

L'accroissement du réseau Internet se manifeste sous plusieurs aspects :

Les avantages de ce réseau sont en effet nombreux :

Parmi les nombreuses composantes actuelles de l'Internet, le Web est certainement (avec le courriel) la plus populaire ; c'est un ensemble de pages constituées de textes, d'images et de liens permettant d'accéder à d'autres pages.

Tout chercheur peut ainsi rendre accessible ses travaux sans les contraintes de l'édition papier. De même, la communication scientifique est facilitée par le courrier électronique et les innombrables forums et "lettres" d'information en version électronique. Les possibilités d'accès à la connaissance sont donc potentiellement plus rapides grâce au réseau Internet. Par ailleurs, l'accès à l'information par l'intermédiaire du réseau n'est plus limité aux informations publiques et gratuites. Les banques de données commerciales proposent peu à peu des accès à leurs sources d'informations via le réseau. De même des journaux proposent le contenu de leurs archives gratuitement ou de manière payante.

Le réseau est donc en train de s'imposer comme source d'information complémentaire des services classiques. Mais il ne suffit pas d'être au sommet d'une montagne d'ouvrages pour devenir soudain plus intelligent. Il faut pouvoir retrouver l'information pertinente sur le réseau et savoir l'exploiter. Or la nature de l'Internet veut qu'elle soit éparpillée, non centralisée.

Cela fait sa force mais aussi sa faiblesse. La structure même du réseau rend difficile la recherche de l'information. Structure très décentralisée, elle est organisée de manière radicalement différente des bases de données ordinaires.

Ces contraintes ont transformé la recherche d'information sur Internet en une démarche ardue. La quête des ressources pertinentes sur un sujet donné est donc logiquement devenue un problème essentiel des internautes.

L'activité de recherche de documents sur Internet fait intervenir trois types d'acteurs :

Les difficultés de cette activité résident en grande partie dans la nature profondément diversifiée de ces acteurs et la nécessité qui en découle de les considérer comme des entités distinctes.

Difficultés de l'indexation et de la recherche

Divers problèmes apparaissent lors d'une indexation ou d'une recherche sur Internet.

L'indexation

L'indexation est le choix de mots clefs qui permettent d'identifier les thèmes majeurs d'un document : pour le caractériser, pour le retrouver dans un corpus documentaire, et pour donner un rapide aperçu de son contenu au lecteur.

Caractérisation

Dans son acception la plus générale, l'indexation a pour but de faciliter l'accès au contenu d'un document (ou d'un ensemble de documents) à partir d'un sujet ou d'une combinaison de sujets (ou de tout autre type d'entrées utile à la recherche).

Cela s'applique aussi bien à l'élaboration des index situés généralement en fin d'ouvrage qu'à l'usage des langages documentaires pour analyser le contenu des documents et permettre par la suite, grâce aux fichiers ou à la banque de données ainsi alimentée, la recherche d'information. Ainsi, la notion d'indexation se trouve-t-elle au coeur de la pratique documentaire : elle constitue l'opération centrale du traitement des documents au sein de la chaîne documentaire classique.

L'une des difficultés de l'acte d'indexer tient au fait qu'il fait référence au document, mais qu'il ne peut faire abstraction ni de l'usage ni de l'environnement. L'indexeur doit à la fois considérer le document comme une entité en soi et envisager, dans la mesure du possible, les utilisations qui pourront en être faîtes en n'oubliant pas que le résultat de l'indexation peut être utilisé par l'usager comme un indicateur du contenu et se substituer partiellement à un résumé ou à une analyse complète du document. [2]

L'indexation vise donc l'information contenue dans un document, d'ou des difficultés pour indexer un document sur le World Wide Web :

Méthodologie

Dans le cadre d'une indexation classique, les bibliothécaires et les documentalistes s'appuient le plus souvent sur un thésaurus.

Un thésaurus est une liste normalisée de termes acceptés à l'indexation (les descripteurs) et d'équivalents. Ces descripteurs sont exprimés par des signes conventionnels et reliés entre eux par des relations sémantiques de deux types : génériques par hyperonyme-hyponyme et associatives par synonymes.

Les termes sont combinés entre eux pour décrire les documents (lors de l'indexation) et écrire les questions lors de l'interrogation d'une banque de données. Un thésaurus permet de décrire des documents de tous types : textes, images fixes, images animées... Il facilite les recherches dans une base de données en limitant le bruit et le silence documentaires, grâce au contrôle des homographes et au rapprochement des synonymes [3].

L'absence de thésaurus au niveau mondial est certainement une des causes aggravantes des difficultés rencontrées à l'heure d'indexer ou de rechercher des documents sur Internet.

La génération d'un tel thésaurus semble quasiment impossible devant l'hétérogénéité des documents présents sur le réseau (notamment de par la multiplicité des langues utilisées et des sujets traités). Bien que son utilisation s'il existait serait hors de portée du plus grand nombre, un type d'outil de recherche tente de combler ce manque : les répertoires thématiques validés.

La recherche

Les outils de recherche sont soumis à des contraintes dont la sévérité s'exprime à divers degrés.

La réponse à une requête doit être déterministe au sens où elle ne doit dépendre que des termes de celle-ci. Ainsi, si la base de donnée n'a pas été modifiée entre temps, deux requêtes identiques doivent engendrer deux réponses identiques.

La satisfaction du plus large public possible nécessite l'utilisation d'interfaces dépouillées. La multiplication des options de recherches et des boutons va donc à l'encontre de cet objectif. L'idéal serait de ne présenter qu'un seul et unique bouton sur la page d'accueil des moteurs de recherche.

Cependant, la réponse d'un moteur à une requête comporte dans la plupart des cas un très grand nombre d'entrées. Plus le sujet est commun, plus il est traité, et plus ce nombre sera élevé. Ainsi, les sujets qui intéressent le plus le grand public sont ceux-là même qui engendrent le plus grand volume de réponses. Il est très courant que ce volume représente plusieurs milliers, voire plusieurs millions de pages.

Aucun utilisateur, aussi motivé soit-il ne parviendrait à trouver ce qu'il cherche dans une telle masse de documents. Aussi, ce nombre doit être réduit de plusieurs ordres de grandeur.

Malheureusement, si la recherche vise à l'exhaustivité, le silence n'est pas permis. Aussi est-il difficile pour le moteur lui-même de réduire ce nombre sans l'aide de l'instigateur de la requête.

En effet, une partie plus ou moins grande des réponses constitue du bruit. Une part de ce bruit est générée par la polysémie des termes dans une langue et entre les langues.

Les sigles de trois lettres sont particulièrement polysémiques. Par exemple, ``BSE'' signifie en anglais, entre autres, Bovine Spongiform Encephalopathy, Breast Self Examination, Bombay Stock Exchange, ou encore Bachelor of Science in Engineering. Or, dans la plupart des cas, une seule des significations intéresse l'utilisateur. Il semble donc possible de filtrer ce type de bruit.

L'une des premières solutions envisagée pour réaliser ce type de filtrage a été la logique bouléenne.

Cependant, l'utilisation d'opérateurs bouléens pour construire une requête ne peut pas être retenue pour une utilisation grand public (Altavista a délaissé cette approche).

Aussi les moteurs de recherche ont-ils été amenés à envisager d'autres solutions pour améliorer la pertinence de leurs réponses.

Techniques actuelles

Plusieurs techniques sont utilisées aujourd'hui pour permettre aux personnes qui naviguent sur Internet de trouver des documents correspondant à l'information qu'elles recherchent.

La recherche thématique

La façon plus simple de proposer des liens vers des sites est d'insérer ces liens dans une page fixe ; tous les concepteurs de sites Web ont fait celà sous la forme d'une page nommée " mes liens préférés " ou "  autres sites sur le sujet ". Dès que le nombre de liens devient important, il devient nécessaire de la classer dans des catégories hiérarchisées sous forme de thésaurus.

C'est ainsi que sont nés les premiers outils permettant de rechercher des documents sur Internet : les catalogues.

Lorsque le domaine de la base de données à indexer est très étroit, il est possible de proposer à l'utilisateur une recherche thématique faisant appel à une taxinomie pertinente du domaine. Cette classification est en général figée et les documents ainsi organisés le sont de façon manuelle ou semi-manuelle par des experts du domaine, ce qui est souvent un gage de pertinence. Le rôle de ces experts se limite souvent à vérifier que la thématique qui leur est soumise est correcte.

L'utilisation de telles taxinomies est évidemment très intéressante car elle permet une navigation très rapide et très facile, et augmente singulièrement la qualité des recherches. En revanche, une telle approche est peu adaptée à des bases de données à spectre large, comme le Web, pour lesquels l'idée même de taxinomie statique n'a pas grand sens, mais également aux domaines qui évoluent rapidement, rendant la classification obsolète avant même qu'elle ne soit achevée.

Le lecteur trouvera un exemple de la méthode de recherche thématique à l'adresse http://www.yahoo.com/ en effectuant une recherche par catégorie.

L'estimation automatique de pertinence

La technique de recherche documentaire la plus répandue est l'utilisation d'un algorithme d'estimation automatique de pertinence (ranking en anglais).

Le moteur de recherche applique des heuristiques afin d'établir un ordre parmi tous les documents qui correspondent à la requête de l'utilisateur et pour lui présenter prioritairement ceux jugés les plus pertinents.

Les heuristiques utilisées sont des critères arbitraires tels que :

Beaucoup de moteurs de recherche sur Internet utilisent cette méthode pour essayer de limiter l'impact de la taille de leur base de données.

Malheureusement les techniques d'estimation automatique de pertinence sont intrinsèquement limitées : les algorithmes utilisés n'étant en général pas connus des utilisateurs, cette méthode a un côté mystérieux qui, aussi séduisante soit-elle de par sa simplicité, rend son utilisation assez délicate dès que la taille de sa base de données augmente et que le nombre de termes utilisés dans la requête est faible.

En effet, il est assez peu probable qu'un mécanisme de ce type permette de choisir la "bonne" dizaine de documents parmi tous ceux qui parlent d'un sujet donné sur le Web, car la plupart des thématiques sont très vastes et ne peuvent donc pas être réduites à un si faible nombre de documents. Sans indications supplémentaires fournies explicitement par l'utilisateur, il est donc impossible de savoir précisément à quoi il s'intéresse.

Par exemple, si l'utilisateur effectue une recherche sur les mots "effet de serre", on ne peut pas savoir quels documents présenter parmi les 85 000 parlant de ce sujet sur le Web. Il faudrait savoir si l'utilisateur s'intéresse plutôt à la partie scientifique (absorption des rayonnements infrarouges par les gaz à effet de serre, modèle de circulation océanique, etc), aux impacts socio-économiques (politiques énergétiques, carburants de substitution, nucléaire, etc), au impacts sur les écosystèmes (fonte des glaces polaires, montée du niveau des océans, etc), etc.

Pour constituer leur index, ces moteurs de recherche utilisent des méthodes automatiques : un programme va effectuer sans intervention humaine une récolte la plus large possible de documents présents sur le réseau.

La technique la plus courante consiste à partir de l'adresse des pages déjà connues et à "suivre" les liens proposés dans ces pages. Par exemple, si une page déjà connue par le moteur de recherche a été modifiée et propose des nouveaux liens vers des sites inconnus, ces sites vont être parcourus, indexés et à leur tour subiront une analyse des liens qu'ils proposent.

Le plus souvent ce parcours de liens se fait en largeur pour éviter les problèmes dus aux puits (ces pages web qui s'auto-génèrent).

Cette technique est donc simple pour l'utilisateur, efficace sur des corpus de taille raisonnable, mais reste un mécanisme opaque et donc l'utilisateur ne peut orienter sa recherche.

Le lecteur trouvera un exemple de la méthode d'estimation automatique de pertinence à l'adresse http://www.google.com/ ou http://www.altavista.com/ en effectuant une recherche classique par mots clefs.

Le contrôle de pertinence

Pour répondre aux problèmes posés par l'estimation automatique de pertinence, a été mise sur pied une autre technique appelée "contrôle de pertinence" (relevance feedback en anglais), qui permet à l'utilisateur d'émettre un jugement sur la pertinence des documents proposés en réponse à ses requêtes. Ce jugement est alors automatiquement pris en compte par le moteur de recherche qui reformule la requête de manière plus précise et permet ainsi d'affiner la recherche.

Le grand avantage de cette technique est que le caractère mystérieux de l'estimation automatique de pertinence est en grande partie gommé, et que l'utilisateur reste seul juge de la pertinence des résultats de ses requêtes.

Cette méthode a deux inconvénients majeurs.

Tout d'abord, cette technique est assez laborieuse, car elle impose à l'utilisateur la lecture de nombreux articles (et sur Internet, le télé-chargement des articles en question via le réseau peut prendre beaucoup de temps).

Ensuite, il n'est pas certain que les articles sur lesquels l'utilisateur est amené à se prononcer soient statistiquement représentatifs de l'ensemble des thèmes ou sous-thèmes de la requête, ce qui fait qu'il est tout à fait possible qu'un thème majeur soit ignoré ; en effet les premiers documents présentés à l'utilisateur sont choisis par le moteur de recherche par des méthodes d'estimation automatique de pertinence. Certes des heuristiques particulières au contrôle de pertinence peuvent être imaginées, mais cela ne permet pas à coup sûr d'obtenir un ensemble représentatif de documents, car de plus il faut bien voir que le nombre de documents présentés en première lecture dépasse rarement 20. Si par exemple l'utilisateur fait une recherche avec pour mots clefs "effet de serre", on peut être sûr que l'ensemble de thèmes (scientifique, socio-économique, impacts sur les écosystèmes, ...) ne seront pas tous représenté dans les quelques documents présentés à l'utilisateur.

Cette technique est laborieuse pour l'utilisateur, contrôlable par lui, mais reste inefficace sur de gros corpus.

Le lecteur trouvera un exemple de la méthode de contrôle de pertinence à l'adresse http://www.excite.com/ en effectuant une recherche par mots clefs. (NB: excite a depuis abandonné cette voie)

Le raffinement par thèmes

Le principe de cette technique est proche du contrôle de pertinence. Elle a pour but de remédier à un de ses défauts : le manque de représentativité de l'échantillon présenté à l'utilisateur.

Le principe de fonctionnement du raffinement par thèmes consiste à fournir à l'utilisateur, après chacune de ses requêtes, une cartographie thématique, obtenue de manière entièrement automatique, des documents correspondant à sa requête, en garantissant la représentativité statistique de la carte. Cette carte représente l'ensemble des thèmes identifiés par le serveur pour la requête, ainsi que des liens entre thèmes représentant une certaine forme de proximité (ou d'opposition) sémantique.

Par exemple, le thème "écologie" pourra se retrouver proche du thème "nucléaire" dans une analyse de la requête "effet de serre" non pas parce que le nucléaire est une source d'énergie écologique en général, mais plutôt parce que les partisans de l'énergie nucléaire ont argué du fait que les centrales nucléaires ne rejetaient pas de dioxyde de carbone.

Le raffinement par thèmes est fondé sur un processus itératif de formulation de requêtes utilisant à chaque étape une catégorisation dynamique des résultats de la requête précédente. Cette catégorisation est en quelque sorte un "résume thématique" des documents correspondant à la requête, et chacun des thèmes peut être soit sélectionné comme un thème intéressant par l'utilisateur, soit au contraire exclu de la recherche.

La catégorisation est dynamique dans le sens ou la liste des thèmes est obtenue en temps réel par analyse du contenu des documents eux-mêmes, et également par le fait que les thèmes eux-mêmes ne sont pas pré-établis mais élaborés en cours d'analyse.

Cette technique permet donc le traitement de la polysémie et est relativement simple pour l'utilisateur ; elle lui permet d'opérer une sélection parmi les sous-thèmes de sa requête, même dans un corpus très important, mais reste un mécanisme opaque.

Le lecteur trouvera un exemple de la méthode de raffinement par thèmes à l'adresse http://www.altavista.com/ en effectuant une recherche par mots clefs puis en sélectionnant "Affinez votre recherche".

Conclusion

Sur Internet, l'indexation de documents et la recherche d'informations restent donc difficiles.

Aucune des techniques proposées aujourd'hui n'est totalement satisfaisante. L'objectif à atteindre est toujours l'amélioration du rapport résultat/effort : il s'agit de trouver les documents qui intéressent le plus l'utilisateur, tout en lui demandant le moins de travail possible.

Il serait également intéressant de mettre au point des techniques permettant l'indexation de documents d'autres natures : les sons, les images, voire les animations.

Références

[1] Vinton G. Cerf,
première séance plénière d'INET'98.

[2] Paul-Dominique Pomart et Éric Sutter,
Dictionnaire encyclopédique de l'information et de la documentation,
Paris : Nathan, 1997, p.284.

[3] Danièle Degez,
Dictionnaire encyclopédique de l'information et de la documentation,
Paris : Nathan, 1997, p. 577

[4] Henry Hugues,
Le pillage, fléau futur du réseau
In : .net, n°12, Novembre 1997, p. 40 et suivantes

[5] Pierre-Alain Le Cheviller
Agents et recherche d'information sur Internet
Mémoire soutenu en septembre 1997 à l'Institut National des Techniques de la Documentation, composante du Conservatoire National des Arts et Métiers (Paris)

[6] Diego-Angel Diaz
Le repérage de l'information sur Internet : catalogage et indexation des ressources sur le World Wide Web
Mémoire de Maîtrise des Sciences de l'Information et de la Documentation, Novembre 1998

[7] François Bourdoncle
LiveTopics : Recherche visuelle d'information sur l'Internet
Dossiers de l'Audiovisuel, La Documentation Française, numéro 74, juillet-aout 1997

Ce site respecte les standards de l'internet :
XHTML 1.1   ·   CSS v2   ·   Accessibilité
Plan du site  ·  Signature  ·  Imprimer la page
© 1999-2008 Sylvain Lhullier
http://sylvain.lhullier.org/publications/indexation.html
Creative Commons Attribution-ShareAlike