Le repérage de l'information sur Internet : catalogage et indexation des ressources sur le World Wide Web
        
Le repérage de l'information sur Internet :
 catalogage et indexation des ressources sur le World Wide Web 
 Présentation du mémoire






Mémoire de Maîtrise des Sciences de l’Information et de la Documentation

présenté par Diego-Angel DIAZ en Novembre 1998,

sous la direction de Monsieur Gabriel GALLEZOT,

sous la responsabilité scientifique de Madame Sylvie FAYET-SCRIBE

Université de Paris I Panthéon-Sorbonne, année universitaire 1997/1998 






Présentation du mémoire


Le propos central de ce mémoire, c'est le repérage de l'information sur Internet. Des travaux conséquents ont déjà été menés en ce qui concerne les outils de repérage de l'information [1], aussi nous attacherons-nous ici plus particulièrement à deux techniques chères à la pratique documentaire (catalogage et indexation) afin de recenser les utilisations qui en sont faites sur le réseau Internet, de montrer leurs limites et de tenter d'évaluer les projets de normalisation actuellement en cours. Notre regard se portera plus particulièrement sur le World Wide Web (W3), mais peut-être aussi dans une moindre mesure sur d'autres services offerts par Internet (mener ce travail sur tout l'Internet et sur la totalité des types de données circulant sur les réseaux étant une tâche trop importante pour l'accomplir dans le cadre de ce mémoire de maîtrise).


Ce travail est divisé en trois parties pour plus de clarté et de lisibilité :

I. Internet : comprendre ce qu'est Internet, proposer une typologie de l'information et des formats qui y circulent étant le préalable indispensable à la réflexion que nous nous proposons de mener ;

II. Règles et outils pour cataloguer et indexer des ressources sur le World Wide Web&nsbp;:

    1. Catalogage et indexation a priori (à la création du document) : bref historique des outils classiques, application au cas d'Internet et projets de normalisation en cours ;

    2. Catalogage et indexation a posteriori (lorsque le document est disponible sur le réseau) : un rappel des moyens humains et automatiques aujourd'hui mis en œuvre, un état des lieux du catalogage et de l'indexation sur le réseau.


Le catalogage et l'indexation de l'information sur Internet devront permettre de mieux profiter de la somme d'informations présentes sur le réseau, de mieux gérer les flux d'information qui y circulent, une recherche plus efficace, pertinente et rapide de l'information.


Deux niveaux de catalogage et d'indexation sont à considérer :

    - un catalogage et une indexation simples, afin que le catalogage et l'indexation des ressources numériques ne deviennent pas une contrainte trop lourde pour les particuliers internautes ou pour tout autre "non-professionnel de l'information" qui naviguerait ou créerait des pages personnelles sur le World Wide Web ;

    - un catalogage et une indexation évolués, permettant aux professionnels de l'information et de l'édition de proposer une description plus fine des ressources (bibliothèques numériques, bases de données scientifiques, catalogues professionnels des entreprises, etc.).

Pour éviter que le gisement d'information qu'est Internet ne devienne à terme inexploitable (bruit, silence, non-exhaustivité, non-pertinence des réponses retournées à l'utilisateur après une requête) et afin de permettre des recherches plus efficaces et de faciliter l'échange de données entre les différents acteurs présents sur le réseau, une série de normes efficaces, et qui seront devenues des standards car utilisées par le plus grand nombre (d'utilisateurs et d'outils), devront s'instaurer. Des efforts vers une normalisation sont actuellement menés que nous tenterons d'analyser et d'évaluer.



Problématique



"Le catalogage consiste en la description des caractéristiques extérieures spécifiques d'un document. Cette description permet, en suivant des règles de transcription normalisées, de constituer une notice bibliographique ; l'ensemble des notices d'une collection de documents associé à leur localisation forme un catalogue." [2]

L'indexation est le choix de mots clés qui permettent d'identifier les thèmes majeurs d'un document : pour le caractériser, pour le retrouver dans un corpus documentaire, et pour donner un rapide aperçu de son contenu au lecteur qui a l'indexation sous les yeux. Elle "a pour but de faciliter l'accès au contenu d'un document (ou d'un ensemble de documents) à partir d'un sujet ou d'une combinaison de sujets (ou de tout autre type d'entrées utile à la recherche). Cela s'applique aussi bien à l'élaboration des index situés généralement en fin d'ouvrage qu'à l'usage des langages documentaires pour analyser le contenu des documents et permettre par la suite, grâce aux fichiers ou à la banque de données ainsi alimentée, la recherche d'information. Ainsi, la notion d'indexation se trouve-t-elle au cœur de la pratique documentaire : elle constitue l'opération centrale du traitement des documents au sein de la chaîne documentaire classique (...). L'une des difficultés de l'acte d'indexer tient au fait qu'il fait référence au document, mais qu'il ne peut faire abstraction ni de l'usage ni de l'environnement. L'indexeur doit à la fois considérer le document comme une entité en soi et envisager, dans la mesure du possible, les utilisations qui pourront en être faîtes en n'oubliant pas que le résultat de l'indexation peut être utilisé par l'usager comme un indicateur du contenu et se substituer partiellement à un résumé ou à une analyse complète du document." [3]


Pour simplifier, le catalogage est une description du support du document, quand l'indexation vise l'information contenue dans ce document. Les définitions énoncées plus haut mettent d'ores et déjà en avant la plupart des difficultés qui seront rencontrées à l'heure de cataloguer et d'indexer un document sur le World Wide Web :

    - multiplication des sources d'information, immense quantité de ressources disponibles sur le réseau, apparition et disparition quotidienne de ces ressources, mises à jour des documents, existence des mêmes documents à différentes adresses, etc. ;

    - les ressources sont de langues, thématiques, nature et formats hétérogènes ;

    - l'indexeur, humain ou automate, documentaliste ou auteur-créateur de la page Web, ne peut tenir compte ni de "l'usage", ni de "l'environnement", sa production ayant, en principe, une visibilité mondiale ;

    - il reste aujourd'hui difficile d'identifier le ou les auteur(s) d'un document, l'information trouvée ne peut être validée voire corrigée et les auteurs sont mal protégés (auteurs ayant produit un document via les médias classiques, et même créateurs de pages Web, le terme de "webopillage" existe depuis quelques mois déjà). [4]


En commençant ce mémoire, notre regard voulait se porter sur le catalogage des ressources sur Internet. Mais avec ce nouveau vecteur d'information, les notions de catalogage et d'indexation se sont avérées trop liées pour qu'il soit possible de considérer l'une sans l'autre. En effet, prenons l'exemple de l'URL (Uniform Resource Locator) d'un document : si cette ressource uniforme a pour but premier d'indiquer la localisation physique d'un document sur un serveur/ordinateur distant particulier, et qu'on peut en ce sens la considérer comme un outil de catalogage de l'information, sa dénomination annonce aussi le plus souvent par le biais du DNS (Domain Name Server) une part du contenu du document, la validité ou non de la source émettant ce document et s'apparente alors aux outils d'indexation traditionnels (pour une meilleure compréhension de cet exemple, cliquez sur les liens URL et DNS de la partie I.2.2 Les adresses URI de ce mémoire).



Méthodologie



Dans le cadre d'une indexation classique, les bibliothécaires et les documentalistes s'appuient le plus souvent sur un thesaurus. "Le thesaurus est une liste normalisée de termes acceptés à l'indexation (les descripteurs) et d'équivalents. Les descripteurs sont reliés entre eux par des relations sémantiques (génériques et associatives) exprimées par des signes conventionnels. Les termes sont combinés entre eux pour décrire les documents (lors de l'indexation) et écrire les questions lors de l'interrogation d'une banque de données. Le thesaurus permet de décrire des documents de tous types : textes, images fixes, images animées... Il facilite les recherches dans une base de données en limitant le bruit et le silence documentaires, grâce au contrôle des homographes et au rapprochement des synonymes." [5] L'absence de thesaurus au niveau mondial est certainement une des causes aggravantes des difficultés rencontrées à l'heure d'indexer ou de rechercher des documents sur Internet. Même si la génération d'un tel thesaurus semble quasiment impossible devant l'hétérogénéité des documents présents sur le réseau (notamment de par la multiplicité des langues utilisées et des sujets traités) et bien que son utilisation s'il existait serait hors de portée du plus grand nombre, nous nous intéresserons à un type d'outil de recherche [6] qui tente de combler ce manque : les répertoires thématiques validés. Le choix de ces annuaires de l'Internet est simple et pourtant efficace : accepter l'idée de n'être pas exhaustifs, mais proposer l'information de manière structurée autour de grands thèmes organisés. On s'intéressera ensuite à l'action des moteurs de recherche qui misent eux sur la quantité de matière indexée par des agents logiciels.


Après nous être intéressés au fonctionnement d'Internet, et à l'indexation des documents par leurs auteurs, il va donc falloir comprendre comment les indexeurs des répertoires thématiques procèdent pour cataloguer et indexer l'information, comment les moteurs de recherche indexent, cataloguent et recherchent l'information, les méthodes utilisées par d'autres types d'outils et montrer les limites des techniques utilisées à ce jour.


L'indexation du document pose donc problème. De nouveaux formats voient le jour pour permettre une nouvelle indexation plus fine et efficace. Cette indexation peut être divisée en deux temps distintcs :

    1. a priori, à la création du document, avant que celui-ci ne soit disponible sur le réseau :

        - par le particulier : usage ou non de méta-données (meta-tags), choix d'un premier paragraphe et d'un titre de page évocateurs du contenu de la page recommandés ;

        - par le professionnel : usage de meta-tags recommandé.

    2. a posteriori, lorsque le document est disponible sur le réseau, lors de son référencement auprès des différents outils de recherche :

        - par les répertoires thématiques validés : formulaire de soumission, validation des catégories par le Webmestre et son équipe d'indexeurs (cf. Yahoo ! Choix de la ou des catégorie(s) où intégrer son site validées ou non par les «surfeurs», «cyber-documentalistes» ou «cyber-writers» de l'annuaire) ;

        - par les robots : indexation automatique, gestion ou non des meta-tags selon les moteurs, règles particulières de pondération des réponses et de classement.

Nous nous intéresserons aussi aux différents projets sur le catalogage et l'indexation d'Internet en cours : OCLC, Dublin Core Metadata, la conversion des normes MARC, les UR* (URI, URL,URN, URC, etc.).



Objectifs

    - Comprendre et dresser un état des lieux du repérage de l'information sur Internet, établir une catégorisation des différents outils utilisés ;

    - Catalogage et indexation : limites et solutions possibles à court et plus long terme ;

    - Recenser, comprendre, analyser et apporter un regard critique sur chacun des projets de normalisation. On s'intéressera autant aux formats propriétaires/privés qu'aux formats du domaine public (HTML, Jpeg, etc.).




[1] CHARTRON, Ghislaine.- Recherche d'information sur Internet.- Paris : Urfist / École Nationale des Chartes, 1996


[2] PROVANSAL, Antoine.- Dictionnaire encyclopédique de l'information et de la documentation.- Paris : Nathan, 1997, p.110


[3] POMART, Paul-Dominique et SUTTER, Éric.- Dictionnaire encyclopédique de l'information et de la documentation.- Paris : Nathan, 1997, p.284


[4] Le pillage, fléau futur du réseau.- HUGUES Henry.- In : .net, n°12, Novembre 1997, p. 40 et suivantes


[5] DEGEZ, Danièle.- Dictionnaire encyclopédique de l'information et de la documentation.- Paris : Nathan, 1997, p. 577








[6] "(...) qui indexe le contenu de différentes ressources d'Internet, et plus particulièrement de sites Web, qui permet à l'internaute de rechercher de l'information à partir d'un navigateur Web, selon différents paramètres, en se servant de mots clés, et qui permet d'avoir accès à l'information ainsi trouvée." Définition issue de la Direction des services linguistiques de l'Office de langue française et citée par Géraldine GOURBIN.



Pour naviguer dans les différentes parties de ce mémoire :

© DIAZ Diego-Angel 1998