Présentation du mémoire
I. Internet : comprendre ce qu'est Internet, proposer une typologie de l'information et des formats qui y circulent étant le préalable indispensable à la réflexion que nous nous proposons de mener ; II. Règles et outils pour cataloguer et indexer des ressources sur le World Wide Web&nsbp;: 1. Catalogage et indexation a priori (à la création du document) : bref historique des outils classiques, application au cas d'Internet et projets de normalisation en cours ; 2. Catalogage et indexation a posteriori (lorsque le document est disponible sur le réseau) : un rappel des moyens humains et automatiques aujourd'hui mis en œuvre, un état des lieux du catalogage et de l'indexation sur le réseau. Le catalogage et l'indexation de l'information sur Internet devront permettre de mieux profiter de la somme d'informations présentes sur le réseau, de mieux gérer les flux d'information qui y circulent, une recherche plus efficace, pertinente et rapide de l'information. Deux niveaux de catalogage et d'indexation sont à considérer : - un catalogage et une indexation simples, afin que le catalogage et l'indexation des ressources numériques ne deviennent pas une contrainte trop lourde pour les particuliers internautes ou pour tout autre "non-professionnel de l'information" qui naviguerait ou créerait des pages personnelles sur le World Wide Web ; - un catalogage et une indexation évolués, permettant aux professionnels de l'information et de l'édition de proposer une description plus fine des ressources (bibliothèques numériques, bases de données scientifiques, catalogues professionnels des entreprises, etc.). Pour éviter que le gisement d'information qu'est Internet ne devienne à terme inexploitable (bruit, silence, non-exhaustivité, non-pertinence des réponses retournées à l'utilisateur après une requête) et afin de permettre des recherches plus efficaces et de faciliter l'échange de données entre les différents acteurs présents sur le réseau, une série de normes efficaces, et qui seront devenues des standards car utilisées par le plus grand nombre (d'utilisateurs et d'outils), devront s'instaurer. Des efforts vers une normalisation sont actuellement menés que nous tenterons d'analyser et d'évaluer.
L'indexation est le choix de mots clés qui permettent d'identifier les thèmes majeurs d'un document : pour le caractériser, pour le retrouver dans un corpus documentaire, et pour donner un rapide aperçu de son contenu au lecteur qui a l'indexation sous les yeux. Elle "a pour but de faciliter l'accès au contenu d'un document (ou d'un ensemble de documents) à partir d'un sujet ou d'une combinaison de sujets (ou de tout autre type d'entrées utile à la recherche). Cela s'applique aussi bien à l'élaboration des index situés généralement en fin d'ouvrage qu'à l'usage des langages documentaires pour analyser le contenu des documents et permettre par la suite, grâce aux fichiers ou à la banque de données ainsi alimentée, la recherche d'information. Ainsi, la notion d'indexation se trouve-t-elle au cœur de la pratique documentaire : elle constitue l'opération centrale du traitement des documents au sein de la chaîne documentaire classique (...). L'une des difficultés de l'acte d'indexer tient au fait qu'il fait référence au document, mais qu'il ne peut faire abstraction ni de l'usage ni de l'environnement. L'indexeur doit à la fois considérer le document comme une entité en soi et envisager, dans la mesure du possible, les utilisations qui pourront en être faîtes en n'oubliant pas que le résultat de l'indexation peut être utilisé par l'usager comme un indicateur du contenu et se substituer partiellement à un résumé ou à une analyse complète du document." [3] Pour simplifier, le catalogage est une description du support du document, quand l'indexation vise l'information contenue dans ce document. Les définitions énoncées plus haut mettent d'ores et déjà en avant la plupart des difficultés qui seront rencontrées à l'heure de cataloguer et d'indexer un document sur le World Wide Web : - multiplication des sources d'information, immense quantité de ressources disponibles sur le réseau, apparition et disparition quotidienne de ces ressources, mises à jour des documents, existence des mêmes documents à différentes adresses, etc. ; - les ressources sont de langues, thématiques, nature et formats hétérogènes ; - l'indexeur, humain ou automate, documentaliste ou auteur-créateur de la page Web, ne peut tenir compte ni de "l'usage", ni de "l'environnement", sa production ayant, en principe, une visibilité mondiale ; - il reste aujourd'hui difficile d'identifier le ou les auteur(s) d'un document, l'information trouvée ne peut être validée voire corrigée et les auteurs sont mal protégés (auteurs ayant produit un document via les médias classiques, et même créateurs de pages Web, le terme de "webopillage" existe depuis quelques mois déjà). [4] En commençant ce mémoire, notre regard voulait se porter sur le catalogage des ressources sur Internet. Mais avec ce nouveau vecteur d'information, les notions de catalogage et d'indexation se sont avérées trop liées pour qu'il soit possible de considérer l'une sans l'autre. En effet, prenons l'exemple de l'URL (Uniform Resource Locator) d'un document : si cette ressource uniforme a pour but premier d'indiquer la localisation physique d'un document sur un serveur/ordinateur distant particulier, et qu'on peut en ce sens la considérer comme un outil de catalogage de l'information, sa dénomination annonce aussi le plus souvent par le biais du DNS (Domain Name Server) une part du contenu du document, la validité ou non de la source émettant ce document et s'apparente alors aux outils d'indexation traditionnels (pour une meilleure compréhension de cet exemple, cliquez sur les liens URL et DNS de la partie I.2.2 Les adresses URI de ce mémoire).
Après nous être intéressés au fonctionnement d'Internet, et à l'indexation des documents par leurs auteurs, il va donc falloir comprendre comment les indexeurs des répertoires thématiques procèdent pour cataloguer et indexer l'information, comment les moteurs de recherche indexent, cataloguent et recherchent l'information, les méthodes utilisées par d'autres types d'outils et montrer les limites des techniques utilisées à ce jour. L'indexation du document pose donc problème. De nouveaux formats voient le jour pour permettre une nouvelle indexation plus fine et efficace. Cette indexation peut être divisée en deux temps distintcs : 1. a priori, à la création du document, avant que celui-ci ne soit disponible sur le réseau : - par le particulier : usage ou non de méta-données (meta-tags), choix d'un premier paragraphe et d'un titre de page évocateurs du contenu de la page recommandés ; - par le professionnel : usage de meta-tags recommandé. 2. a posteriori, lorsque le document est disponible sur le réseau, lors de son référencement auprès des différents outils de recherche : - par les répertoires thématiques validés : formulaire de soumission, validation des catégories par le Webmestre et son équipe d'indexeurs (cf. Yahoo ! Choix de la ou des catégorie(s) où intégrer son site validées ou non par les «surfeurs», «cyber-documentalistes» ou «cyber-writers» de l'annuaire) ; - par les robots : indexation automatique, gestion ou non des meta-tags selon les moteurs, règles particulières de pondération des réponses et de classement. Nous nous intéresserons aussi aux différents projets sur le catalogage et l'indexation d'Internet en cours : OCLC, Dublin Core Metadata, la conversion des normes MARC, les UR* (URI, URL,URN, URC, etc.). Objectifs - Comprendre et dresser un état des lieux du repérage de l'information sur Internet, établir une catégorisation des différents outils utilisés ; - Catalogage et indexation : limites et solutions possibles à court et plus long terme ; - Recenser, comprendre, analyser et apporter un regard critique sur chacun des projets de normalisation. On s'intéressera autant aux formats propriétaires/privés qu'aux formats du domaine public (HTML, Jpeg, etc.). [1] CHARTRON, Ghislaine.- Recherche d'information sur Internet.- Paris : Urfist / École Nationale des Chartes, 1996 [2] PROVANSAL, Antoine.- Dictionnaire encyclopédique de l'information et de la documentation.- Paris : Nathan, 1997, p.110 [3] POMART, Paul-Dominique et SUTTER, Éric.- Dictionnaire encyclopédique de l'information et de la documentation.- Paris : Nathan, 1997, p.284 [4] Le pillage, fléau futur du réseau.- HUGUES Henry.- In : .net, n°12, Novembre 1997, p. 40 et suivantes [5] DEGEZ, Danièle.- Dictionnaire encyclopédique de l'information et de la documentation.- Paris : Nathan, 1997, p. 577 [6] "(...) qui indexe le contenu de différentes ressources d'Internet, et plus particulièrement de sites Web, qui permet à l'internaute de rechercher de l'information à partir d'un navigateur Web, selon différents paramètres, en se servant de mots clés, et qui permet d'avoir accès à l'information ainsi trouvée." Définition issue de la Direction des services linguistiques de l'Office de langue française et citée par Géraldine GOURBIN. Pour naviguer dans les différentes parties de ce mémoire : © DIAZ Diego-Angel 1998 |