Plan de la partie :
La multiplication des sources d'information sur le réseau fait d'Internet une ressource difficile à maîtriser. Pour faire face à cet état de fait, de nombreux services d'index et de recherche se sont créés. Ce sont des outils que nous allons traiter dans cette dernière partie du mémoire. Conçus pour la plupart dans des laboratoires de recherche, ces outils sont aujourd'hui passés sous le contrôle de sociétés et les grands acteurs du marché se livrent une bataille féroce pour leur assurer leur promotion (partenariat avec les browsers pour apparaître en page d'accueil des internautes par exemple, cf. Netcenter de Netscape). La notion de «portail» du Web est aujourd'hui à la mode, tous ces outils multipliant le nombre de services proposés à l'internaute afin de capter une audience toujours plus large (et donc génératrice de revnus publicitaires). Leur impact commercial est aujourd'hui immense [Géraldine Gourbin]. Une fois le document électronique présent sur le réseau, et bien que la réflexion à ce qui suit ait dû être menée au préalable, l’auteur de pages HTML doit se faire connaître des principaux outils de recherche pour espérer atteindre ces partenaires, clients potentiels ou publics. Dans le cas des moteurs de recherche, il suffira d’enregistrer l’URL de la page auprès des moteurs les plus connus (AltaVista, Infoseek, Lycos, Excite, Hotbot, etc.). Le moteur de recherche va ensuite visiter la page Web dans un délai de 1 à 2 jours, et indexera la page et tous les liens qu’elle propose (par conséquent la totalité du site, à partir de la soumission de la seule page d’accueil du site). Pour éviter que le robot ne visite le site -depuis un lien externe qui aurait amené le robot à en avoir connaissance- ou partie de celui-ci -que les entreprises peuvent vouloir garder pour un usage interne ou à l'intention de leurs clients-, l'administrateur du site devra placer un fichier /robot.txt à la racine du serveur qui l'héberge qui spécifiera les parties du site à ne pas référencer. [1] Dans le cas des annuaires thématiques, il faut s’attendre à remplir un formulaire de soumission. Visiter ces annuaires pour en comprendre les spécificités de classement et renseigner minutieusement les différents champs d'information, est capital pour l'indexation du site (résumé, mots clés, nom de l'éditeur, titre du site) : - URL du site
Plusieurs petites astuces pour améliorer le référencement existent : choisir un titre court et précis, commençant par la lettre A, par exemple ; les réponses étant affichées dans les annuaires le plus souvent par ordre alphabétique (dans le cas d’une recherche par catégorie). Certains annuaires classent lors réponse dans un ordre alphanumérique, les meilleurs classés sont alors ceux dont le titre commence par des chiffres. Certains annuaires n'acceptent pas les sites en construction ni les simples pages au contenu trop faible ; c'est le cas de Nomade <www.nomade.fr>, qui refuse aussi les sites qui ne comprennent pas au moins une version en français. Yahoo ! <www.yahoo.com> se réserve le droit d'inscrire ou non un site, et suit les règles énoncées plus avant dans sa déclinaison française <www.yahoo.fr>. Les délais d'inscription sont variables selon les annuaires, leur notoriété (plus l'annuaire est reconnu, plus le nombre de soumissions journalières est important), la qualité de description des sites retenus et le nombre de "cyberdocumentalistes" ou "surfeurs" qui traitent les demandes des utilisateurs. Elles oscillent généralement entre une semaine et un mois. II.2.1 Répertoires thématiques validés Les annuaires en ligne ou répertoires thématiques validés constituent une véritable base de données de documents classés par catégories et sous-catégories. Répertoriés et classés automatiquement ou manuellement, ils sont très utilisés pour les requêtes simples ou sur des sujets communs. Un moteur de recherche thématique guide l’utilisateur parmi les thèmes disponibles, afin de mieux cerner le contexte de la recherche finale. Contrairement aux moteurs de recherche, les annuaires indexent des sites complets à partir de leur page d'accueil (les robots indexant toutes les pages d'un site en les dissociant les unes des autres). Les deux annuaires que nous allons évoquer plus bas sont représentatifs des autres annuaires (aussi appelés répertoires thématiques validés) francophones ou non. Nomade, "le guide du Net francophone" référence les sites Web en français de l'Internet. Il a été lancé en juillet 1996 par la société Objectif Net basée à Vincennes en France, en partant des quelques 2800 sites déjà référencés par L'UREC (l'Unité RÉseaux du CNRS qui propose son guide de recherche des sites français existants et recense les organismes de recherche français). En plus des recherches sur les sites Web, Nomade propose, comme la plupart de ses concurrents, différents services susceptibles d'intéresser et de fidéliser l'utilisateur : météo, dépêches AFP, sélection de sites (les jeudis), dossiers, une bande dessinée multimédia deux fois par semaine (Ramon & Pedro, en partenariat avec Crunch). Contrairement aux robots de recherche qui indexent automatiquement les pages Web, Nomade est réalisé par une équipe de trois documentalistes, trois stagiaires et un rédacteur en chef. Deux types de recherche sont offerts : par mots clés ou par catégorie (navigation dans l'arborescence thématique). Nomade est un guide par soumission. Les éditeurs et/ou administrateurs de sites viennent s'inscrire dans Nomade en remplissant un formulaire en ligne. Ces soumissions sont ensuite intégrées dans une base de données sous Access. Nomade reçoit en moyenne 150 sites par jour et 400 durant le week-end. En collaboration avec deux autres documentalistes et trois stagiaires, Géraldine Gourbin vérifie ces quelques 1000 soumissions hebdomadaires. La tâche des documentalistes est de vérifier les inscriptions : - vérification
systématique de l'URL en ligne et de la conformité des descriptions
avec le contenu du site ;
Un certain nombre de soumissions ne sont pas mis en ligne (environ 40% des sites proposés) : - les sites n'ayant
pas d'interface en français ;
Les sites validés sont ensuite mis en ligne sur Nomade, dans un délai de quelques jours à un mois.[2]
Les deux développeurs de Yahoo!, David Filo et Jerry Yang, étudiants en doctorat
d'ingénierie électrique à l'Université de Stanford, ont
commencé leur guide du Web en avril 1994. Il s'agissait alors d'un outil
réservé à leur usage personnel, permettant de repérer les
sources d'informations relatives à leurs centres d'intérêt.
Ils se rendirent compte que leurs listes "maison" commençaient à devenir trop
importantes et difficiles à gérer.
Né d'une idée simple, commençant comme un hobby avant de devenir une passion
à plein temps et une véritable entreprise. Au départ, il s'agissait
de rendre l'Internet plus agréable à utiliser en simplifiant la recherche.
Yahoo! connut un succès foudroyant, et des millions de gens l'utilisent désormais
régulièrement pour explorer le Web.
Le bruit est moins important qu'avec les robots de type AltaVista. L'information étant structurée et les sites de thématique commune regroupés sous des catégories, il est plus aisé de faire une veille sur les catégories pour lesquelles on a un intérêt (les catégories Sciences humaines: Histoire: Thèses et mémoires ou Références et annuaires: Bibliothèques: Bibliothèques universitaires, de l'annuaire Yahoo! France, par exemple). La qualité de la base prime sur la quantité de ressources disponibles : en contrepartie, les recherches ne peuvent prétendre à l'exhaustivité et le temps de référencement du site est plus important. Le risque de tomber sur un site illégal (racisme, pédophilie, etc.) est moins important, les sites étant visité par des «cyber-documentalistes» avant d'être ajouté à la base. Le risque n'est cependant pas complètement exclu, les créateurs de sites pouvant modifier le contenu de leurs pages après avoir été référencés. Une veille sur les sites déjà dans la base existe le plus souvent, mais dès que la base prend des proportions importantes, cette veille ne peut prétendre à l'exhaustivité. Les catégorisations des annuaires ne sont pas toujours claires pour l'utilisateur. Chaque annuaire suivant sa propre logique et ses propres règles ontologiques, le même site ne sera pas toujours classé sous le même type d'arborescence (ainsi, Yahoo! distingue les sites commerciaux des autres en proposant une arborescence générale et une arborescence /Commerce et économie/Sociétés qui leur est réservée). L'auteur du site propose des catégories et un commentaire pour son site, mais ils ne sont pas automatiquement retenus (inconvénient pour le créateur du site donc, mais avantage pour l'internaute qui n'est pas "trompé" ou abusé sur le contenu du site). Un site «habite» sous une catégorie et est lié à plusieurs autres (entre trois et cinq, généralement), le but étant de permettre à l'internaute d'accéder à l'information en suivant plusieurs chemins ou raisonnements logiques. Dans ce mémoire, on utilise aussi bien le terme de moteur de recherche que celui de robot, ainsi que les termes anglais spider ou Web Crawler (à ne pas confondre avec WebCrawler qui est un robot spécifique). En fait, on parle de moteur de recherche ou de robot pour un dispositif technique qui fait des recherches sur un ensemble de données. Dans le cas du W3, c’est un automate qui va utiliser le contenu des pages HTML comme données sur lesquelles faire ses recherches. A partir de ces éléments, le robot va stocker des données qui pourront être réutilisées au moment de l’interrogation. L’interrogation d’un moteur de recherche n’est plus dès lors qu’un accès à une base de données préalablement remplie et organisée, interfacé par une page Web. Le robot, lui, est lancé de façon invisible aux utilisateurs à des dates périodiques pour maintenir ses tables à jour. WebCrawler a été un des premiers moteurs de recherche à être lancé sur le marché. Développé dans un projet de recherche de l’Université de Washington au début de l’année 1994, il a été une véritable réussite commerciale (car correspondant à un réel besoin des utilisateurs et aux ressources publicitaires générées). Au commencement de son exploitation, sa base de données contenait des informations sur 6000 serveurs Web. Son succès en a fait un outil très vite utilisé et dès la fin 1994, le service recevait plus de 15000 requêtes par jour. Depuis, de nombreux moteurs ont été mis en circulation : Lycos, AltaVista, Lockace, HotBot, etc. Très nombreux aujourd’hui, seuls certains sont souvent utilisés. [3] Un robot indexeur est composé de trois modules distincts : un robot logiciel explorateur (spider), un système d’indexation, un logiciel de recherche (searcher). Son objectif est de répertorier les sites, les parcourir et mémoriser leur contenu (généralement sous forme d'index), afin de faciliter l’accès à une page. Le spider sonde l’intégralité d’internet. Le spider, encore appelé crawler ou bot, est un robot logiciel, une sorte de «fouineur» qui explore l’internet et passe de site en site. Il possède des algorithmes pour examiner périodiquement des millions de pages sans tourner en boucle, et constitue une base de données des sites et documents déjà visités. Certains explorent les sites les plus visités, d’autres passent de document en document en exploitant tous les liens hypertexte trouvés sur leur passage. Le code de déontologie d’Internet (la Netiquette) définit des consignes qui doivent être respectées par les administrateurs de sites quand ils décrivent, dans un fichier nommé « robot.txt », les zones où le robot peut effectuer son travail, et celles, privées, que l’administrateur ne souhaite pas voir cataloguées (pour ces dernières, il préfère généralement les protéger par mots de passe et sans les nommer précisément). Une partie des crawlers respecte scrupuleusement les consignes du fichier descriptif s’il existe. Les spiders peuvent "avaler" jusqu’à dix millions de pages par jour, mais le Web se développe de plus en plus vite, et seuls les sites les plus visités sont régulièrement mis à jour. L’index classe l’information. Le spider renvoie les informations
collectées au moteur d’indexation pour qu’elles soient analysées.
Ce dernier construit alors un index des mots rencontrés et stocke
l’ensemble dans une base de données. On parle généralement d'indexation automatique.
Le module de recherche interroge la base et présente le résultat. Le searcher (module de recherche) est la partie visible de l’iceberg, c’est le frontal de l’utilisateur. Grâce à cette interface graphique, le visiteur peut poser sa question, sélectionner les options disponibles, et cliquer sur un bouton ou sur la touche entrée de son ordinateur pour lancer la requête. Par le biais d'un script CGI (Common Gateway Interface), une action est générée dans la base de données par le système d’indexation du moteur de recherche (et non sur les ressources réticulaires comme l'utilisateur pourrait le penser). Une page Web générée dynamiquement s’affiche ensuite, elle intègre les réponses généralement sous forme de liste (plus ou moins détaillée...) ou sous forme de nombre de réponse (en option car peu pratique). Véritable vitrine du site de recherche, la page d’interrogation (page d’accueil) est régulièrement mise à jour et généralement agrémentée de publicités contextuelles (qui varient en fonction du libellé de la requête formulée). La publicité est la principale source de revenus des moteurs. [5] Le travail des moteurs de recherche : En résumé, le moteur de recherche travaille de façon simple, on peut le comparer à un navigateur/browser tel que Netscape, mais sa navigation est automatique. A la différence des navigateurs habituels, pour lesquels le passage de document en document nécessite la participation d’un utilisateur qui choisit le lien à suivre, le robot va suivre de façon récursive toutes les pages référencées par une page initiale. Il démarre toujours sa recherche sur une liste d’adresses, nécessaire pour pouvoir explorer tout le Web et pour éviter l’oubli de certains sites non référencés par d’autres serveurs. Il est donc possible de demander à rajouter l’adresse de son propre site si l’on désire rendre ses données disponibles à partir d’un moteur de recherche. Ensuite, pour chaque page initiale de la liste, le robot va faire une requête HTTP et récupérer ainsi un ensemble de données, dont le contenu du document HTML. Il va analyser tout ce document afin d’en extraire tous les différents liens qu’il peut contenir. La plupart des pages sont référencées en HTML de façon suivante : <A HREF= "page.html" >titre de la page</A>. Cela facilite grandement l’exploration des liens. Pour chaque nouvelle adresse, le robot vérifie qu’il ne l’a pas déjà visitée auparavant, et si c’est le cas, il recommence alors l’opération sur cette page. Ceci, de façon récursive, jusqu’à ce qu’il ne trouve plus aucune adresse à visiter. Ce parcours se fait en largeur d'abord (breath first search), en profondeur d'abord (depth first search) ou encore de façon mixte (largeur jusqu’à un certain point, puis profondeur). Quelques soient les robots, le parcours se fait de façon à peu près similaire. Pour la suite, chaque robot à un travail spécifique. Dans le cas de l’indexation du Web (qui était le but des premiers moteurs de recherche), pour chaque adresse visitée, le robot va stocker des données liées au contenu du document. Mais le contenu indexé est très variable selon les robots : URL, titre, mots du premier paragraphe ou intégralité des pages - cf. AltaVista - et les robots ne précisent pas toujours le niveau de profondeur de leur indexation ; les métadonnées (metadatas) fournies par l’auteur de la page sont, le plus souvent, prises en compte. Les informations ainsi collectées seront rangées/stockées dans une base de données. Une fois ce stockage fait, la recherche des pages correspondant à un sujet ne sera qu’une requête sur la banque. L'indexation Les techniques d’indexation sont diverses et variées . Au début, les titres des documents servaient comme mots clés de recherche, mais cette solution a vite montré ses limites. Le titre d’un document ne reflétant pas toujours son contenu, le nombre de pages se multipliant et des titres similaires pour des contenus différents apparaissant,... La solution adoptée a alors été de stocker en plus du titre tous les mots du premier paragraphe. Dans les versions récentes de HTML, de nouvelles balises (les metatags ou méta-données) ont été créés pour permettre à l’auteur de la page de spécifier les mots avec lesquels il désire être référencé et donc apparaître lors des recherches des utilisateurs, pour lui permettre d'indexer lui-même le contenu de ses pages. Mais ces balises ne sont pas encore assez répandues pour être systématiquement utilisées par les robots et l'indexation des individus n'est pas toujours pertinente (l'indexation et le catalogage sont un métier, et le métier de référenceur de sites Internet se développe aujourd'hui en tant que tel ; nombreux sont ceux qui trichent en mettant des milliers de mots dans ce tag afin d’être sûr que leur page sera proposée par le moteur de recherche comme réponse en première position quelle que soit la requête formulée par l’utilisateur : cela pose le problème de l'éthique et entraîne une réaction de défense des robots qui se défendent du spamming). L’idée reste tout de même une solution d’avenir afin de vraiment déterminer les mots clés dès la création de la page. Aujourd'hui, cette indexation à la source est limitée à 1024 caractères (1Ko, les caractères étant codés sur un octet, soit huit bits) par AltaVista. [6] Opérateurs booléens Chaque moteur ou annuaire autorise l'utilisation de différents langages. Les opérateurs booléens AND, OR, NOT, NEAR, etc., sont possibles sur AltaVista par exemple. D'autres outils de recherche n'en proposent pas le même nombre, et la formulation de la requête à employer varie de l'un à l'autre. Une bonne connaissance de ces outils est donc requise pour effectuer des recherches pertinentes. Chaque robot a sa propre méthode de fonctionnement : les formulaires de recherche et les techniques d'indexation varient de l'un à l'autre (opérateurs booléens, troncature, recherche sur l'URL du titre... du document, du site, de la page). Plus que jamais, la formulation des requêtes est un métier, et la construction d'une équation de recherche requiert connaissances et savoir-faire. AltaVista est un des moteurs de recherche les plus
utilisés à l'heure actuelle. Il s'agit d'une base de données, constituée automatiquement par un
robot qui indexe en texte intégral les documents du Web et des Newsgroups.
Digital Equipment annonçait en 1997 des chiffres records pour l'accès au site du moteur sur
Internet : 32 millions de pages vues chaque jour par 18
millions d'utilisateurs individuels dans le monde. Le revenu généré par la publicité sur AltaVista
a augmenté de 267% en 1997. Les plans des prochains développements
d'AltaVista prévoyaient alors d'inclure des nouvelles zones de recherche permettant l'accès
instantané à des informations segmentées telles que
l'actualité, les voyages, les finances, la santé, à travers
une interface simplifiée, c'est aujourd'hui chose faite.
Avantages Exhaustivité et rapidité de traitement des demandes de référencement. Rapidité de la mise à jour des index par rapport aux répertoires thématiques validés Certaines bases d'accès privé échappent à leur indexation (utilisation des fichiers robots.txt). L'«éthique» des robots les amène à respecter les espaces non-publics du W3. Inconvénients Certains documents échappent au
travail des moteurs : certains fichiers avec des formats particuliers (cf. les images, les extensions
PDF d’Acrobat, les alphabets différents, les fichiers compressés,
etc.), ces formats sont exclus de l’indexation des moteurs de recherche
par la volonté des administrateurs de sites. La requête sur des images est
cependant proposée par AltaVista et Lockace, par exemple
Mégagiciel répertorie des logiciels shareware et renvoie vers les adresses où leur téléchargement est possible. Breizhoo est un guide recensant les ressources Internet de Bretagne. La tendance actuelle des annuaires, outre une multiplication des services proposés afin de générer toujours plus de trafic sur leurs pages, semble tendre vers une collecte de données limitée à un domaine thématique particulier ou à une région géographique particulière. Se concentrant sur un domaine particulier, ils peuvent prétendre à un degré supérieur d'exhaustivité par rapport aux annuaires généralistes. Les difficultés liées au repérage de l'information sur Internet ont conduit, comme cela a été le cas pour les répertoires thématiques validés, à la création de moteurs de recherche spécialisés. Le but étant de limiter la quantité d'information à cataloguer et indexer, afin d'être en mesure de prétendre à l'exhaustivité et de limiter le nombre de réponses non-pertinentes retournées à l'interrogation. Nous n'en proposerons pas ici une liste exhaustive, il suffira de savoir que pour presque chaque grand thème abordé sur le réseau, des robots de ce type ont vu le jour (du robot consacré exclusivement aux sites pour adultes, aux robots décrits à la suite). Fermivista! <http://fermivista.math.jussieu.fr/index.html> Moteur d'indexation et de recherche des articles et prépublications scientifiques disponibles sur les serveurs Web et FTP des universités et des centres de recherche à travers le monde, dans les domaines des mathématiques, de l'informatique et de la physique théorique. Il est développé depuis plus d'un an par S. Fermigier (fermigie@math.jussieu.fr), chercheur en mathématiques à l'université Paris 7. Sa spécificité est de n'indexer que les documents aux formats PostScript et DVI, et originaires de sites Web et FTP connus pour abriter des centres de recherche ou d'enseignement en mathématiques, en physique et en informatique. Aucun autre système actuel ne permet de recherche directe sur ce type de documents, indique l'auteur. Une base de données indexant plus de 150.000 documents a ainsi été constituée au cours des derniers mois, et continue de s'accroître de jour en jour. Cette base regroupe principalement des prépublications, des thèses, des rapports de recherches, des articles de journaux électroniques, des documentations de logiciels, du matériel pédagogique (notes de cours et feuilles d'exercices ou de problèmes). A la requête "+regression +lineaire", le moteur retourne trente documents. Les formats indexés par FermiVista! étant postcript ou DVI, les documents doivent être téléchargés pour en connaître le contenu, malgré la présence d'un résumé succinct. AlphaSearch <http://www.calvin.edu/Lib_Resources/as/> Il répertorie des sites "tremplins" reliés à diverses disciplines académiques. Les sites tremplins, rappelons-le, sont des sites qui permettent de trouver sous un même toit une liste exhaustive de sites se rapportant à un thème donné. Chacun des sites tremplins d'AlphaSearch a été soumis à une évaluation qualitative par les gens de la bibliothèque Hekman du Calvin College (Michigan). La recherche peut être délimitée par mot clé, descripteur, discipline ou format de ressources. Teenhoopla <http://www.ala.org/teenhoopla/> Il est dédié aux adolescents (de 12 à 18 ans) et donne accès à de multiples liens vers des sites ludiques et pratiques (jusqu'aux aides à la rédaction de travaux scolaires !) Les adolescents peuvent proposer leurs propres critiques littéraires ou comptes rendus de lecture pour publication. Le répertoire a été créé par un comité de neuf bibliothécaires, dont cinq du milieu municipal. L'avantage de ce type de robots par rapport aux généralistes est qu'il devient ici plus rare de tomber sur un site ne correspondant pas au centre d'intérêt général. Les méta-moteurs permettent l'interrogation
simultanée de plusieurs moteurs de recherche. Leur nombre ne cesse de croître
mais on peut ici en citer quelques uns (francophones) :
Des logiciels et des sites de veille proposent
aujourd'hui à l'utilisateur d'effectuer certaines requêtes à intervalles
réguliers. Cette veille s'applique et s'appuie sur les outils évoqués précédemment.
Le but est de réduire le temps passé à
effectuer des recherches (et de réduire sa facture téléphonique dans
le cas d'une connection par modem).
Elles sont utilisables en ligne ou sur son ordinateur et permettent d'analyser des documents (ou des séries de documents) en local ou sur serveur distant. Il s'agit de logiciels qui, par le biais d'algorythmes, traitent statistiquement un texte ou une série de textes pour en proposer une représentation graphique basée sur un catalogage et une indexation de ces documents. Cette dernière doit permettre d'obtenir une vue d'ensemble synthétique, de l'information textuelle complexe. LEXIMAP «Si vous trouvez un moyen de déterritorialiser, de dissoudre des localités et des hiérarchies, il doit également y avoir des moyens pour reconstruire des hiérarchies et proposer des filtres, des goûts, des jugements et des valeurs. Tout le monde se plaint du manque de hiérarchie sur le réseau. Moins votre accès est médiatisé, plus vous trouverez des sites fermés et hautement hiérarchiques et critiques. Dans notre centre nous avons inventé un système appelé Semiotext qui donne des plans de textes d'Internet tout en rasssemblant les mots en un système appelé Leximap. Cela vous donne des plans hautement hiérarchisés. Ce genre de système va proliférer. Il vous donne une vision profonde qui peut être critiquée. Ce sera un site hautement élaboré si les gens savent qu'ils peuvent y trouver de bonnes critiques. Une fois encore tout ce qui va contre la notion d'information se fera par soi-même. L'universalité, la rapidité, le caractère immédiat n'apparaîtront pas d'un seul coup, et ce, malgré les campagnes publicitaires. Au contraire, transformation locale, hiérarchie, goût, critique se développeront. L'idée d'information en tant qu'immutabilité et en tant que mobilité comme n'étant pas contradictoire et comme pouvant circuler partout, n'est pas valide au niveau de la science, ni au niveau de l'ordinateur ou de la politique. Nous pouvons parier tranquilles que cela ne se produira pas.» [7] NEURODOC «Pour réaliser la fonction d'analyse de l'information scientifique et technique (IST), NEURODOC applique la méthode des k-means axiales (KMA) comme algorithme de classification automatique non hiérarchique, et une Analyse en Composantes Principales (ACP) pour la représentation des classes obtenues sur un espace bidimensionnel.» [8] NeuroText Proposé par la société
Grimmersoft, le logiciel propose une synthèse d'un ensemble de textes à
partir d'une analyse en cinq étapes :
Ce logiciel réalise une cartographie de corpus de documents à partir de mots-clés proposés par l'utilisateur. Primé "produit de l'année" au salon IDT/Net 98, le logiciel Umap permet d'interroger 16 moteurs de recherche. Il cartographie les réponses de sites Web et élimine les doublons, réalise un "thesaurus" des termes le plus souvent associés aux termes de la requête et classe les sites retournés en réponse par ordre d'occurence dans les différents moteurs de recherche. La "carte dynamique" qui en résulte permet de visualiser la nature, le contexte et la cohérence d'un ensemble de textes. L'utilisateur peut sélectionner les mots qui se rapprochent de sa recherche et obtient alors une nouvelle carte de réponses. Umap est complémentaire aux outils de recherche existants (moteurs et agents intelligents). Une version d'évaluation peut être téléchargée gratuitement, c'est celle que nous avons testée à l'aide des termes catalogage, indexation, internet, web, w3c, oclc, dublin core, metadata et référencement. Les captures d'écran qui suivent doivent nous permettre de mieux l'appréhender : ![]() ![]() ![]() Le logiciel Umap, développé par la société française Trivium, existe en deux versions: l'une, Umap-Web, exclusivement pour le Web (version limitée - ne traite que les informations stockées sur des pages Web), l'autre, Umap Universal, pour des sources d'informations multiples (possède l'ensemble des fonctionnalités d'Umap Web et exploite les informations issues de toutes les sources de textes possibles, plus de 300 formats acceptés). Le logiciel UMAP Universal, vendu au prix bureautique de 4 950 F HT, est très bien positionné par les centres de documentation. Il est utilisé à l'Institut national des techniques documentaires (INTD), à l'Institut National des Télécommunications, dans des écoles de commerce et dans de grands groupes de presse. La société Trivium est dirigée par Michel Authier et Richard D. Collin. Cette entreprise fournit des instruments de management des connaissances et du capital humain des entreprises et des organisations. Si certaines des "îles" proposées par le logiciel peuvent sembler pour le moins surprenantes (suspense, Alfred Hitchcock, suspens, maitre), l'intérêt du logiciel est justement de pouvoir éliminer tous les sites habitant dans cette île et de se concentrer sur des îles proches de la thématique de recherche. Nous avons été surpris par la pertinence des premières adresses retournées, bien qu'il soit regrettable de ne pas obtenir des îlots regroupant plusieurs termes ou des associations de termes (groupes pronominaux ou plus simplement suite de termes le plus souvent associés dans les documents visités). Le manque de temps et d'applications concrètes menées à terme dans le cadre d'une mission bien précise nous empêchent ici de juger plus complètement ce logiciel prometteur. D'autres logiciels non étudiés ici existent : Sampler, Neuronav, Tétralogie, Alcest, etc. Le prix nécessaire à l'achat de ces logiciels (de 3000 à plusieurs dizaines de milliers de francs selon les logiciels et versions -mono ou multipostes-) et les configurations requises pour en tirer profit, ont empêché leur test dans le cadre de cette maîtrise. Ingénieur de l'École Polytechnique (1984), ingénieur au Corps des mines (1990) et docteur en informatique de l'École Polytechnique (1992), François Bourdoncle, maître de recherches du Centre de mathématiques appliquées de l'École des Mines de Paris, a développé un outil appelée Live Topics. Ses axes de recherche : interprétation abstraite, analyse de programmes, typage, sémantique des langages de programmation et recherche d'informations sur Internet. Cette technologie offre une interface graphique qui visualise une classification des principaux thèmes liés à une recherche sur le Web. Lorsqu'il y a trop de réponses à une requête, Live Topics propose à l'utilisateur d'effectuer une requête plus précise en choisissant parmi des thèmes supplémentaires ou à exclure, trouvés grâce à une analyse statistique réalisée sur tous les documents retournés. Il a été acheté par la société américaine Digital Equipment et est proposé à l'utilisateur par AltaVista sur son site américain (mais pas sur ces sites miroirs). Live Topics classe et organise. Dans sa version Java, une représentation graphique de l'information permet d'affiner sa recherche. Exemple d'utilisation de Live Topics : A la requête catalogage and indexation and internet and "live topics", le moteur de recherche AltaVista nous renvoie le 6/07/1998 comme l'illustre la capture d'écran ci-dessous vers 345 852 réponses. ![]() ![]() ![]() Les méthodologies à employer pour effectuer le référencement d'un site auprès d'un moteur de recherche ou d'un annuaire sont différentes, elles varient également d'un moteur à l'autre et d'un annuaire à un autre. Les règles à respecter pour cataloguer et indexer des ressource, nombreuses et pas toujours évidentes d'accès pour les néophytes, évoluent de plus au fil des mois. Des astuces existent pour un référencement optimal, mais lorsque celles-ci entraînent des abus, les outils de recherche modifient leur méthode de travail pour les limiter. Le langage HTML, le plus répandu aujourd'hui sur le W3, est limité et permet un catalogage et une indexation dont ne sauront se satisfaire les professionnels. XML est voué à le remplacer dans les années qui viennent. [9] La connaissance de ces méthodes de référencement associée à celle du fonctionnement de la recherche sur ces différents outils doit permettre aux professionnels de l'information de créer des ressources accessibles lors des requêtes des utilisateurs, confirmés ou non, et d'accéder aux ressources qu'ils sont susceptibles de rechercher eux-mêmes. Les algorithmes d'indexation qui décident qu'un contenu est similaire à un autre et générent les cartes sémantiques, s'ils reposent sur des méthodes de traitement des statistiques connues, sont tenus secret au titre de la propriété industrielle. [1] A Standard for Robot Exclusion : consensus du 30 Juin 1994 sur la mailing-list <robots-request@nexor.co.uk>. [2] A partir de l'article de Géraldine GOURBIN paru dans la LETTRE DU BIBLIOTHÉCAIRE QUÉBÉCOIS numéro 9 de février 1998 et d'une visite des locaux en mars 1998 [3] Moteur de recherche d’informations sur le Web, Vincent MOGUERA, juin 1997, rapport de DEA de l’INRIA [4] Internet professionnel n°14, Novembre 1997, dossier réalisé par P. Barrier [5] Un document au format PDF d'Adobe intitulé Les moteurs de recherche proposé dans le cahier multimédia de l'édition en ligne du journal Libération qui présente les grandes lignes des outils de la recherche d'information sur Internet : sur ce site cliquer ici, sur le site du journal Libération cliquer ici (des fichiers sur le fonctionnement d'Internet chaque semaine) [6]Cette limite ne semble plus aujourd'hui dépendante des capacités de traitement des machines, nous aurions aimé comprendre les raisons de cette restriction mais n'y sommes pas parvenus. [7]
"If you find a way to deterritorialize,
to dissolve localities and hierarchies, there might also be ways to reconstruct
hierarchies and come with filters, tastes, judgements and values. Everybody
is complaining about the lack of hierarchy in the Net. The more unmediated
access you have, the more closed and highly hierarchical and critical sites
you will find. In our centre we invented a system called 'semiotext' which
gives maps of internet texts by clustering the words into a system called
Leximap. It gives you highly hierarchized maps. This sort of system will
proliferate. It gives you depth of vision, which can be given a critique.
It will be a highly elaborate site if people know that they can find good
critiques there. Again, everything which runs against the notion of information
will happen just by itself. Universality, fastness, immediacy will not
suddenly be there, despite the hype. On the contrary, local transformation,
hierarchy, taste, critique: that will happen. The idea of information as
immutability and mobility being non-contradictory, being able to flow everywhere,
does not work at the level of science, nor at the level of the computer
or politics. We can make a save bet that it will not happen."
[8] GRIVEL Luc et FRANÇOIS Claire.- «Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique.».- In Solaris, Bibliométrie, Scientométrie, Infométrie, sous la dir. de Jean-Max Noyer.- Rennes : Presses Universitaires, 1995 [9] Infoseek annonce, en cette fin novembre 1998, Ultraseek server 3.0, un robot capable de lire, d'interpréter et d'indexer les documents Web rédigés en XML 1.0 (Extensible Markup Language). Ce langage de script issu d'une simplification du SGML permet une définition plus claire et précise, à l'intérieur de documents, du type de contenu (histoire, chimie,...), de sa mise en page, des balises, des paragraphes, des lignes et des liens, par l'appel d'un document type (Définition d'un Type de Document ou DTD), et la construction de balises personnelles. Cette possibilité de générer ses propres balises permet une personnalisation affinée du langage pour les professionnels notamment. En outre, les logiciels XML utiliseront tous une interface de programmation commune, le DOM (Document Object Model), approuvée par le W3C, qui les rendra portables d'un environnement, ou d'un navigateur à l'autre. Le moteur de recherche Infoseek ne supportera cependant le XML que lorsque le standard ainsi que la méthode de classification qu'il implique seront approuvés et répandus. Pour naviguer dans les différentes parties de ce mémoire : © DIAZ Diego-Angel 1998 |