Le repérage de l'information sur Internet :
catalogage et indexation des ressources sur le World Wide Web
II. Cataloguer et indexer des ressources sur le World Wide Web :
pour permettre et améliorer le repérage de l'information sur le réseau
II.1 Catalogage et indexation a priori




Plan de cette partie :

Introduction

Les mécanismes techniques de la publication sous forme électronique doivent permettre, tout comme ceux de la publication traditionnelle papier, de passer du travail de l'auteur à un support de distribution et d'utilisation, mais aussi de conservation pour un accès ultérieur. Les points clés permettant de garantir une certaine pérennité de l'accès aux documents électroniques sont :

    - La pérennité du codage des données sur le plan du contenu et des formats. Le format pérenne garantissant une durée de conservation et d'accès de la publication peut être soit directement le format de création, soit le format de publication, soit un format dérivable de l'un de ces deux formats. Il doit être indépendant des programmes qui ont servi à créer le document et utilisable sur toutes les plates-formes matérielles pour le stockage et la consultation ;
    - Le codage dès la publication d'informations sur le document (méta-données) qui va garantir une identification correcte du document, donner des indications sur son contenu et sur ses localisations physiques. 

Dans les deux cas, l'application de normes internationales ou de standards de fait très répandus peuvent seules garantir la pérennité des documents. [1]


II.1.1 Bref historique : des outils classiques aux formats du document électronique

Un historique exhaustif et complet rédigé par Mme Sylvie FAYET-SCRIBE est disponible en ligne sous le titre Chronologie des supports, des dispositifs spatiaux, des outils de repérage de l'information. [2] On ne reprendra pas ici son travail mais on se contentera de s'en inspirer pour avancer quelques hypothèses.

L'histoire des "techniques intellectuelles" permettant le repérage de l'information nous montre que bien que les possibilités de traitement informatique évoluent à grande vitesse depuis la moitié du siècle, les outils et les méthodes de repérage de l'information d'aujourd'hui ne sont pas indépendants de ceux utilisés par le passé. De nouveaux outils informatiques, couplés à des avancées dans divers domaines scientifiques, permettent certes aujourd'hui un traitement d'une plus grande quantité d'information dans un laps de temps réduit ; mais Internet n'est qu'un nouveau médium de l'information, et les techniques intellectuelles dévolues au repérage des informations qu'il véhicule, restent les filles des techniques recensées dans la chronologie que nous évoquions plus haut.

Si les évolutions technologiques permettent de gérer et de produire des quantités d'informations toujours plus importantes, les méthodes intellectuelles sur lesquelles elles reposent se doivent aujourd'hui d'évoluer à leur tour. Internet, en tant que nouveau média de production et de diffusion, par les possibilités nouvelles qu'il permet, entraîne la création de nouvelles façons et formes d'écrire (hypertexte, association du texte et d'éléments multimédias, etc.). [3] L'indexation des textes, des images et des sons, si elles ne sont pas des techniques nouvelles à proprement parler (les banques d'images, de vidéos ou de sons existent déjà depuis quelques temps), doivent se faire au sein des mêmes documents. On doit pouvoir retrouver d'un document HTML, tant son contenu rédactionnel, que les illustrations, sons ou vidéos qui l'accompagnent. L'outil idéal permettrait donc d'indexer ces différents aspects du document et donc de le retrouver. Comme nous le verrons plus avant, cet outil n'existe pas encore ; il existe cependant de façon embryonnaire et éclatée (certains outils -les plus nombreux- permettent l'indexation et la recherche de contenus rédactionnels textuels, d'autres permettent la recherche d'images, d'autres encore la recherche d'extraits sonores de différents formats, etc.).


II.1.2 Application au cas d'Internet


    II.1.2.1 Repérage de l'information

Les progrès technologiques des dernières années et la possibilité aujourd'hui offerte à tout un chacun (petites structures associatives, PME-PMI ou même particulier en veine d'écriture) de devenir un producteur d'information sur Internet ont entraîné une explosion de la quantité d'information disponible. Les distances et les frontières ne freinent plus la diffusion de ces contenus. La conjonction de ces phénomènes conduit à l'apparition de flux d'information très élevés que les spécialistes de l'information se doivent d'apprendre à maîtriser et à gérer.

Flux d'information (F) = Quantité d'information (Q)/ Temps de diffusion (T)

Comme Q augmente et que T diminue, on peut parler d'explosion de F qui croît de façon exponentielle. [4]

D'une gestion de stockage, de conservation et de préservation des documents, bibliothécaires et documentalistes doivent aujourd'hui passer à une gestion de flux informationnels. Ils devront pour cela maîtriser, outre les techniques documentaires traditionnelles, les outils de repérage de l'information informatiques (sur les réseaux et au sein même des disques durs dont les capacités de stockage ne cessent de croître). Ces derniers sont variés et en perpétuelle évolution. Ce mémoire se veut une entrée en matière pour aborder et présenter les différentes familles d'outils à disposition aujourd'hui existants. L'exhaustivité n'est pas le but recherché, on essaiera simplement de catégoriser et de définir les types d'outils les plus utilisés ou les plus prometteurs.



    II.1.2.2 Référencement de ressources

À l’heure où la France est en passe de combler son retard en ce qui concerne les technologies et l’usage d’Internet [5], le nombre de sites institutionnels, privés ou de particuliers se multiplie rapidement. Il convient alors de s’interroger sur les meilleurs moyens pour tous ces sites d’être correctement référencés par les outils de recherche du réseau (moteurs de recherche, répertoires thématiques validés) afin d’être visibles par tous ceux qu’ils visent ou sont susceptibles d’intéresser.

Le meilleur des sites passera inaperçu dans la masse d’informations qui transite sur le réseau sans un bon référencement [6]. Si les règles évoluent quasiment aussi vite que le réseau lui-même, des tendances se sont dégagées que les producteurs d’information électronique se doivent aujourd’hui d’intégrer. Ces règles devront permettre, à l’utilisateur comme au producteur, une meilleure accessibilité et lisibilité des informations disponibles sur Internet.




      a. Noms de domaines

L'achat par les sociétés de "noms de domaines" en relation avec leur nom ou leurs produits phares relève comme nous l'évoquions dans la première partie de ce mémoire (I.2.2 Les adresses URI) du catalogage et de l'indexation de leur site Internet. Il doit leur permettre une visibilité accrue lorsque l'internaute effectue une requête comprenant leur raison sociale, des marques ou des produits qu'ils distribuent, conçoivent ou fabriquent et dont les noms ont été déposés.

En déposant un nom de domaine on risque de porter atteinte aux droits de propriété intellectuelle sur les noms protégés. La protection des droits privatifs sur les noms (nom de famille, nom de société, marque déposée, etc.) au regard de l'enregistrement des noms de domaines est un problème sensible. Notamment pour les marques, la question se pose de déterminer si une adresse Web peut constituer la reproduction d'une marque souvent complexe, car composée d'un texte écrit dans des caractères particuliers, avec des couleurs significatives et associée à un logo ou une image originale. En France, l'AFNIC (Association française pour le nommage Internet en coopération) contrôle l'attribution des noms de domaine (.fr ; .tm.fr ; .assoc.fr ; etc.) en fonction des droits des demandeurs.

À l'inverse, le domaine « .com » fait partie des gTLD (generic Top Level Domain qui comprend également les domaines .gov, .edu, .net et .org) gérés par le NSI (Network Solutions Inc.) qui autorise, de son côté, une réservation très libérale de noms de domaines. Par ailleurs, le dépôt de marque effectué auprès de l'INPI (Institut national de la propriété industrielle) a vocation à protéger ce nom à l'égard des tiers (droit privatif) pour les produits et services revendiqués (principe de spécialité de la marque) sur le territoire national (principe de territorialité) et les territoires étrangers sur lesquels des dépôts ont été effectués. Si la simple utilisation d'un nom de domaine, identique à une marque littérale déposée, ne constitue pas, à proprement parler, une contrefaçon de cette marque, elle peut être à l'origine d'un préjudice lié à une utilisation frauduleuse de la marque. Il est alors possible d'intenter, dans chaque pays où la marque est déposée, une action judiciaire contre d'éventuels usurpateurs.
On peut, au préalable, saisir le NSI (http://www.internic.net) qui a mis en place une procédure au cours de laquelle il faut prouver (en anglais) que l'on est bien titulaire de la marque et que l'on a informé le tiers utilisateur de ses droits. Concernant le logo, si celui-ci est reproduit à l'identique par un site, cela constitue à l'évidence une contrefaçon (par reproduction) qui ouvre la voie à une action, même si l'auteur se trouve sur un territoire étranger, puisque le dommage (la reproduction de votre logo) est accessible en France et donc subi sur le territoire national. [7]

Le préjudice peut être réellement important et on a vu des sociétés racheter au prix fort "leur" nom de domaine (ex : www.altavista.com pour accéder au moteur de recherche de Digital Equipment, aujourd'hui racheté par la société Compaq).

Le Livre Blanc pour le Nommage sur l'Internet :

Jeudi 5 juin 1998, le gouvernement américain a publié le Livre Blanc susceptible d'évacuer les points de controverse entre l'Union Européenne (UE) et les États-Unis après la publication d'un premier document, dit le Livre Vert concernant le nommage Internet. Les critiques ne provenaient pas uniquement de l'Europe, l'Internet Society (ISOC) avait également fait connaître son désaccord. Selon Daniel Kaplan, consultant et lecteur avisé du Livre Blanc, le "document semble prendre en compte sur plusieurs points essentiels les objections" : il reconnaît l'existence de l'ISOC et le travail réalisé par l'IAHC (Internet International Ad Hoc Commitee), tout en critiquant son caractère non consensuel, il réaffirme la volonté américaine de faire confiance à des formes de coordination décentralisées.

Par ailleurs il ne propose plus un plan détaillé et daté d'évolution du DNS. Une nouvelle entité sera chargée de gérer l'adressage et le nommage sur l'Internet et effectuera les choix en la matière. Le gouvernement américain ne prendra plus position sur la concurrence entre "registres", mais défendra la concurrence entre bureaux d'enregistrement. Le Livre Blanc prévoit différents dispositifs destinés à éviter la domination de fait du droit des marques américain. Sur ce point, l'OMPI (Organisation mondiale de la propriété intellectuelle) va mettre en place une procédure unifiée d'arbitrage.

Enfin il s'engage à chercher le moyen de favoriser un usage plus important du "point us" (.us) par les entreprises et les administrations américaines. Daniel Kaplan souligne également le manque d'une action volontariste pour assurer la représentativité géographique du conseil d'administration du nouvel organisme chargé de gérer l'adressage et le nommage. Mais avec cette nouvelle proposition, on assiste à "une prise de conscience internationale des enjeux de l'organisation de l'Internet et l'importance d'une organisation mondiale telle que l'ISOC". En effet, le Livre Blanc propose de confier la gestion de la période de transition à un groupe de quinze personnes, représentant le secteur privé, les acteurs d'Internet et les associations de consommateurs. [8]


    b. Metadatas

On désigne sous le nom de metadata "données sur les données" un ensemble de rubriques, contenues dans ou associées à un document, et donnant des informations sur son contenu. Ces informations sont plus particulièrement destinées à être traitées par les moteurs de recherche (le catalogage et l'indexation classiques sont une forme de metadata et on peut dire qu'une notice MARC est un ensemble de metadata).

Dans le monde Internet, les metadatas ont pris un sens particulier dans la mesure où les moteurs de recherche (...) commencent à exploiter des éléments nommés Meta qui figurent dans les pages HTML. Remplir les rubriques Meta devrait donc permettre aux auteurs de voir leurs pages mieux repérées par les serveurs." [9]

Dès la création d'un site Web, son auteur (individu ou collectivité-auteur) doit s’intéresser aux règles de référencement qui permettront d’intégrer au mieux les pages Web dans les index des grands automates de recherche. Les hommes qui indexent les sites pour le compte des annuaires thématiques pourront de plus s'en inspirer en consultant le code source de la page.

En l’absence de méta-données, qui doivent être intégrées dans le code source de la page HTML (entre les balises <HEAD> et </HEAD> du code source), les moteurs de recherche indexeront automatiquement l’intégralité de la page et généreront un résumé automatique (en se basant le plus souvent sur le premier paragraphe) : cette indexation automatique est généralement insuffisante pour que le site soit correctement classé dans les réponses proposées par le robot suite à la requête d'un utilisateur.

Les balises META sont des balises HTML permettant d'indiquer aux moteurs de recherche un certain nombre d'informations sur le contenu d'une page Web. Le terme META signifie METADATA, soit "l'information sur l'information". Seules 10 à 20% des pages Web contiendraient ces indications. [10] Pour placer des mots clés qualifiant le site dans les meta tags HTML :

- <title>titre de la page </title>
- <Meta name= " Author " content = "nom de l'auteur ou des auteurs de la page">
- <Meta name= " keywords " content = "liste de mots clés séparés par une virgule">
- <Meta name= " description " content = "résumé du contenu de la page, texte pris en compte par la majorité des moteurs de recherche qui affichent ce texte (les 100 premiers mots) lors de recherches sur les moteurs">
- <Meta name= " Robots " content = "indique au robot s'il doit indexer la page (index ou noindex) et s'il doit indexer ou non les pages liées (follow, nofollow)"> : ceci permet de cacher aux utilisateurs non concernés tout ou partie d'un site

Pour optimiser le référencement et la promotion de son site auprès des différents outils de recherche, il est important de bien connaître les caractéristiques d'indexation propres aux moteurs de recherche et aux annuaires [10] et d'utiliser les plus fréquentés.


Les mots clés doivent être choisis judicieusement ; pour cela, faire des recherches avec mots clés sur les différents moteurs et annuaires. Il est fortement recommandé de ne pas utiliser un mot clé de façon abusive ; les moteurs de recherche les refusant d'office au-delà d'un certain nombre (si on cite plus de huit fois le même mot clé, le moteur considère que l’on tente de "polluer" (spammer) ses index et la page est déclassée à la pondération des réponses).

Le but restant d'apparaître dans les 15-20 premières réponses qui sont affichées dans la première page. L'ordre d'affichage et de pertinence des réponses dépend du poids donné à chaque champs : en règle générale, le titre a un poids plus important, viennent ensuite le résumé et les mots clés.

Limites des balises META :

Tous les moteurs de recherche ne les prennent pas en compte (Excite ou WebCrawler, par exemple). Lycos et NorthernLight indexent le texte des balises mais n'affichent pas la zone Description dans leurs résultats. Infoseek, HotBot et AltaVista indexent par contre, pour leur part, tous les mots clés de la balise Keywords et affichent le contenu de la balise Description dans leurs résultats. Dans le cas d'AltaVista, l'utilisation de ces balises est limitée à 1024 caractères.

Certains Webmasters peu scrupuleux affichent un texte ou une liste faramineuse de mots clés en blanc sur fond blanc par exemple, cela peut être pénalisé par certains moteurs mais fonctionne cependant parfois. Le site est alors retourné en réponse bien classé, sans pourtant être en rapport avec la recherche de l'internaute. Les balises META sont par contre indispensables sur les pages réalisées avec des frames car un certain nombre de moteurs de recherche n'indexent pas leur contenu. Ces balises seront également utilisées pour compléter le contenu d'une page qui ne contiendrait pas des mots clés importants au format textuel (notamment les pages comportant un certain nombre de choix ou de titres au format graphique).

Netscape a proposé une nouvelle génération de balises META, appelée MCF (Meta Content Format). [11] Tandis que Microsoft met en avant une proposition appelée «Web Collections». Le consortium W3C, de son côté, travaille sur le format RDF (Resource Description Framework) [12]en langage XML. L'avenir des balises META sera une lutte serrée entre ces trois acteurs de poids du monde Internet.

Machine Readable Card (MARC) pour les éléments de catalogues de bibliothèques, Dublin Core (DC) définit des métadonnées associées aux pages Web, le Consortium for the Interchange of Museum Information (CIMI) définit les métadonnées associées aux informations muséographiques


Générateurs de balises META :
Un certain nombre de sites (ou de logiciels) permettent de générer automatiquement des balises META. En leur indiquant un certain nombre d'informations (mots clés, phrase de description, etc.), on obtient, en ligne ou par E-mail, les balises META correspondantes. La plupart de ces services rajoutent une ligne de commentaire indiquant que les balises ont été créées grâce à leur utilitaire, mais cette ligne peut être effacée par la suite dans le code source final si on veut allèger le poids de sa page. [13]

      c. Rédaction du document HTML

Comme nous l'avons abordé dans le chapitre précédent, en l'absence de META, le choix du titre de la page et la rédaction du premier paragraphe sont capitaux pour un bon référencement. Il convient donc de privilégier l'aspect pratique en les travaillant bien et s'assurer ainsi une bonne visibilité, sur l'aspect esthétique qui voudrait voir apparaître en première page un beau titre sous forme de graphique plus accrocheur pour le public. Les deux n'étant en aucun cas incompatibles, on recommandera simplement ici au référenceur de travailler avec soin ces passages importants des pages qu'ils ont à traiter.

Lorsque le site existe en plusieurs langues, se décompose en plusieurs rubriques ou vise différents types de publics, il faudra faire ce travail au minimum pour chacune des pages d'accueil des différentes parties ou rubriques du site. Le référencement le plus important restant celui de la page d'accueil du site, certaines sous-pages peuvent attirer des internautes que la première page n'aurait pas fait venir, libre à eux ensuite de remonter à la racine du site.


II.1.3 Les projets de normalisation en cours

    II.1.3.1 Acteurs de la normalisation

Les principaux organismes de la normalisation de l'Internet sont au nombre de huit, et les associations de fournisseurs sont bien souvent plus dynamiques que les organismes officiels. Ces derniers perdent d'autant plus de leur influence que certains éditeurs déploient des stratégies hégémoniques.

Parmi les nombreux organismes visant à standardiser les technologies de l'information, il faut distinguer les associations de ceux qui sont officiels. Parmi ces derniers, on compte l'ISO (International Standard Organization), l'IUT (Implementation Under Test) et l'IEEE (Institute of Electrical and Electronics Engineers). Leur atout principal est la légitimité, même si nombre de participants à leurs groupes de travail évoluent chez des fournisseurs. Leur fonctionnement lourd tend toutefois à les affaiblir.

Arbitres des conflits, mais moins officielles, les associations telles que l'IETF (Internet Engineering Task Force), le W3C (World Wide Web Consortium) ou l'OMG (Object Management Group) sont composées de fournisseurs, d'opérateurs, de grands utilisateurs, d'universités et d'organismes de recherche. Officielles ou non, le rôle de ces organisations se limite parfois à un arbitrage entre les deux ou trois fournisseurs qui se disputent un standard de fait ou à l'officialisation d'une technologie propriétaire devenue dominante. L'ISO et l'Open Group ont ainsi fait figure de faire-valoir à Sun dans l'affaire de la normalisation de Java, ou à Microsoft dans celle de la technologie Active X.

En général, Microsoft n'hésite d'ailleurs pas à semer les trouble-fêtes en ignorant purement et simplement les normes officielles. Mais il ne faut pas sous-estimer l'influence des associations. Elles savent souvent fédérer différents travaux pour créer les conditions d'une réelle interopérabilité ou, simplement, les rendre réellement exploitables dans un domaine particulier. Elles sont parfois aussi à l'origine de véritables innovations (comme les feuilles de styles dans la version 4 du langage HTML par exemple, qui ont servi à la mise en place automatique d'une interligne de 1,5 pour les pages de ce mémoire). De plus, leurs objectifs sont très concrets, et leur relative spécialisation évite la concurrence tout en les amenant à collaborer sainement.

L'IETF rassemble les principaux opérateurs, organismes de recherche, constructeurs de systèmes informatiques et d'équipements réseaux. Comme son nom l'indique, il préside aux destinées de toutes les technologies qui définissent l'architecture d'Internet. Il s'agit, bien sûr, de TCP/IP et des protocoles de routage associés, mais aussi de HTTP, ainsi que des protocoles de gestion de noms de domaines (DNS), d'allocation d'adresses ou d'accès aux annuaires. [14]

    II.1.3.2 Guerre des normes

Le W3C (World Wide Web Consortium) a établi des standards pour l'interprétation de contenus sur le Web. En lançant des navigateurs qui ne les supportent pas uniformément, les fabricants nuisent aux développeurs Web, aux entreprises et aux usagers de l'Internet. L'absence de support uniforme pour les standards du W3C rend l'utilisation et le développement des technologies liées à l'Internet inutilement complexes et coûteux.

Ce qui est vrai pour les navigateurs l'est aussi pour certains éditeurs HTML (logiciels qui facilitent la création de documents HTML) et pour les sociétés qui développent des sites Internet. [15]


    II.1.3.3 L'exemple du Dublin Core

Le Dublin Core est un meeting sur les metadata qui a pour mission de mettre en place une norme commune pour améliorer la recherche sur Internet. La première réunion s'est tenue en mars 1995 à Dublin (Ohio). Elle est organisée par l'OCLC (Online Computer Library Center Inc.) et l'UKOLN (UK Office for Library and Information Networking). Il part d'un constat simple, deux manières de décrire un document existent aujourd'hui avec lesquelles il va falloir composer :
- la génération d'index automatiques ;
- le catalogage (comme le format MARC, adopté par de nombreux professionnels de l'information et de la documentation) et la génération d'annuaires à l'aide de l'intelligence humaine.

Le format de description proposé par Dublin Core se définit en (et se limite à) quinze éléments pour le catalogage sur Internet [16] :
- titre
- auteur ou créateur
- sujet et mots clefs
- description
- éditeur
- autre contributeur
- date
- type de ressource
- format
- identificateur de la ressource
- source
- langage
- relation
- couverture
- gestion des droits

La table de métadonnées du Dublin Core est en passe de devenir un standard. La description des 15 éléments de métadonnées du Dublin Core a été publiée comme Request for Comments (RFC). Le but étant de joindre les deux modes de catalogage énoncés plus haut et de permettre une indexation "humaine" et plus pertinente. La question qui reste en suspend est celle de savoir qui accomplira cette tâche. Comment restructurer la chaîne de l'information qui, sur Internet, se crée de manière anarchique ? Les auteurs de pages HTML voudront et sauront-ils respecter cette norme ?

"(...) les premières expériences ont montré une très grande dispersion dans l'usage de ces metadatas ; le 'Dublin Core' identifie une initiative visant à améliorer la normalisation des metadatas en proposant un mode de catalogage sur Internet en respectant deux objectifs : d'une part, être plus accessible aux usagers que les traditionnels formats MARC ; d'autre part, faciliter l'interopérabilité des applications." [7]



Conclusion

Indexer des pages Web reste un exercice difficile puisque l’indexation se fait « hors-contexte », de nombreux outils existent cependant qui permettent de référencer correctement les documents électroniques sur le réseau auprès des principaux outils de recherche. Cataloguer la totalité des ressources disponibles est une autre gageure ! [17] Si certains trichent pour être visibles quelle que soit la requête formulée, le plus intéressant pour le concepteur d'un site reste cependant d’attirer le regard de ceux qui vont y trouver ce qu’ils recherchent et non de s'imposer aux utilisateurs sous peine de nuire à soi-même mais aussi à la totalité de la communauté réticulaire.




[1] LUPOVICI, Catherine.- Formats et normes du document électronique.- Paris : Jouve, 1997

[2] FAYET-SCRIBE, Sylvie. (page consultée le 13 mars 1998). "Chronologie des supports, des dispositifs spatiaux, des outils de repérage de l'information". In Le savoir et ses outils d'accès : repères historiques. Solaris, dossiers du GIRSIC (1998). [en ligne]. Adresse URL : http://www.info.unicaen.fr/bnum/jelec/Solaris/d04/4fayet_0intro.html

[3] LÉVY, Pierre.- Les technologies de l'intelligence : l'avenir de la pensée à l'ère informatique.- Paris : Seuil, 1993.- (Points Sciences ; 90)

[4] Le Coadic, Yves-François.- La science de l'information.- Paris : Presses Universitaires de France, 1994.- (Que Sais-je ?; n°2873).- p.9 à 12

[5] SVM n°160, dossier : Internet, le jour où la France s’est réveillée, mai 1998, p.65 et suivantes

[6] Lorsqu’un utilisateur lance une requête sur Internet, dans 9 cas sur 10, il ne consultera que les 20 premières réponses proposées (source Netsurf avril 1998)

[7] Consultation en ligne avec FG Associés sur le site Internet de la revue Le Monde Informatique : rubrique Les avocats répondent à nos lecteurs, Joël Hesclaut (cliquer ici pour accéder à l'article complet)

[8] Source LMB Actu
Pour approfondir le sujet : http://www.lmb.cnrs.fr/ntic/livert.html
La gestion des noms de domaines : http://www.ntia.doc.gov/ntiahome/domainname/domainhome.htm
Le Livre Blanc proprement dit : http://www.ntia.doc.gov/ntiahome/domainname/6_5_98dns.htm
Commentaire à l'ISOC : http://www.isoc.org/isoc/media/releases/iana060598pr.shtml
Réaction de l'OMPI : http://www.ompi.org/fre/internet/domains/announce.htm
NSI, Network Solutions Inc devait gèrer le nommage jusqu'au 30 septembre 1998, cette date butoir a été repoussée : http://www.netsol.com/


[9]Compte-rendu d'une mission concernant la 5ème réunion du Dublin Core Metadata Workshop à Helsinki, Finlande, par Jacques Ducloy

[10] Voir l'article de la Lettre du bibliothécaire québécois (LBQ) du N°10-mars 98, sur les annuaires et moteurs de recherche ou le site www.searchengine.com qui dissèque le fonctionnement des principaux outils de recherche sur Internet

[11] Meta Content Framework (MCF) est un exemple de la position de Netscape. Ce standard proposé a été adopté par la société avant son implémentation dans les produits. Annoncé initialement en 1996, conjointement avec Apple et d'autres partenaires industriels, ce standard offre aux sites Web une méthode commune de description de leur contenu sous une forme synthétique, convenant à une multitude d'applications. Ainsi, elle peut être utilisée par un navigateur pour créer une carte de site ou par un moteur de recherche pour déterminer les portions d'un site devant être indexées. Netscape collabore avec divers organismes de standardisation en vue de parvenir à un accord pour l'acceptation de MCF comme standard proposé avant son intégration dans de nouveaux produits. Il s'agit d'un langage, créé par le Dr Guha, destiné à représenter un large éventail d'informations sur le contenu des pages Web, de fichiers Gopher ou FTP, de courriers électroniques, de bases de données structurées (relationnelles et orientées objet), et même de fichiers enregistrés sur un disque dur.

[12] RDF (Resource Description Framework) est le résultat de plusieurs groupes de travail du W3C (le groupe PICS, le groupe DSIG (Digital Signature) et le groupe Dublin Core) et utilise le langage XML comme support et permettra non seulement de décrire les attributs d'une ressource (sous forme de paire attribut-valeur, comme le font actuellement les balises META) mais aussi les relations entre ressources, indépendamment de la syntaxe. RDF fournit un cadre pour la définition et l'utilisation de métadata, pour appuyer l'interopérabilité des métadonnées, mais son utilisation dépend grandement de la généralisation d'XML.
Il s'agit d'un ensemble de conventions qui supportera l'interopérabilité entre des applications qui échangeront des métadonnées. La syntaxe sera exprimée en langage XML mais la sémantique sera définie par les besoins des usagers. RDF est un cadre ; il peut recevoir les métadonnées du Dublin Core, les autres normes de métadonnées et également les métadonnées qui seront définies dans quelques années pour répondre à d'autres besoins de recherche documentaire ; le cadre sera déjà là pour les recevoir.
La sémantique de toutes ces métadonnées s'exprimera donc dans une syntaxe normalisée, en XML et dans un cadre RDF. En ayant une sémantique normalisée, il deviendra possible de traiter ces données par machine : des zones d'information précises où chercher seront définies. Le Web deviendra non seulement lisible par machine mais également intelligible par machine.
Comme sa structure repose sur XML, il convient de rappeler qu'aucun caractère binaire propriétaire, c'est-à-dire aucun caractère non affichable sur un écran, n'est toléré à l'intérieur du fichier. Dans 20 ans, ces fichiers seront donc toujours lisibles par l'humain (au moyen de n'importe quel éditeur de texte simple). Ils seront d'autant plus lisibles que les balises utilisées pour les métadonnées sont généralement très descriptives (DC.author ou DC.title par exemple).
Il sera possible dans l'en-tête du fichier d'intégrer et d'emboîter (principe des poupées russes) plusieurs normes de métadonnées. Nous n'aurons qu'à indiquer, au début du fichier XML, l'adresse URL de la localisation de la norme que nous utilisons et notre logiciel de recherche saura, par exemple, que DC:title réfère au Dublin Core ou que DDC:025.316 réfère à la classification Dewey ou à tout autre système de description ou de classification des ressources.
Pour en savoir plus sur le RDF : http://www.w3.org/TR/WD-rdf-syntax

[13] ANDRIEU, Olivier.- Trouver l'info sur l'Internet.- Paris : Eyrolles, 1998
Quelques adresses fournissant ce type de service :
AAA Internet Promotion's Meta-Tag Generator http://www.websitepromote.com/resources/meta/
WebPromote's Meta-Tag Generator http://metatag.webpromote.com/
Meta-Tag Builder
http://vancouver-webpages.com/VWbot/mk-metas.html
SiteUp's Meta-Tag Generator(logiciel) http://www.siteup.com/meta.html

[14] Thierry Lévy-Abégnoli, sur le site de la revue 01 Informatique http://www.01-informatique.com/

[15] Le Monde Informatique n°706, 24 janvier 1997 : dossier, La normalisation Internet : la loi du plus fort va-t-elle s'instaurer ?

[16] Pour une description détaillée de ces éléments :
en français, http://www-rocq.inria/~vercoust/METADATA/DC-french.html
en anglais, http://purl.oclc.org/metadata/dublin_core_elements

[17] Guy Teasdale calcule qu'un nombre de 128 000 emplois seraient créés si on décidait de cataloguer les ressources du Web, dans un texte qui fourmille d'informations dont certaines proviennent d'une conférence de Stuart Weibel, un des initiateurs du Dublin Core, prononcée lors du congrès de l'ACFAS le 12 mai 1998



Pour naviguer dans les différentes parties de ce mémoire :


© DIAZ Diego-Angel 1998