Plan de cette partie :
Les mécanismes techniques de la publication sous forme électronique doivent permettre, tout comme ceux de la publication traditionnelle papier, de passer du travail de l'auteur à un support de distribution et d'utilisation, mais aussi de conservation pour un accès ultérieur. Les points clés permettant de garantir une certaine pérennité de l'accès aux documents électroniques sont : - La pérennité
du codage des données sur le plan du contenu et des formats. Le
format pérenne garantissant une durée de conservation et
d'accès de la publication peut être soit directement le format
de création, soit le format de publication, soit un format dérivable
de l'un de ces deux formats. Il doit être indépendant des
programmes qui ont servi à créer le document et utilisable
sur toutes les plates-formes matérielles pour le stockage et la
consultation ;
Dans les deux cas, l'application de normes internationales ou de standards de fait très répandus peuvent seules garantir la pérennité des documents. [1] II.1.1 Bref historique : des outils classiques aux formats du document électronique Un historique exhaustif et complet rédigé par Mme Sylvie FAYET-SCRIBE est disponible en ligne sous le titre Chronologie des supports, des dispositifs spatiaux, des outils de repérage de l'information. [2] On ne reprendra pas ici son travail mais on se contentera de s'en inspirer pour avancer quelques hypothèses. L'histoire des "techniques intellectuelles" permettant le repérage de l'information nous montre que bien que les possibilités de traitement informatique évoluent à grande vitesse depuis la moitié du siècle, les outils et les méthodes de repérage de l'information d'aujourd'hui ne sont pas indépendants de ceux utilisés par le passé. De nouveaux outils informatiques, couplés à des avancées dans divers domaines scientifiques, permettent certes aujourd'hui un traitement d'une plus grande quantité d'information dans un laps de temps réduit ; mais Internet n'est qu'un nouveau médium de l'information, et les techniques intellectuelles dévolues au repérage des informations qu'il véhicule, restent les filles des techniques recensées dans la chronologie que nous évoquions plus haut. Si les évolutions technologiques permettent de gérer et de produire des quantités d'informations toujours plus importantes, les méthodes intellectuelles sur lesquelles elles reposent se doivent aujourd'hui d'évoluer à leur tour. Internet, en tant que nouveau média de production et de diffusion, par les possibilités nouvelles qu'il permet, entraîne la création de nouvelles façons et formes d'écrire (hypertexte, association du texte et d'éléments multimédias, etc.). [3] L'indexation des textes, des images et des sons, si elles ne sont pas des techniques nouvelles à proprement parler (les banques d'images, de vidéos ou de sons existent déjà depuis quelques temps), doivent se faire au sein des mêmes documents. On doit pouvoir retrouver d'un document HTML, tant son contenu rédactionnel, que les illustrations, sons ou vidéos qui l'accompagnent. L'outil idéal permettrait donc d'indexer ces différents aspects du document et donc de le retrouver. Comme nous le verrons plus avant, cet outil n'existe pas encore ; il existe cependant de façon embryonnaire et éclatée (certains outils -les plus nombreux- permettent l'indexation et la recherche de contenus rédactionnels textuels, d'autres permettent la recherche d'images, d'autres encore la recherche d'extraits sonores de différents formats, etc.). II.1.2 Application au cas d'Internet Les progrès technologiques des dernières années et la possibilité aujourd'hui offerte à tout un chacun (petites structures associatives, PME-PMI ou même particulier en veine d'écriture) de devenir un producteur d'information sur Internet ont entraîné une explosion de la quantité d'information disponible. Les distances et les frontières ne freinent plus la diffusion de ces contenus. La conjonction de ces phénomènes conduit à l'apparition de flux d'information très élevés que les spécialistes de l'information se doivent d'apprendre à maîtriser et à gérer. Flux d'information (F) = Quantité d'information (Q)/ Temps de diffusion (T) Comme Q augmente et que T diminue, on peut parler d'explosion de F qui croît de façon exponentielle. [4] D'une gestion de stockage, de conservation et de préservation des documents, bibliothécaires et documentalistes doivent aujourd'hui passer à une gestion de flux informationnels. Ils devront pour cela maîtriser, outre les techniques documentaires traditionnelles, les outils de repérage de l'information informatiques (sur les réseaux et au sein même des disques durs dont les capacités de stockage ne cessent de croître). Ces derniers sont variés et en perpétuelle évolution. Ce mémoire se veut une entrée en matière pour aborder et présenter les différentes familles d'outils à disposition aujourd'hui existants. L'exhaustivité n'est pas le but recherché, on essaiera simplement de catégoriser et de définir les types d'outils les plus utilisés ou les plus prometteurs. À l’heure où la France est en passe de combler son retard en ce qui concerne les technologies et l’usage d’Internet [5], le nombre de sites institutionnels, privés ou de particuliers se multiplie rapidement. Il convient alors de s’interroger sur les meilleurs moyens pour tous ces sites d’être correctement référencés par les outils de recherche du réseau (moteurs de recherche, répertoires thématiques validés) afin d’être visibles par tous ceux qu’ils visent ou sont susceptibles d’intéresser. Le meilleur des sites passera inaperçu dans la masse d’informations qui transite sur le réseau sans un bon référencement [6]. Si les règles évoluent quasiment aussi vite que le réseau lui-même, des tendances se sont dégagées que les producteurs d’information électronique se doivent aujourd’hui d’intégrer. Ces règles devront permettre, à l’utilisateur comme au producteur, une meilleure accessibilité et lisibilité des informations disponibles sur Internet. L'achat par les sociétés de "noms de domaines" en relation avec leur nom ou leurs produits phares relève comme nous l'évoquions dans la première partie de ce mémoire (I.2.2 Les adresses URI) du catalogage et de l'indexation de leur site Internet. Il doit leur permettre une visibilité accrue lorsque l'internaute effectue une requête comprenant leur raison sociale, des marques ou des produits qu'ils distribuent, conçoivent ou fabriquent et dont les noms ont été déposés. En déposant un nom de domaine on risque de porter atteinte aux droits de propriété intellectuelle sur les noms protégés. La protection des droits privatifs sur les noms (nom de famille, nom de société, marque déposée, etc.) au regard de l'enregistrement des noms de domaines est un problème sensible. Notamment pour les marques, la question se pose de déterminer si une adresse Web peut constituer la reproduction d'une marque souvent complexe, car composée d'un texte écrit dans des caractères particuliers, avec des couleurs significatives et associée à un logo ou une image originale. En France, l'AFNIC (Association française pour le nommage Internet en coopération) contrôle l'attribution des noms de domaine (.fr ; .tm.fr ; .assoc.fr ; etc.) en fonction des droits des demandeurs. À l'inverse, le
domaine « .com » fait partie des gTLD (generic Top Level
Domain qui comprend également les domaines .gov, .edu, .net
et .org) gérés par le NSI (Network Solutions Inc.)
qui autorise, de son côté, une réservation très
libérale de noms de domaines. Par ailleurs, le dépôt
de marque effectué auprès de l'INPI (Institut national
de la propriété industrielle) a vocation à protéger
ce nom à l'égard des tiers (droit privatif) pour les produits
et services revendiqués (principe de spécialité de
la marque) sur le territoire national (principe de territorialité)
et les territoires étrangers sur lesquels des dépôts
ont été effectués. Si la simple utilisation d'un nom
de domaine, identique à une marque littérale déposée,
ne constitue pas, à proprement parler, une contrefaçon de
cette marque, elle peut être à l'origine d'un préjudice
lié à une utilisation frauduleuse de la marque. Il est alors
possible d'intenter, dans chaque pays où la marque est déposée,
une action judiciaire contre d'éventuels usurpateurs.
Le préjudice peut être réellement important et on a vu des sociétés racheter au prix fort "leur" nom de domaine (ex : www.altavista.com pour accéder au moteur de recherche de Digital Equipment, aujourd'hui racheté par la société Compaq). Le Livre Blanc pour le Nommage sur l'Internet : Jeudi 5 juin 1998, le gouvernement américain a publié le Livre Blanc susceptible d'évacuer les points de controverse entre l'Union Européenne (UE) et les États-Unis après la publication d'un premier document, dit le Livre Vert concernant le nommage Internet. Les critiques ne provenaient pas uniquement de l'Europe, l'Internet Society (ISOC) avait également fait connaître son désaccord. Selon Daniel Kaplan, consultant et lecteur avisé du Livre Blanc, le "document semble prendre en compte sur plusieurs points essentiels les objections" : il reconnaît l'existence de l'ISOC et le travail réalisé par l'IAHC (Internet International Ad Hoc Commitee), tout en critiquant son caractère non consensuel, il réaffirme la volonté américaine de faire confiance à des formes de coordination décentralisées. Par ailleurs il ne propose plus un plan détaillé et daté d'évolution du DNS. Une nouvelle entité sera chargée de gérer l'adressage et le nommage sur l'Internet et effectuera les choix en la matière. Le gouvernement américain ne prendra plus position sur la concurrence entre "registres", mais défendra la concurrence entre bureaux d'enregistrement. Le Livre Blanc prévoit différents dispositifs destinés à éviter la domination de fait du droit des marques américain. Sur ce point, l'OMPI (Organisation mondiale de la propriété intellectuelle) va mettre en place une procédure unifiée d'arbitrage. Enfin il s'engage à chercher le moyen de favoriser un usage plus important du "point us" (.us) par les entreprises et les administrations américaines. Daniel Kaplan souligne également le manque d'une action volontariste pour assurer la représentativité géographique du conseil d'administration du nouvel organisme chargé de gérer l'adressage et le nommage. Mais avec cette nouvelle proposition, on assiste à "une prise de conscience internationale des enjeux de l'organisation de l'Internet et l'importance d'une organisation mondiale telle que l'ISOC". En effet, le Livre Blanc propose de confier la gestion de la période de transition à un groupe de quinze personnes, représentant le secteur privé, les acteurs d'Internet et les associations de consommateurs. [8] On désigne sous le nom de metadata "données sur les données" un ensemble de rubriques, contenues dans ou associées à un document, et donnant des informations sur son contenu. Ces informations sont plus particulièrement destinées à être traitées par les moteurs de recherche (le catalogage et l'indexation classiques sont une forme de metadata et on peut dire qu'une notice MARC est un ensemble de metadata). Dans le monde Internet, les metadatas ont pris un sens particulier dans la mesure où les moteurs de recherche (...) commencent à exploiter des éléments nommés Meta qui figurent dans les pages HTML. Remplir les rubriques Meta devrait donc permettre aux auteurs de voir leurs pages mieux repérées par les serveurs." [9] Dès la création d'un site Web, son auteur (individu ou collectivité-auteur) doit s’intéresser aux règles de référencement qui permettront d’intégrer au mieux les pages Web dans les index des grands automates de recherche. Les hommes qui indexent les sites pour le compte des annuaires thématiques pourront de plus s'en inspirer en consultant le code source de la page. En l’absence de méta-données, qui doivent être intégrées dans le code source de la page HTML (entre les balises <HEAD> et </HEAD> du code source), les moteurs de recherche indexeront automatiquement l’intégralité de la page et généreront un résumé automatique (en se basant le plus souvent sur le premier paragraphe) : cette indexation automatique est généralement insuffisante pour que le site soit correctement classé dans les réponses proposées par le robot suite à la requête d'un utilisateur. Les balises META sont des balises HTML permettant d'indiquer aux moteurs de recherche un certain nombre d'informations sur le contenu d'une page Web. Le terme META signifie METADATA, soit "l'information sur l'information". Seules 10 à 20% des pages Web contiendraient ces indications. [10] Pour placer des mots clés qualifiant le site dans les meta tags HTML : - <title>titre
de la page </title>
Pour optimiser le référencement et la promotion de son site auprès des différents outils de recherche, il est important de bien connaître les caractéristiques d'indexation propres aux moteurs de recherche et aux annuaires [10] et d'utiliser les plus fréquentés. Les mots clés doivent être choisis judicieusement ; pour cela, faire des recherches avec mots clés sur les différents moteurs et annuaires. Il est fortement recommandé de ne pas utiliser un mot clé de façon abusive ; les moteurs de recherche les refusant d'office au-delà d'un certain nombre (si on cite plus de huit fois le même mot clé, le moteur considère que l’on tente de "polluer" (spammer) ses index et la page est déclassée à la pondération des réponses). Le but restant d'apparaître dans les 15-20 premières réponses qui sont affichées dans la première page. L'ordre d'affichage et de pertinence des réponses dépend du poids donné à chaque champs : en règle générale, le titre a un poids plus important, viennent ensuite le résumé et les mots clés. Limites des balises META : Tous les moteurs de recherche ne les prennent pas en compte (Excite ou WebCrawler, par exemple). Lycos et NorthernLight indexent le texte des balises mais n'affichent pas la zone Description dans leurs résultats. Infoseek, HotBot et AltaVista indexent par contre, pour leur part, tous les mots clés de la balise Keywords et affichent le contenu de la balise Description dans leurs résultats. Dans le cas d'AltaVista, l'utilisation de ces balises est limitée à 1024 caractères. Certains Webmasters peu scrupuleux affichent un texte ou une liste faramineuse de mots clés en blanc sur fond blanc par exemple, cela peut être pénalisé par certains moteurs mais fonctionne cependant parfois. Le site est alors retourné en réponse bien classé, sans pourtant être en rapport avec la recherche de l'internaute. Les balises META sont par contre indispensables sur les pages réalisées avec des frames car un certain nombre de moteurs de recherche n'indexent pas leur contenu. Ces balises seront également utilisées pour compléter le contenu d'une page qui ne contiendrait pas des mots clés importants au format textuel (notamment les pages comportant un certain nombre de choix ou de titres au format graphique). Netscape a proposé une nouvelle génération de balises META, appelée MCF (Meta Content Format). [11] Tandis que Microsoft met en avant une proposition appelée «Web Collections». Le consortium W3C, de son côté, travaille sur le format RDF (Resource Description Framework) [12]en langage XML. L'avenir des balises META sera une lutte serrée entre ces trois acteurs de poids du monde Internet. Machine Readable Card (MARC) pour les éléments de catalogues de bibliothèques, Dublin Core (DC) définit des métadonnées associées aux pages Web, le Consortium for the Interchange of Museum Information (CIMI) définit les métadonnées associées aux informations muséographiques Générateurs
de balises META : Comme nous l'avons abordé dans le chapitre précédent, en l'absence de META, le choix du titre de la page et la rédaction du premier paragraphe sont capitaux pour un bon référencement. Il convient donc de privilégier l'aspect pratique en les travaillant bien et s'assurer ainsi une bonne visibilité, sur l'aspect esthétique qui voudrait voir apparaître en première page un beau titre sous forme de graphique plus accrocheur pour le public. Les deux n'étant en aucun cas incompatibles, on recommandera simplement ici au référenceur de travailler avec soin ces passages importants des pages qu'ils ont à traiter. Lorsque le site existe en plusieurs langues, se décompose en plusieurs rubriques ou vise différents types de publics, il faudra faire ce travail au minimum pour chacune des pages d'accueil des différentes parties ou rubriques du site. Le référencement le plus important restant celui de la page d'accueil du site, certaines sous-pages peuvent attirer des internautes que la première page n'aurait pas fait venir, libre à eux ensuite de remonter à la racine du site. II.1.3 Les projets de normalisation en cours Les principaux organismes de la normalisation de l'Internet sont au nombre de huit, et les associations de fournisseurs sont bien souvent plus dynamiques que les organismes officiels. Ces derniers perdent d'autant plus de leur influence que certains éditeurs déploient des stratégies hégémoniques. Parmi les nombreux organismes visant à standardiser les technologies de l'information, il faut distinguer les associations de ceux qui sont officiels. Parmi ces derniers, on compte l'ISO (International Standard Organization), l'IUT (Implementation Under Test) et l'IEEE (Institute of Electrical and Electronics Engineers). Leur atout principal est la légitimité, même si nombre de participants à leurs groupes de travail évoluent chez des fournisseurs. Leur fonctionnement lourd tend toutefois à les affaiblir. Arbitres des conflits,
mais moins officielles, les associations telles que l'IETF (Internet Engineering
Task Force), le W3C (World Wide Web Consortium) ou l'OMG (Object Management Group)
sont composées de fournisseurs, d'opérateurs, de grands utilisateurs,
d'universités et d'organismes de recherche. Officielles ou non,
le rôle de ces organisations se limite parfois à un arbitrage
entre les deux ou trois fournisseurs qui se disputent un standard de fait
ou à l'officialisation d'une technologie propriétaire devenue
dominante. L'ISO et l'Open Group ont ainsi fait figure de faire-valoir
à Sun dans l'affaire de la normalisation de Java, ou à Microsoft
dans celle de la technologie Active X.
L'IETF rassemble les principaux opérateurs, organismes de recherche, constructeurs de systèmes informatiques et d'équipements réseaux. Comme son nom l'indique, il préside aux destinées de toutes les technologies qui définissent l'architecture d'Internet. Il s'agit, bien sûr, de TCP/IP et des protocoles de routage associés, mais aussi de HTTP, ainsi que des protocoles de gestion de noms de domaines (DNS), d'allocation d'adresses ou d'accès aux annuaires. [14] Le W3C (World Wide Web Consortium) a établi des standards pour l'interprétation de contenus sur le Web. En lançant des navigateurs qui ne les supportent pas uniformément, les fabricants nuisent aux développeurs Web, aux entreprises et aux usagers de l'Internet. L'absence de support uniforme pour les standards du W3C rend l'utilisation et le développement des technologies liées à l'Internet inutilement complexes et coûteux. Ce qui est vrai pour les navigateurs l'est aussi pour certains éditeurs HTML (logiciels qui facilitent la création de documents HTML) et pour les sociétés qui développent des sites Internet. [15] Le Dublin Core est
un meeting sur les metadata qui a pour mission de mettre en place une norme
commune pour améliorer la recherche sur Internet. La première
réunion s'est tenue en mars 1995 à Dublin (Ohio). Elle est
organisée par l'OCLC (Online Computer Library Center Inc.)
et l'UKOLN (UK Office for Library and Information Networking).
Il part d'un constat simple, deux manières de décrire un
document existent aujourd'hui avec lesquelles il va falloir composer :
Le format de description
proposé par Dublin Core se définit en (et se limite à)
quinze éléments pour le catalogage sur Internet [16]
:
La table de métadonnées du Dublin Core est en passe de devenir un standard. La description des 15 éléments de métadonnées du Dublin Core a été publiée comme Request for Comments (RFC). Le but étant de joindre les deux modes de catalogage énoncés plus haut et de permettre une indexation "humaine" et plus pertinente. La question qui reste en suspend est celle de savoir qui accomplira cette tâche. Comment restructurer la chaîne de l'information qui, sur Internet, se crée de manière anarchique ? Les auteurs de pages HTML voudront et sauront-ils respecter cette norme ? "(...) les premières expériences ont montré une très grande dispersion dans l'usage de ces metadatas ; le 'Dublin Core' identifie une initiative visant à améliorer la normalisation des metadatas en proposant un mode de catalogage sur Internet en respectant deux objectifs : d'une part, être plus accessible aux usagers que les traditionnels formats MARC ; d'autre part, faciliter l'interopérabilité des applications." [7] Indexer des pages Web reste un exercice difficile puisque l’indexation se fait « hors-contexte », de nombreux outils existent cependant qui permettent de référencer correctement les documents électroniques sur le réseau auprès des principaux outils de recherche. Cataloguer la totalité des ressources disponibles est une autre gageure ! [17] Si certains trichent pour être visibles quelle que soit la requête formulée, le plus intéressant pour le concepteur d'un site reste cependant d’attirer le regard de ceux qui vont y trouver ce qu’ils recherchent et non de s'imposer aux utilisateurs sous peine de nuire à soi-même mais aussi à la totalité de la communauté réticulaire. [1] LUPOVICI, Catherine.- Formats et normes du document électronique.- Paris : Jouve, 1997 [2] FAYET-SCRIBE, Sylvie. (page consultée le 13 mars 1998). "Chronologie des supports, des dispositifs spatiaux, des outils de repérage de l'information". In Le savoir et ses outils d'accès : repères historiques. Solaris, dossiers du GIRSIC (1998). [en ligne]. Adresse URL : http://www.info.unicaen.fr/bnum/jelec/Solaris/d04/4fayet_0intro.html [3] LÉVY, Pierre.- Les technologies de l'intelligence : l'avenir de la pensée à l'ère informatique.- Paris : Seuil, 1993.- (Points Sciences ; 90) [4] Le Coadic, Yves-François.- La science de l'information.- Paris : Presses Universitaires de France, 1994.- (Que Sais-je ?; n°2873).- p.9 à 12 [5] SVM n°160, dossier : Internet, le jour où la France s’est réveillée, mai 1998, p.65 et suivantes [6] Lorsqu’un utilisateur lance une requête sur Internet, dans 9 cas sur 10, il ne consultera que les 20 premières réponses proposées (source Netsurf avril 1998) [7] Consultation en ligne avec FG Associés sur le site Internet de la revue Le Monde Informatique : rubrique Les avocats répondent à nos lecteurs, Joël Hesclaut (cliquer ici pour accéder à l'article complet) [8]
Source LMB Actu
[9]Compte-rendu d'une mission concernant la 5ème réunion du Dublin Core Metadata Workshop à Helsinki, Finlande, par Jacques Ducloy [10] Voir l'article de la Lettre du bibliothécaire québécois (LBQ) du N°10-mars 98, sur les annuaires et moteurs de recherche ou le site www.searchengine.com qui dissèque le fonctionnement des principaux outils de recherche sur Internet [11] Meta Content Framework (MCF) est un exemple de la position de Netscape. Ce standard proposé a été adopté par la société avant son implémentation dans les produits. Annoncé initialement en 1996, conjointement avec Apple et d'autres partenaires industriels, ce standard offre aux sites Web une méthode commune de description de leur contenu sous une forme synthétique, convenant à une multitude d'applications. Ainsi, elle peut être utilisée par un navigateur pour créer une carte de site ou par un moteur de recherche pour déterminer les portions d'un site devant être indexées. Netscape collabore avec divers organismes de standardisation en vue de parvenir à un accord pour l'acceptation de MCF comme standard proposé avant son intégration dans de nouveaux produits. Il s'agit d'un langage, créé par le Dr Guha, destiné à représenter un large éventail d'informations sur le contenu des pages Web, de fichiers Gopher ou FTP, de courriers électroniques, de bases de données structurées (relationnelles et orientées objet), et même de fichiers enregistrés sur un disque dur. [12] RDF (Resource Description Framework)
est le résultat de plusieurs groupes de travail du W3C (le groupe
PICS, le groupe DSIG (Digital Signature) et le groupe Dublin Core)
et utilise le langage XML comme support et permettra non seulement de décrire
les attributs d'une ressource (sous forme de paire attribut-valeur, comme
le font actuellement les balises META) mais aussi les relations entre ressources,
indépendamment de la syntaxe. RDF fournit un cadre pour la définition
et l'utilisation de métadata, pour appuyer l'interopérabilité
des métadonnées, mais son utilisation dépend grandement
de la généralisation d'XML.
[13] ANDRIEU,
Olivier.- Trouver l'info sur l'Internet.- Paris : Eyrolles, 1998
SiteUp's Meta-Tag Generator(logiciel) http://www.siteup.com/meta.html [14] Thierry Lévy-Abégnoli, sur le site de la revue 01 Informatique http://www.01-informatique.com/ [15] Le Monde Informatique n°706, 24 janvier 1997 : dossier, La normalisation Internet : la loi du plus fort va-t-elle s'instaurer ? [16] Pour une description détaillée de ces éléments :
[17] Guy Teasdale calcule qu'un nombre de 128 000 emplois seraient créés si on décidait de cataloguer les ressources du Web, dans un texte qui fourmille d'informations dont certaines proviennent d'une conférence de Stuart Weibel, un des initiateurs du Dublin Core, prononcée lors du congrès de l'ACFAS le 12 mai 1998 Pour naviguer dans les différentes parties de ce mémoire : © DIAZ Diego-Angel 1998 |