![]() |
|
|
![]() |
|
![]() |
![]() |
![]() |
![]() |
![]() |
1. Qu'est-ce que la numérisation ?
Lorsque l'on parle d'édition électronique, on ne peut échapper à la notion de numérisation. Numériser ? C'est tout simplement transférer un document d'un support analogique ou inerte (parchemin, papier, métal, cire, bande magnétique...) sur un support informatique. Pour les images fixes ou les textes, la numérisation se réalise en utilisant un scanner : les capteurs du scanner sensibles à la lumière rediffusée par les couleurs des documents. Mais on peut aussi faire directement des prises de vue numériques (en utilisant un appareil photographique ou une caméra numérique). La numérisation est donc la codification numérique des intensités lumineuses et de la colorimétrie d'un document. La représentation numérique d'un texte peut se faire selon deux modalités :
1 - Le texte est considéré comme une image qui permet de rendre seulement la forme des caractères, il est alors représenté sur un mode photographique. Ce type de document est obtenu par numérisation directe du document c'est le mode image.
2- Chaque caractère a sa représentation unique sous forme numérique, ce type de document en mode texte est obtenu soit par saisie directe requérant des outils de type traitement de texte, soit par reconnaissance optique de caractères à partir d'un document en mode image. Le mode image produit un fac-similé électronique de l'original. La numérisation en mode image est relativement facile à réaliser et elle est peu coûteuse, elle restitue entièrement l'apparence et le contenu du document. Ce système a pourtant deux inconvénients majeurs. Il ne permet aucun accès direct à l'information contenue dans la page (par exemple, on ne peut pas faire une recherche d'occurrence d'un mot). De plus, il génère des fichiers "lourds" (environ 50 Ko par pages, et un livre en compte 300 en moyenne) qui occupent beaucoup de la place sur les supports de stockage. Le mode texte, quant à lui, offre la possibilité de recherche plein texte. Il est possible d'intervenir directement sur le document électronique. En revanche, ce procédé ne permet pas de conserver la présentation initiale du document original. Pour numériser en mode texte, il est possible d'agir selon deux façons différentes : - La première consiste à saisir manuellement les textes. Cette technique est fastidieuse mais c'est l'unique recours pour la numérisation de textes manuscrits ou de textes dans des polices anciennes. Cette technique est très fiable, spécialement dans le cas d'une double saisie. - Il est également possible de digitaliser des documents par le biais d'un logiciel de reconnaissance optique de caractères (ROC ou OCR, Optical Character Recognition). A partir d'un document numérisé en mode image, le logiciel convertit la configuration des points en signes typographiques dont il déduit la valeur dans une table de codification comme l' ISO 8859-1 (ISO Latin-1) ou comme l'ISO 10646 (UNICODE). Cependant, les logiciels de reconnaissance optique ne sont pas entièrement fiables, (on peut trouver jusqu'à 10 mots erronés par page !). Ce type de numérisation reste peu adapté aux documents contenant de nombreux noms propres, des formes grammaticales anciennes ou composés de plusieurs langues. (Même si les fabricants de logiciel ROC améliorent régulièrement leurs produits).
Le mode vectoriel. Il s'agit d'un procédé principalement utilisé dans le domaine du dessin assisté par ordinateur. Le passage d'un plan sur support papier à un plan vectoriel par le biais de la numérisation est une opération longue et coûteuse qui nécessite, dans pratiquement tous des cas, le recours à un opérateur spécialisé qui valide la conversion. Le format de représentation vectorielle des textes est le format PDF d' Adobe. Il présente deux avantages : - un poids moyen des fichiers faible par rapport à l'équivalent en mode image. - la possibilité de préserver la forme du document quel que soit le système de restitution.
|
|
Mes productions : ZebWeb