Processus d’édition

La base de données qui alimente ce site contient les versions informatisées de 73 documents écrits ou coécrits par Jean-Claude Corbeil, lesquels totalisent plus de 1500 pages imprimées. L’édition informatique de ces documents, obtenus en grande partie auprès de leur auteur, a été effectuée en suivant le processus d’édition décrit ci-dessous.

Numérisation, restauration et océrisation

Tous les documents qui n’existaient que sous une forme imprimée ont été numérisés en haute qualité à partir des originaux (à une résolution de 600 pixels par pouce, en mode couleur, sans effets de filtrage automatique ni compression).

Les images numérisées ont été restaurées avec un logiciel de retouche photographique afin d’atténuer les imperfections des documents originaux (visibilité de la fibre du papier, présence de ratures manuscrites…) et les artéfacts parfois introduits par les appareils (variation de l’ombrage, apparition de franges d’interférences…)

Chaque numérisation restaurée a ensuite été océrisée, c’est-à-dire qu’elle a été traitée au moyen d’un mécanisme de reconnaissance optique de caractères. Plus concrètement, chaque image matricielle (photographie numérique) a été convertie sous forme de chaînes de caractères (texte éditable) par un logiciel d’intelligence artificielle (qui simule des capacités typiquement humaines). Le procédé d’océrisation étant imparfait, nous avons dû procéder à une phase de toilettage manuel pour obtenir une transcription textuelle de qualité. En effet, la conversion de l’image en texte provoque souvent l’apparition d’erreurs typographiques ou orthographiques.

Conversion, structuration et mise en page

L’ensemble des documents, océrisés ou déjà disponibles en divers formats numériques, ont été convertis en HTML5, un langage de balisage informatique qui sert à créer des documents structurés diffusables sur le Web. Le code généré a été simplifié et standardisé automatiquement grâce à des expressions régulières.

Un travail de structuration manuelle s’est ensuite imposé. Les balises automatiquement générées ont été révisées de manière qu’elles représentent bien la structure du document. Ces balises sont constituées par des mots-clés conventionnels placés entre chevrons, tels que :

Les documents ont ensuite été couplés à une feuille de style CSS (un code qui sert à mettre en page du contenu), qui permet d’afficher le texte plus élégamment dans un navigateur Web (comme Firefox, Chrome, Safari, Edge, Opera…). Cette opération permet aux documents de bénéficier d’une composition typographique moderne et uniforme. De plus, les feuilles de styles permettent de créer un site dont la présentation s’adapte en fonction de l’appareil utilisé (ordinateur de bureau, téléphone intelligent, imprimante…).

Uniformisation d'éléments textuels et paratextuels

La typographie des documents a été uniformisée, entre autres :

Les graphies ont été standardisées :

La présentation d’éléments paratextuels a été retravaillée :