De nouvelles technologies pour des textes anciens

Anglais

L’avènement des logiciels de reconnaissance optique de caractères a créé une explosion du nombre de textes offerts aux lecteurs en ligne. Voyez le succès de l’initiative Google Books qui a déjà numérisé par balayage environ 25 millions de livres. Cependant, les ouvrages rédigés en grec ancien, dont certains parmi les plus fondamentaux de l’histoire humaine, comme les écrits de Platon, de Galen Aeschylus, des pères de la chrétienté et d’autres, sont demeurés pratiquement exclus de cette révolution en ligne.

Bruce Robertson travaille à corriger cette lacune. À la tête du département des études classiques de l’Université Mount Allison, il a amorcé un projet de numérisation des textes grecs pour les rendre disponibles en ligne pour les spécialistes. Grâce aux ressources d’ACENET et de Calcul Canada, il rassemble une base de données qui comprendra certaines des plus importantes œuvres du monde grec.

Le travail de M. Robertson s’inscrit dans un domaine qu’on appelle la linguistique de corpus qui est l’étude de la langue d’après des écrits en langue courante stockés dans des bases de données informatiques. Il a créé une base de données numérique d’environ 10 millions de mots bruts, dont environ 7 millions de mots édités, par le développement et la modification de logiciels libres de reconnaissance optique de caractères (ROC).

« Nous nous consacrons principalement aux ouvrages de la période allant de 700 av. J.-C. à 300 apr. J.-C. », indique le chercheur.

Il ne s’agit pas simplement de passer un document dans un numériseur et de le convertir en fichier texte. Les écrits en grec ancien, avec leurs caractères inhabituels et leurs marques d’accentuation compliquées, sont connus pour être particulièrement difficiles à lire par les logiciels de ROC.

« Nous ne pouvions pas utiliser des logiciels de ROC prêts à l’emploi, continue le scientifique. Nous avions besoin de ROC à grande échelle pour travailler sur ces ouvrages. » Cependant, les moteurs de ROC du commerce suffisamment puissants pour faire le travail étaient trop chers. Alors, en 2011, le professeur et son équipe se sont plutôt tournés vers le système d’ACENET, car, selon lui, « ACENET a des fonctionnalités très intéressantes ».

Robertson a également créé un site Web pour l’édition des données ROC brutes, générant ainsi de nouvelles données d’exploration. Il admet que l’ordinateur n’est généralement pas perçu comme un outil naturel des études classiques, mais affirme qu’il est essentiel à son travail.

« L’ordinateur est un outil idéal pour l’étude des textes anciens. »

Le chercheur est fasciné par les ordinateurs depuis l’école secondaire, quand il a, pour la première fois, branché à la télévision le Commodore 64 qu’il venait de recevoir de ses parents. Il a présenté sa thèse de doctorat à l’Université de Toronto sur le sujet des noms grecs et l’ordinateur a fait partie intégrante de son travail depuis le début.

« Quand on peut apprendre le grec ancien, on peut bien apprendre à utiliser un langage de programmation de haut niveau comme Python », déclare le spécialiste.

Top