Accueil


Arch
Ives

Intelligence
Artificielle

Expérimentation de l’Intelligence Artificielle au service des archives.

Introduction

La convergence de deux passions, la généalogie et l’informatique.

Il y a une quinzaine d’années, je me suis pris de passion pour la recherche de mes origines. Après avoir ouvert les documents de famille, dépouillé les registres d’état-civil et paroissiaux puis fouillé dans les actes notariés et les registres de tutelle, j’ai désormais bien du mal à remonter plus avant ma généalogie. Chaque année, dans le meilleur des cas, je ne découvre pas plus de trois à quatre nouveaux ancêtres… Pourtant, il existe des documents qui contiennent des informations précieuses qui me permettraient de faire de nouvelles découvertes, mais comment faire pour les trouver ?

L’informatique offre désormais une puissance de calculs phénoménale. Grâce à l’intelligence artificielle, un ordinateur est capable d’identifier des objets ou des visages sur des photos, alors pourquoi ne pas appliquer cette technologie pour identifier des mots dans des manuscrits ?
C’est de ce constat que m’est venue l’idée de pousser l’ordinateur à reconnaître des patronymes écrits dans différentes calligraphies, avec le rêve un peu fou qu’il puisse m’aider à retrouver la trace de mes ancêtres au fin fond de manuscrits.

Concept

Un concept, une méthodologie et beaucoup de patience.
Des millions de documents

Pour réaliser un tel projet, il est nécessaire d’avoir plusieurs dizaines de milliers de photographies de manuscrits. Heureusement, au fil des ans, les Archives Départementales ont progressivement mis à notre disposition des centaines de millions de photographies de registres. J’ai donc choisi de récupérer quelques millions d’actes dont certains mentionnent des patronymes mes ancêtres et de leurs familles.

Identification des patronymes

Pour apprendre à l’ordinateur à reconnaître des patronymes, il faut lui donner des exemples. Pour cela, on encadre les mots qu’on souhaite lui faire apprendre. Pour les premiers tests, je lui ai donné un peu plus d’une centaine d’exemples de quelques mots rédigés avec des calligraphies, des inclinaisons, des orthographes et à des époques différentes.
Exemple : « Galland », « Galand », « Gallant », « Galan »…

Apprentissage

Ensuite, on passe les exemples à l’ordinateur au travers d’un logiciel d’intelligence artificielle qui va les apprendre (dans mon cas pendant 4 à 6 jours). Cet apprentissage consiste à reconnaître les mots ainsi que leur emplacement dans les photos des manuscrits. En analysant chacun d’entre eux à plusieurs milliers de reprises, il fait de moins en moins d’erreurs.

Identification automatique

Puis on présente à l’ordinateur des milliers de photos et pour chacune d’entre elles, il tente d’identifier l’emplacement des patronymes qu’il a appris à reconnaître et en indique le nom, l’emplacement qinsi qu’un taux de confiance dans son résultat.

Validation des résultats

On analyse manuellement les résultats obtenus pour vérifier qu’ils sont cohérents. Par exemple, l’intelligence artificielle interprète des « Balard », « Balland », « Galard », « Galande »… comme des « Galland ». J’ai d’ailleurs moi-même parfois bien du mal à distinguer la différence d’un point de vue paléographique. En retirant les erreurs d’analyse, on peut reprendre le processus d’apprentissage à l’étape 3 avec un nombre d’exemples beaucoup plus important.

Conclusions

Le processus d’apprentissage est long et fastidieux. Il nécessite une grande organisation et beaucoup de rigueur. Les résultats sont actuellement très aléatoires, parfois stupéfiants, ou très décevants… surtout après plusieurs jours d’attente. Il arrive qu’il y ait dans certains cas 95% de réussite et dans d’autres 95% d’échecs. L’intelligence artificielle ne fait pas partie de mon domaine de compétence, alors je tatonne énormément, et une simple erreur de paramétrage peut anéantir 5 jours de travail.
Mais les résultats sont toutefois encourageants. Ce concept est à ce stade extrêmement expérimental, et doit encore être grandement amélioré pour envisager son industrialisation.

Quelques succès mais… beaucoup d’échecs.

Fin janvier 2021, tout premier test d’intelligence artificielle sur l’apprentissage des mois de l’année. Les résultats sont plutôt encourageants et prometteurs.

Mi-février 2021, apprentissage du patronyme « Galland », avec des erreurs, des oublis et des incertitudes.

On encadre les mots qu’on souhaite faire apprendre à l’ordinateur, à l’instar d’un imagier pour enfants, grâce à une interface développée à cet effet.

L’ordinateur apprend à reconnaître les mots encadrés sur chaque image, mais il y a un problème dans le contraste…

L’ordinateur passe toutes les images 25.000 fois. Dans ce résultat, il y a eu un problème après le 2.000ème passage, et après le 8.000ème passage.

Page d’accueil du moteur de recherche dans le contenu des images.

Présentation des résultats avec un aperçu des occurrences trouvées

Présentation des résultats encadrés dans leur contexte

Un peu comme un imagier pour enfants, l’ordinateur doit apprendre à reconnaître, nommer et positionner les formes présentes sur l’image.