Contexte

Depuis le tout début des années 2000, les avancées en matière de métrologie, de capteurs, de communication, de calcul, de stockage, … ont motivé une flambée dans la collecte et l’analyse de la donnée, dans des domaines autres que ceux où la donnée, souvent massive, était bien présente depuis de longues années. 

La donnée en soi (acquisition et utilisation) n’a pas été une révolution, la vraie révolution a été sa démocratisation, et la colonisation de la presque totalité des domaines de la science et de la technologie, à commencer par ceux dans lesquels les modèles ne permettaient pas des prédictions rapides et/ou précises. 

En France, le rapport « AI for Humanity » sous l’impulsion de Cédric Villani a été le coup d’envoi. Les grandes initiatives 3AI ont vu le jour, autour de Paris (santé, transports et environnement), Nice-Sophia Antipolis (santé numérique et territoires intelligents), Grenoble (IA du futur et IA pour l’humain et l’environnement) et Toulouse (transport, mobilité aéronautique et spatiale, en intégrant l’expertise locale en sciences humaines et sociales).

Le domaine de l’ingénierie a bien entendu bénéficié (et bénéficie) de ces instituts, mais au-delà, la donnée en ingénierie s’est articulée autour de trois voies :

  • Une première, basée presque exclusivement sur la donnée, son analyse et l’extraction de signatures, avec des accomplissements majeurs pour le diagnostic, la classification, … ;
  • Une deuxième où modèle et données dialoguent pour définir ce qui a été appelé des « DDDAS » (Dynamic Data-Driven Application Systems), où la donnée est assimilée lors de simulations ultra-rapides de modèles qui restent continuellement calibrés et qui vont à leur tour guider l’acquisition des données ;
  • Quand la donnée dialogue avec la physique mais avec une finalité au-delà de la calibration continuelle et rapide, là où la donnée vient contribuer à la modélisation, avec une contribution plus ou moins significative de la connaissance physique préexistante. 

En France nous retrouvons ces trois voies présentes dans de nombreux projets (ANR), en Europe dans de nombreux AAP, … et la presque totalité des laboratoires de recherche en France s’est lancée dans cette direction. 

Plus particulièrement, la troisième voie, combinant physique et données, est à l’origine d’une activité à croissance exponentielle au niveau national et international dans les domaines de la science et de l’ingénierie. En France nous citerons le PEPR DIADEME (porté par le CNRS et le CEA) où matériaux, données et IA sont les grands protagonistes ; le PEPR électronique avec le volet nouvelles génération de dispositifs optoélectroniques, avec l’AI côté hardware comme protagoniste, ou encore le projet DesCartes, avec un budget de 35 M€ (financé majoritairement par la NRF à Singapour) et mobilisant plus de 160 chercheurs pendant 5 années. DesCartes, porté par le CNRS, plus concrètement par sa filiale à Singapour au sein du campus d’excellence CREATE (CNRS@CREATE), est articulé autour d’une IA hybride, combinant modèles et données, pour la prise de décision dans des systèmes critiques, c’est-à-dire faire vite et bien pour ainsi contribuer à la ville intelligente.

Comme discuté auparavant, I-GAIA cherche, avec efficacité et pragmatisme, à ouvrir la possibilité de comprendre et expliquer (source de connaissance), en mobilisant les moyens et ressources adaptés. Le cadre hybride, la troisième des voies que nous venons de décrire semble être le choix qui s’impose, avec trois niveaux d’implication de la physique :

  • Un premier, où seulement les premiers principes sont mis à contribution, et le reste (la partie spécifique) est confié à la donnée, approche que nous qualifierons de véritablement « data-driven ».
  • Un deuxième, en plein essor, où la physique est assimilée dans la construction des modèles, comme le font les PINN (Physics Informed Neural Network) et les TINN (Thermodynamics Informed Neural Network, aussi connue comme SPNN – Structure Preserving Neural Network -). Ces techniques sont à présent groupées dans la catégorie de physics-informed learning.
  • La troisième, au-delà d’informer, vise à enrichir des modèles existants, dans une sorte de physics-augmented learning (qui peut être vu comme du transfer learning).

Dans la discussion qui précède, nous ne nous sommes occupés que de la construction de modèles, cependant deux autres grands protagonistes manquent pour compléter la mise en scène :

  • La donnée : quelle donnée ? à quelle échelle ? où ? quand ? quelle métrique pour la représenter, la grouper, la comparer, … ? Comment transformer la donnée en connaissance ou extraire de la connaissance à partir de la donnée ?

Comment vérifier et valider, expliquer et certifier, … ? pas d’ingénierie sans cela !