Méthodologies - GdR I-GAIA

Dans de nombreuses situations, pour des raisons fondamentales ou pratiques, les modèles utilisés ne permettant pas d’atteindre le niveau de précision souhaité, une alternative de correction ou d’enrichissement basée sur la donnée manipulée par des outils d’apprentissage machine et intelligence artificielle s’impose. Comme indiqué précédemment une telle approche nécessite des technologies avancées de différentes natures, notamment autour de : (i) la donnée ; (ii) l’apprentissage ; et (iii) la validation, que nous passerons en revue par la suite, sans prétendre être ni complets ni exhaustifs.

Données

Notre point de départ sera la donnée. On peut difficilement imaginer la richesse et complexité que le mot « donnée » réunit, dont certains aspects sont présentés et discutés ci-dessous.

Donnée et métrique. La donnée a d’emblée une double nature, une essence qualitative et une extension quantitative. La donnée à acquérir ne dépend pas exclusivement de la physique traitée mais aussi de la finalité envisagée, la donnée est « goal-oriented ». Ensuite, sa mesure nécessite une métrique, qui reflète les incertitudes de mesure, et qui permet d’apprécier quantitativement la signification d’un écart entre mesure et modèle. Elle est à la base des approches dites Bayésiennes. Cette incertitude est une donnée complémentaire de la mesure qui ne doit pas en être séparée, mais elle est complexe car elle contient potentiellement l’ensemble de la densité de probabilité de l’écart entre le réel et le mesuré et les corrélations avec l’ensemble des autres mesures autour d’un même objet. En ce sens, cette incertitude n’est souvent que très partiellement ou imparfaitement connue. Par ailleurs, concernant la donnée elle-même, la « carte d’identité » d’un produit fabriqué contient idéalement différentes informations comme les matériaux dont il est constitué, leurs proportions, les paramètres utilisés dans le procédé de fabrication, voire les prénom et nom de l’opérateur qui l’a fabriqué … Calculer la « distance » entre deux produits A et B ayant une composition différente ou ayant été élaborées de façon différente n’est pas aussi simple que de calculer avec une règle la distance entre deux points A et B dessinés sur une feuille de papier. Ainsi, la donnée ne peut pas exister sans « sa métrique », qui dicte la bonne manière de l’utiliser, or cette règle est tout sauf une évidence ! Quand elle n’est pas connue, il va falloir l’appendre elle aussi !

Réduction de la donnée et dimensionnalité intrinsèque. Avec une physique et une finalité définies, quelles caractéristiques (features) faut-il acquérir ? On est tenté de conclure : pas plus que celles strictement nécessaires, mais pas moins que celles vraiment nécessaires non plus. Mais comment le savoir ? Éliminer des caractéristiques (dont la cible à expliquer était supposée dépendre sans que cela ne soit avéré) est simple quand on est dans un espace vectoriel et les métriques usuelles sont applicables. Les techniques dites de réduction de dimensionnalité linéaires (décomposition en composantes principales, PCA en anglais) et non linéaires (on utilisera les sigles en anglais) comme la kPCA, lPCA, MDS, LLE, tSNE, réseaux de neurones auto-encodeurs … permettent d’enlever les corrélations linéaires et non linéaires d’une façon plus ou moins efficace, pour ainsi révéler que la donnée est souvent plongée dans une variété différentielle (manifold) de dimension réduite, qui représente une approximation de sa dimensionnalité intrinsèque. Des variantes existent pour s’attaquer a des données plus complexes, comportant des informations discrètes, qualitatives, catégorielles, … parfois incomplètes, et elles permettent ainsi d’écarter des caractéristiques non-essentielles pour expliquer la propriété ciblée.

Caractéristiques composées. Parfois les caractéristiques composant la donnée sont toutes pertinentes, mais elles agissent d’une façon combinée dans l’explication de la propriété ciblée. Un peu à la façon selon laquelle vitesse, viscosité et densité d’un fluide se combinent dans le nombre de Reynolds, qui détermine l’écoulement. Extraire explicitement ces caractéristiques composées n’est pas toujours simple, et on fait souvent appel à des auto-encodeurs, extrêmement performants dans le cadre non-linéaire (malgré leur caractère souvent « boite noire »).

Représentation. Parfois les caractéristiques mesurées sont très pertinentes du point de vue de la mesure, mais le sont moins du point de vue de la physique sous-jacente. Par rapport à l’exemple évoqué ci-dessus, le nombre de Reynolds est le paramètre physique pertinent, tandis que les appareils de mesure concernent la vitesse, la densité et la viscosité. Il faut ainsi différencier ce qu’on mesure et ce qui intervient dans la modélisation. De même, la modélisation sera plus ou moins complexe (formellement) selon la donnée d’entrée. Décrire le mouvement des planètes dans le système solaire avec un système de référence attaché à notre planète, bien que valable, induit des formulations qualifiables de formellement complexes. Le modèle de Kepler est équivalent, mais le changement de référentiel simplifie grandement l’écriture. Ainsi, la complexité de la modélisation et la quantité de données requise pour la construire vont dépendre de la description proposée. Certains modèles semblent complexes quand les variables sont exprimées dans l’espace physique, et deviennent plus simples dès que la description se fait dans l’espace de Fourier, DCT, ondelettes, … permettant la compression de données à la base des techniques qui utilisent le « compressed sensing ». Une physique devient plus « linéaire » (où moins non-linéaire) dans l’espace latent, quand on réduit au préalable la dimensionnalité de la donnée en lui appliquant par exemple un auto-encoder. Parfois une telle « linéarisation » nécessite d’aller dans un espace de plus grande dimension, comme le fait la kPCA. La persistance homologique, et la TDA –Topological Data Analysis– dérivée, avec ses propriétés d’invariance, est très appropriée pour décrire des signaux et images à fort contenu topologique (par exemple des séries temporelles et microstructures respectivement). Une autre option dans ces derniers cas consiste à extraire des caractéristiques dérivées (descripteurs statistiques) sur lesquelles se porteront les analyses et modélisations ultérieures. Enfin, certaines données font appel à des descriptions plus naturelles (physiques) que leur disposition en simple « liste ». Ainsi comme nous le verrons plus tard, des convolutions s’appliquent sur des images, et les graphes s’avèrent plus appropriés pour la prise en compte des connections, voisinages, …
Qualité et quantité. Maintenant que nous avons montré que la donnée n’existe que par rapport à ce qui est ciblé, que la quantité dépend de la complexité du modèle, et que cette dernière dépend de la nature de la donnée, la boucle est bouclée, donnée et modèle sont indissociables. Parlons de quantité. On parle souvent de « big » data, mais en ingénierie la donnée est chère (prix des capteurs, prix du stockage, prix du traitement, …), la disposition des capteurs est parfois délicate voire techniquement difficile ou simplement interdite par la règlementation. C’est là que le couple donnée-modèle prend à nouveau tout son sens. Pour avoir une idée de la température à Paris le 27 décembre 2021, un thermomètre placé Place du Panthéon, avec des relevés le matin, midi et soir (1 thermomètre et trois données) suffit pour avoir un ordre de grandeur de la température à Paris le jour en question. Mais pour cela nous avons fait appel à nos connaissances, (ou ici le simple bon sens), qui disent que la température n’est pas radicalement différente dans les différentes rues de la capitale, et qu’elle ne change pas toutes les millisecondes … Ainsi, nous avons économisé des millions de mesures en n’équipant pas chaque rue de Paris pour faire des relevés de température chaque milliseconde. En ingénierie il faut plutôt viser la « juste mesure », même si elle reste parfois massive (e.g. tomographie, images de diffraction, thermographies, LDV, …). Pour cette raison dans le cadre hybride, plutôt que de prétendre construire un modèle, on prétend simplement apprendre la correction à apporter au modèle de base (quand celui-ci existe). La correction étant plus simple que le modèle lui-même, avec souvent une moins forte non-linéarité, elle nécessiterait moins de données. Des techniques dites d’apprentissage actif (active learning) cherchent les échantillonnages optimaux basés sur une connaissance qui se construit au fur et à mesure que l’échantillonnage progresse (un peu comme le SLAM en robotique) avec la contrainte de minimiser la quantité de données à collecter. Concernant la qualité, du point de vue de son traitement, la question n’est pas tellement d’avoir des données sans bruit (gardons les pieds sur Terre !), mais plutôt de caractériser au mieux leur variabilité qui sera ensuite soit filtrée soit assimilée dans un cadre de modélisation stochastique. Concernant les « outliers », il y en a et il y en aura, mais des techniques sont à présent capables d’opérer tout en minimisant leur effets (par exemple avec l’utilisation de norme spécifique). Le biais est plus dangereux que le bruit !

Clustering et classification. Bien que la classification aurait pu être incluse dans les techniques d’apprentissage (traitées plus tard), étant donné les applications visées nous la traiterons ici plutôt comme une technique de traitement de données. Le fait de collecter des données puis les grouper selon leur proximité ou une qualité qu’elles partagent permet ensuite, quand une nouvelle donnée arrivera, et en fonction du groupe auquel elle appartiendra, de prédire (avec simplicité et rapidité) les propriétés attendues (celles caractéristiques du groupe en question). Grouper les données par proximité (de façon non-supervisée) nécessite une métrique adéquate, simple quand la donnée est définie dans un espace vectoriel, mais délicate quand la donnée fait intervenir des informations hétérogènes (« carte d’identité » produit que nous avons définie précédemment). Dans le cas de la classification, il va falloir trouver la frontière (linéaire ou non linéaire) entre les groupes de données (qui partagent une propriété commune et connue). Ici encore, une métrique est nécessaire, et quand les plus communes ne s’appliquent pas, la construction de classification et l’apprentissage de la métrique opèrent simultanément. Tout est ensuite prêt pour recevoir et traiter les prochaines données. De nombreuses techniques existent, pour en citer quelques-unes : SVM, arbres de décision et forêts aléatoires, réseaux de neurones (convolutionnels souvent dans le cas des images ou agissant sur des graphes pour assurer des invariances), Code2Vect, … Pour augmenter l’efficacité, des techniques dites de « boosting » ont été proposées et leurs performances prouvées. Des nouvelles techniques, à mi-chemin entre le supervisé et le non-supervisé sont en train de s’imposer dans des nombreux domaines : semi-supervisées et auto-supervisées (self-supervised). En particulier l’apprentissage par renforcement semble être un très bon compromis.

Augmentation et complétion. Quand la donnée n’est pas très (ou suffisamment) abondante, des techniques d’augmentation existent, comme les réseaux où un générateur et un discriminateur s’affrontent (les GAN) et permettent un apprentissage accéléré et à bas cout. Le « transfer learning » permet lui aussi d’enrichir plus que d’apprendre à partir de zéro. La complétion de données est possible dans le cadre des approches basées sur les variétés, avec des interpolations effectuées sur les variétés. Dans le cadre du « compressed sensing » la complétion est possible tout comme l’économie de la mesure aussitôt que la donnée devient parcimonieuse quand on travaille dans un espace de représentation adéquat. Or, par nature, les techniques d’identification de motifs, et de classification, offrent de nouvelles perspectives de représentation idéalement parcimonieuse dans un espace qu’il eut été difficile de deviner a priori.

Apprentissage

Une fois que les données sont collectées et éventuellement prétraitées, on va s’occuper de relier des données, des données d’entrée avec des données de sortie, pour extraire (apprendre) la relation qui les lie. Nous distinguerons trois modalités d’apprentissage : (i) apprentissage conduit par la donnée ; (ii) apprentissage informé par la physique ; et (iii) apprentissage augmenté par la physique.

2.2.1 Apprentissage conduit par la donnée.

Régressions linéaires. Supposons qu’on organise les données en forme de vecteur et que la relation entre le vecteur d’entrée et celui de sortie (ici sans perte de généralité considérés de la même dimension pour avoir une matrice) est linéaire. L’apprentissage consiste alors à construire l’application linéaire les reliant, c’est-à-dire la matrice qui appliquée sur le vecteur d’entrée nous donne celui de sortie. Le « rang » de la matrice dépendra de la dimension des variétés définies par les données, qui dictera aussi la quantité de données nécessaire pour appendre le modèle (régression linéaire).

Régressions non linéaires. Dans le cas non-linéaire, différentes possibilités existent pour bâtir des régressions reliant (de façon non linéaire) entrée et sortie. Les régressions polynomiales deviennent trop couteuses quand le nombre de paramètres ou le degré des approximations utilisées augmentent car le fait de combiner une base riche et peu de données amène à un problème sous-déterminé avec une infinité de solutions. Bien que toutes ces solutions représentent bien les données utilisées dans la construction des régressions, elles donnent de mauvaises approximations pour les autres données. Pour éviter le redoutable « overfitting » tout en gardant richesse et peu de données, différentes régularisations existent (Elastic Net, Ridge, Lasso, …) dont certaines exploitent la parcimonie. La méthode SINDy qui intègre ce type de régularisation, a été étendue dans un cadre multiparamétrique avec des régressions utilisant la séparation de variables (sPGD, rsPGD, s2PGD, ANOVA-PGD, …). Bien qu’efficaces, quand les fonctions de la base d’approximation ne permettent pas bien d’approximer la non-linéarité (souvent fortement non polynomiale), ces alternatives deviennent inefficaces. C’est ici que les réseaux de neurones, RN, (avec leurs résultats « universels » d’approximation) deviennent des protagonistes majeurs, avec comme prix à payer la perte de compréhension et l’augmentation de la quantité de données nécessaires pour les entrainer. Comme indiqué précédemment, les RN convolutionnels et ceux basés sur des graphes, permettent de mieux manipuler des données spécifiques (images, graphes, …) prenant compte des invariances.

Systèmes dynamiques. Dans le cadre des systèmes dynamiques, la DMD (Dynamic Mode Decomposition) et ses variantes qui concernent les modèles non-linéaires (via l’utilisation en amont et en aval des auto-encodeurs, ou encore en utilisant des approximations localement linéaires) sont très utilisées. Un cadre très adéquat en non-linéaire est basé sur l’emploi de l’opérateur de Koopman. Côté réseaux de neurones, les rNN (residual NN) et les NARX (nonlinear autoregressive exogenous model) permettent d’appendre la forme discrète de l’intégrateur avec une mémoire plus ou moins longue. Des conditions de stabilité associés au rayon spectral de l’opérateur matriciel peuvent être imposées lors de l’apprentissage.

Modèles à variables cachées. Un cas particulier concerne l’observation incomplète d’un système, où des nombreuses variables explicatives ne sont pas observées. Les réseaux de neurones récurrents permettent la prise en compte de ces variables cachées, les intégrant au modèle en même temps que sa dynamique d’évolution temporelle est apprise.

Apprentissage multimodal. Enfin, quand différents types de données doivent être combinés pour prédire la quantité d’intérêt, l’apprentissage multimodal prend sa place, avec les machines de Boltzmann en premier plan.

2.2.2 Apprentissage informé par la physique.

Les régressions, peuvent aussi être enrichies avec la connaissance existante (intégrée dans la fonction de perte) et grâce aux outils de dérivation, le résidu des équations différentielles agissant sur la variable impliquée dans la régression, peut être incorporé. Ces techniques sont abrégées avec le sigle PINN (Physics Informed Neural Networks). Elles ont été étendues pour prendre compte des principes thermodynamiques : conservation de l’énergie conduisant à des schémas d’intégration symplectiques, et production d’entropie, fondamental pour la stabilité des intégrateurs, et permettent ainsi de modéliser solides et fluides, ainsi que d’autres physiques évoluant dans un cadre thermodynamique. Dans ce cadre, une fois l’état défini et connu sur différentes trajectoires, on appendra l’opérateur discret hamiltonien (antisymétrique) et de dissipation (symétrique et semi-défini positif) ainsi que les deux potentiels associés, l’énergie et l’entropie. Les TINN (Thermodynamics Informed NN), aussi appelés SPNN (Structure-Preserving NN), peuvent être construits sur la formulation différentielle habituelle de GENERIC ou sur des formulations basées sur des principes variationnels, comme par exemple Herglotz (contact geometry), Onsager incorporant le « Rayleighian », …

2.2.3 Apprentissage augmentée par la physique.

L’hybridation des modèles nécessite une contribution de la physique augmentée par un modèle basé sur la donnée pour décrire la déviation entre réalité et prédiction du modèle physique. Cette alliance permet d’expliquer la contribution de la physique, et diminuer la quantité de données nécessaire pour la construction du modèle de la déviation, réalisé avec les données de l’écart mesure/prédiction.

Ceci-étant dit, différentes techniques sont nécessaires pour que cette hybridation soit réussie, en particulier : (i) le modèle à l’issue de la physique doit être résolu en temps-réel (ici temps-réel doit être interprété par rapport au temps caractéristique du problème traité) ; (ii) le modèle de la déviation crée à partir de la donnée (avec assimilation de l’éventuelle connaissance) doit être construit en-ligne, également à une vitesse compatible avec les caractéristiques du phénomène physique ; et (iii) les données sont essentielles tant côté physique, pour maintenir le modèle calibré, que côté modélisation basée sur la donnée. Ainsi les techniques d’assimilation de la donnée deviennent des protagonistes incontournables, avec une difficulté ajoutée, celle associée aux incertitudes des modèles et la variabilité de la donnée.

Concernant les modèles basés sur la donnée, nous venons de balayer, de façon non exhaustive, les principales méthodologies. En ce qui concerne la résolution efficace des modèles issus de la physique, les techniques de réduction de modèles ont constitué une vraie révolution qui s’est soldée par de belles réussites. La France a été un des principaux acteurs avec des contributions majeures : hyper-réduction (Ryckelynk), PGD (Ladeveze, Chinesta, Ammar, Cueto, Nouy, …), interpolation de bases réduites sur des variétés (Hamdouni), bases réduites (Maday), … et le CNRS a accompagné cette montée en puissance pendant 8 années via le GdR 3587 AMORE. A présent, et même si de nombreuses recherches sont encore en cours et nombreux défis restent d’actualité, la réduction de modèles a acquis une certaine maturité, et la preuve est son intégration dans des outils de simulation commerciaux, comme la LATIN-PGD au sein de SAMCEF (Siemens) ou la PGD non intrusive dans la plateforme (cloud) ADMORE d’ESI Group. Certaines techniques de réduction de modèles dites non intrusives cherchent à construire des surfaces de réponse, en utilisant des régressions non-linéaires à partir des solutions des simulateurs haute-fidélité associées à un plan d’expérience. Ce dernier se veut autant que possible réduit, car les simulations dites haute-fidélité sont chères, et en même temps, on souhaiterait s’intéresser à des modèles multiparamétriques et garder une certaine richesse dans l’approximation malgré la quantité réduite de données.

Vérification et Validation

Pendre une décision sur la base d’un catalogue ou dictionnaire, après avoir reconnu une signature (pattern recognition), nécessite un groupement des données adéquat et des techniques de stockage et recherche efficaces. Par ailleurs, faire une prédiction avec un modèle appris à partir de la donnée, éventuellement informé ou augmenté par la physique, via une particularisation directe (modèles statiques) ou une intégration du modèle dynamique (stable par construction) permet aussi de pronostiquer, et prescrire en adéquation.

Un dernier point, majeur, reste à aborder : quelle confiance accorder à un tel diagnostic ou pronostic. L’ingénierie est une science sur laquelle repose la prise de décision (hors-ligne ou en-ligne), et ses produits doivent être certifiés dans la plupart des applications avant d’être exploités (pensons aux grandes infrastructures, centrales nucléaires, avions, …). Diagnostiquer et pronostiquer en se reposant sur des modèles basés sur l’apprentissage à partir des données (même si la physique est parfois utilisée pour renforcer et/ou guider) élargit le champ des possibles, mais présente aussi de nouveaux risques … Avions-nous les données nécessaires (en quantité et qualité, …) pour extraire toute la richesse sous-jacente de façon précise et efficace ? L’échantillonnage a-t-il été suffisamment large et dense pour assurer que les décisions seront bien à l’intérieur de l’enveloppe convexe qui a servi à l’apprentissage, et suffisamment proche de solutions effectivement calculées ? La précision des techniques d’apprentissage a-t-elle été celle attendue et/ou souhaitée ? L’apprentissage ainsi réalisé permet-il d’avoir une réplique (modèle de substitution) ou jumeau numérique du système physique réel ou sa précision ne permettra-t-elle seulement que de l’utiliser comme source de conseils ? … Beaucoup de questions majeures, auxquelles l’ingénierie (et l’ingénieur) attendent une réponse.

Dans le cadre de l’ingénierie basée sur la simulation (SBE en anglais), une de ses branches porte sur la question de la vérification et validation des modèles et de ses solutions. Concernant la vérification (conformité de la solution numérique vis-à-vis de la solution exacte du modèle mathématique sous-jacent), des indicateurs et estimateurs d’erreur (« a priori » et « a posteriori ») incluant des intervalles de confiance (parfois garantis) ont été obtenus et largement employés avec succès, se basant sur une diversité de techniques mathématiques (agissant sur les opérateurs différentiels et les techniques d’approximation et de discrétisation employées) et numériques, exploitant souvent des propriétés induites par les solutions elles-mêmes.

Dans le cadre des modèles construits à partir de la donnée la maturité est moindre. La panoplie de techniques, pour un bon nombre agissant en « boite noire » rend l’analyse complexe. D’autre part, les techniques d’apprentissage intègrent un bon nombre de choix, dits hyper-paramètres, qui, faute de connaissance « a priori », doivent eux-mêmes être choisis afin de maximiser les performances prédictives. Ainsi les sources d’imprécision sont nombreuses : (i) l’adéquation des données par rapport à l’objectif, leur quantité, pertinence et qualité, … ; (ii) la précision de la technique d’apprentissage dans l’absolu (par exemple, les limites naturelles d’une régression linéaire à représenter des modèles fortement non linéaires) et dans le relatif (évaluation sur des données réservées pour le test) ; ainsi que (iii) la position du point à évaluer par rapport à ceux employés dans l’apprentissage (l’imprécision croît avec leurs distances relatives).

La réponse à toutes ces questions est à la base du domaine en plein essor qu’est l’intelligence artificielle de confiance. L’apprentissage augmenté est particulièrement attractif, car les questions que nous venons de poser ne concernent que l’écart entre la réalité et les prédictions obtenues à partir des modèles de base (basés sur la physique). L’apprentissage par transfert, à partir des technologies développées et largement validées dans le cadre de l’ingénierie basée sur la simulation, devrait permettre d’encadrer la validité des prédictions ainsi que la quantification de la confiance à lui accorder.