La Science des Données couvre l’ensemble des travaux réalisés sur la génération semi-automatisée ou automatisée d’information à partir de flux de données brutes et potentiellement inconnues et/ou hétérogènes, ainsi que les différentes formes de visualisation qu’il peut en être fait. Faire émerger des modèles situationnels menant à une prise de décision.
Objectifs scientifiques
La Science des Données présente néanmoins des objectifs qui viennent directement enrichir les autres disciplines scientifiques sur tous les axes abordés :
- La détection automatisée d’opportunités ou menaces, selon l’axe de recherche appliquée, et la modélisation en temps réel de leur contexte de réalisation, grâce aux données issues de capteurs ou réseaux sociaux et enrichies par des bases de connaissances externes.
- L’intégration complète des données au sein des processus métier à travers une approche double incluant la génération et la consommation de données au cours du processus et son adaptation, voire sa construction à la volée en conséquence.
- Regroupant et généralisant de façon plus large les objectifs précédents, il s’agit d’offrir un cadre d’aide à la décision en temps réel basé sur la remontée des données devenues aisément accessibles mais encore actuellement trop peu exploitées dans l’état de l’art.
La Science des Données : 4 niveaux "métier" étudiées
- La collecte des données et le nettoyage systématiquement associé dans la démarche de type data science
Internet des objets, déploiement d’architecture dirigée par les événements (EDA) avec notamment le couplage lâche publish/subscribe entre les sources de données et les services de traitement ainsi que les méthodes de machine learning et statistiques en termes de nettoyage de données.
- Le regroupement des données
Utilisation de méthodes supervisées ou non du machine learning ainsi qu’outils d’analyse sémantique en lien avec l’ingénierie des bases de connaissances (ontologies, taxonomies).
- L’interprétation des données en vue d’obtenir des modèles informationnels permettant par la suite un support aux processus de décision
Elle-même basée sur les techniques liées à l’ingénierie des connaissances, via l’utilisation de méta-modèles et de bases de connaissances métier (sous forme d’ontologie ou base de données de type graphe), elle est assurée grâce au développement, d’une part, de systèmes à base de règles (dans un cadre EDA associant un module de type « complex event processing ») et, d’autre part, d’algorithmes de machine learning. Toutes les techniques supervisées et non supervisées (classification, clustering, association et régression) sont utilisées et des études en traitement du langage naturel(NLP) sont réalisées.
- La visualisation des données supportant en parallèle la prise de décision humaine
Utilisation de librairies et outils permettant la visualisation en temps réel des données. Notamment, l’adéquation entre le format de visualisation et le besoin de l’utilisateur en termes d’aide à la décision est primordiale. Les données collectées et interprétées peuvent être textuelles ou numériques, utilisées indépendamment ou associées. Cette discipline scientifique s’inscrit dans le thème « Raisonner sur les données » RoD, commun aux GDR MaDICS (Masse de Données, Information et Connaissances en Sciences) et GDR IA (Intelligence Artificielle).