L'intelligence artificielle, la réponse à la guerre des données

L’Intelligence Artificielle s’annonce comme la nouvelle révolution industrielle. A l’heure où l’on prédit son déploiement dans tous les secteurs de la société, les données dont elle se nourrit deviennent un enjeu crucial. Sans Data nombreuses, fiables, éthiques, analysables et sécurisées, impossible d’envisager l’avenir de l’Intelligence Artificielle. La guerre des données est donc bel et bien déclarée !

Une première étape indispensable : la constitution des jeux de données.

Nous produisons aujourd’hui plus de données que jamais auparavant dans notre histoire. A chaque seconde, près de 40 000 recherches sur Google sont effectuées, et 2 millions d’emails sont émis. En 2019, le volume du trafic web mondial dépassera les 2 zettabytes par an. Pourtant malgré les avancées de l’informatique cognitive et la puissance de processing, l’exploitation de toutes ces données reste encore très largement inaccessible aux entreprises.

Aussi, l’un des premiers enjeux à relever pour le développement de l’IA, est la collecte et l’annotation de larges corpus de données. Aujourd’hui, de tels jeux de données sont encore des ressources rares. Volumes insuffisants de données réelles existantes, capacités de collecte limitées, difficulté de passer des données brutes aux données exploitables, … les raisons de cette rareté sont souvent différentes en fonction des secteurs d’activité.

En France, de nombreuses initiatives tendent à résoudre cette problématique. Pour exemple, dans le cadre du déploiement de la stratégie française en matière d’IA, l’état vient de lancer un appel à manifestation d’intérêt (AMI), ouvert jusqu’en novembre 2018, afin de soutenir des initiatives sectorielles ou cross-sectorielles de mutualisation de données en vue du développement de solutions d’IA.

La difficulté du passage des données brutes aux données exploitables

L’Intelligence Artificielle est avant tout liée à la qualité des données exploitées par les applications. Malgré l’évolution des outils et des Data Warehouse (tel Hadoop et Spark), les analyses de données, qu’elles soient structurées ou non, restent encore complexes.

Les entreprises doivent trouver comment transformer les données disponibles en insights exploitables. En effet, pour transférer les données vers les systèmes d’intelligence artificielle, il est nécessaire de les nettoyer, rechercher des erreurs dans les formats, traquer les duplications au sein des bases de données, transformer les données brutes en données exploitables.

La grande complexité des SI qui sont composés de nombreux applicatifs et de bases de données hétérogènes ne simplifie pas la tâche. C’est pourquoi, les entreprises rencontrent encore de grandes difficultés à transférer leurs données depuis les systèmes opérationnels vers les systèmes analytiques.

Pour exemple, citons le recueil de données au sein des systèmes d’information des établissements de santé publics et privés. Un secteur où l’intelligence artificielle promet de grandes avancées mais où la variété des formats de données impose de nombreuses opérations avant que l’IA puisse remplir ses promesses. Extraction des données, conversion au format souhaité et restitution, constituent dans ce

secteur un défi à relever avant que l’intelligence artificielle devienne véritablement l’allié des professionnels de santé.

Des impératifs de sécurité pour protéger les données exploitées

L’accumulation des données sur les serveurs Cloud et son accessibilité aux fraudeurs peuvent s’avérer fatales pour les entreprises et leurs dispositifs d’Intelligence Artificielle. C’est pourquoi l’identification des processus qui incitent à la manipulation est une étape clé pour améliorer la fiabilité des données.

En illustration, citons les challenges auxquels sont confrontés les acteurs du monde de l’assurance.

Selon une étude d’Accenture, menée auprès de plus de 600 assureurs et experts du secteur dans 25 pays dont la France : un tiers des assureurs interrogés ont subi des pratiques telles que la fraude par les bots, ou la falsification de données de capteurs ou de localisation, tandis qu’un autre tiers pensent avoir subi une telle attaque, mais sans avoir pu le vérifier.

A l’heure où les données constituent le nerf de la guerre pour le développement de l’Intelligence Artificielle, il est d’autant plus crucial de pouvoir les protéger de manière efficace.

La nécessité d’utiliser des données authentiques et éthiques

De nombreuses craintes émergent également à propos de l’authenticité et de l’éthique de l’Intelligence Artificielle et du Big Data. Comment protéger les données pour garantir leur authenticité ? Quelles sont les données que les systèmes peuvent utiliser sans aller à l’encontre de l’éthique ?

On pourrait citer de nombreux exemples, tels que des rectangles blancs collés sur un panneau « stop » qui peuvent conduire un modèle de Deep learning à ne voir qu’une limitation de vitesse à la place d’un panneau d’arrêt. Citons encore, les systèmes d’Intelligence Artificielle utilisés par certains tribunaux américains pour prédire le risque de récidivité et qui exploitaient l’information sur la couleur de peau des prévenus. Autrement dit, une intelligence artificielle devenue raciste en raison des données intégrées dans son modèle.

Aujourd’hui encore, pour déterminer quelles données doivent être identifiées et utilisées, la gestion humaine et le Machine Teaching, restent toujours indispensables. Un passage obligé pour proposer aux algorithmes d’apprentissage des données exploitables dans le respect d’une ligne éthique et juridique.

L’intelligence artificielle, la réponse à la guerre des données

Une première étape indispensable : la constitution des jeux de données.

La difficulté du passage des données brutes aux données exploitables

Des impératifs de sécurité pour protéger les données exploitées

La nécessité d’utiliser des données authentiques et éthiques