Les problèmes liés à la pertinence des mégadonnées

À l’époque où les frontières des données d’entreprise étaient clairement délimitées, les utilisateurs de données pouvaient déterminer facilement ce qui était pertinent et digne d’analyse. Ces données « traditionnelles » et structurées étaient capturées et gérées par des systèmes de soutien bien établis.

Dans l’abondance et le déluge de données d’aujourd’hui, cette réalité n’existe plus. D’abord, leur quantité astronomique est impossible à gérer de façon traditionnelle et tenter de tirer une valeur ajoutée pour l’entreprise de chacun de ces éléments de données est pratiquement une mission impossible. Les sources de mégadonnées sont en outre composées d’un grand nombre d’éléments différents (attributs, mesures, etc.). Un bon exemple de cela est « l’Internet des objets », qui enregistre notamment les échanges d’informations et de données entre toutes sortes de dispositifs mobiles et de réseaux sociaux. Il n’est pas rare de trouver des centaines de variables dans ces sources de données « brutes » à un niveau de granularité très fin.

La question de la pertinence de toutes ces données aux fins d’analyse pour les entreprises doit être posée :

On pourrait être tenté de répondre qu’elles sont « probablement inutiles » et « trop complexes de toute façon ».
Mais en réalité, ce serait une erreur d’exclure d’emblée des données potentiellement importantes qui pourraient fournir des indications précieuses.

J’accepte les fichiers témoins