Big Data …
Après le « cloud » c’est le nouveau terme à la mode, qu’on voit partout mais que personne ne semble connaître vraiment …
Voici une petite définition que j’ai essayé de faire la plus simple possible.
Comme on peut le deviner (si on a quelques notions d’anglais) la notion de Big Data représente une volumétrie très importante de données. Contrairement à la BI classique il s’agit de stocker et d’analyser toutes (mais vraiment toutes) les données de l’entreprise et même celles de l’extérieur, et notamment des blogs, des forums et des réseaux sociaux.
Quand on parle de données de l’entreprise savez-vous que seulement 10% des données sont stockées en base (le reste étant les documents, les mails, les logs … tout le reste de la production IT quoi) ? C’est là la limite de la BI classique : Elle ne traite que les données des bases classiques et 90% des données restantes ne sont pas exploitées. C’est un comble quand on y pense !
Le défi des Big Data c’est de pouvoir stocker ces 90% des données et de les analyser. Et c’est là aussi un challenge important des Big Data : On a beau avoir une volumétrie colossalle de données, il faut pouvoir les traiter vite, et même très vite, voire en temps réel.
Mais la plupart de ces nouvelles données sont ce qu’on appelle des données non structurées. Sous ce terme un peu complexe voire pompeux se cache en fait un concept très simple. En modélisation on a l’habitude de structurer les données, par exemple on va faire une table Ventes avec plusieurs infos que le concepteur connait à l’avance. Si on veut le chiffre d’affaires des ventes d’un produit on prendra la colonne « chiffre d’affaire » en filtrant sur une autre colonne « produit ». En gros les données sont rangées dans des cases, prêtes à l’emploi – elles sont dites structurées. Dans les documents et dans les messages qu’on trouve sur les sites webs on trouve généralement des phrases qui sont composées de mots ordonnés suivant l’envie et la culture de l’auteur. Ces données sont dites non structurées car on ne connait pas le contenu qui serait défini comme aléatoire pour un ordinateur, il faut une réflexion humaine pour déchiffrer la donnée et pouvoir en extraire des informations. Par exemple les phrases « Julie va passer le weekend à Paris, elle en a de la chance ! » et « A la fin de la semaine la miss va s’éclater à paname » sont compréhensibles et similaires pour nous alors que l’ordinateur ne sait les analyser et les comparer simplement. Pourtant en information on pourrait en déduire plusieurs axes d’analyse : une personne (Julie), un temps (samedi/dimanche qui arrivent), un lieu (Paris) et un fait (présence et une opinion satisfaisante).
Les Big Data révolutionnent la BI en stockant ces données non structurées et en remettant au goût du jour l’analyse sémantique. Cette dernière va permettre d’analyser un nombre important de données et d’en tirer des informations comme les opinions, avec des modules de datamining.
C’est pourquoi on définit généralement les Big Data par les 3 V : VVV = Volume x Vitesse x Variété (volumétrie importante de données hétérogènes traitée très rapidement).
La recette du Big Data
Pour faire du Big Data c’est simple. Il vous faut ;
- quelques Tera de base NoSQL (soit une grosse base qui n’est pas relationnelle comme celles qu’on connait mais qui peut tout stocker, même l’univers diront certains)
- quelques CPU de framework MapReduce (soit un traitement ultra rapide un peu comme ce que fait Google quand il indexe ses pages … Ah bin justement ils utilisent un tel framework, ça tombe bien)
- quelques Mo d’outils pour restituer les données (un peu classiques avec les bons connecteurs)
- quelques Mo d’outils pour analyser les données (si on veut faire un peu d’analyse sémantique)
Certains challengers sortent du lot, principalement en opensource comme :
- HBase, Cassandra pour les bases NoSQL
- Hadoop en framework MapReduce (adopté partout, même par les plus grands éditeurs)
Les technos citées ci-dessus sont matures et viennent des grands acteurs du web (Google, Yahoo!, etc).
En ce qui concerne la BI « pure » les éditeurs s’y mettent et nous promettent un futur resplendissant pour les Big Data.
Sans jeu de mots il est difficile de résumer les Big Data en quelques lignes, le sujet est vaste !
Quelques liens pour ceux qui voudraient aller plus loin :
- http://en.wikipedia.org/wiki/Big_data : la définition sur wikipedia
- http://www.decideo.fr/bigdata/ : le blog de Philippe Nieuwbourg qui écrit un livre sur le sujet
- http://bigdataparis.com/compte-rendu.php : les slides de la conférence Big Data Paris du 20 et 21 mars
- http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of
Big Data Analytics, un article de Ralph Kimball très complet sur le sujet