Dans la tête de Doc Malkovich » définitions

Une petite définition des Big Data

doc malkovich — Thu, 16 Aug 2012 11:39:31 +0000

Big Data …

Après le « cloud » c’est le nouveau terme à la mode, qu’on voit partout mais que personne ne semble connaître vraiment …

Voici une petite définition que j’ai essayé de faire la plus simple possible.

Comme on peut le deviner (si on a quelques notions d’anglais) la notion de Big Data représente une volumétrie très importante de données. Contrairement à la BI classique il s’agit de stocker et d’analyser toutes (mais vraiment toutes) les données de l’entreprise et même celles de l’extérieur, et notamment des blogs, des forums et des réseaux sociaux.

Quand on parle de données de l’entreprise savez-vous que seulement 10% des données sont stockées en base (le reste étant les documents, les mails, les logs … tout le reste de la production IT quoi) ? C’est là la limite de la BI classique : Elle ne traite que les données des bases classiques et 90% des données restantes ne sont pas exploitées. C’est un comble quand on y pense !

Le défi des Big Data c’est de pouvoir stocker ces 90% des données et de les analyser. Et c’est là aussi un challenge important des Big Data : On a beau avoir une volumétrie colossalle de données, il faut pouvoir les traiter vite, et même très vite, voire en temps réel.

Mais la plupart de ces nouvelles données sont ce qu’on appelle des données non structurées. Sous ce terme un peu complexe voire pompeux se cache en fait un concept très simple. En modélisation on a l’habitude de structurer les données, par exemple on va faire une table Ventes avec plusieurs infos que le concepteur connait à l’avance. Si on veut le chiffre d’affaires des ventes d’un produit on prendra la colonne « chiffre d’affaire » en filtrant sur une autre colonne « produit ». En gros les données sont rangées dans des cases, prêtes à l’emploi – elles sont dites structurées. Dans les documents et dans les messages qu’on trouve sur les sites webs on trouve généralement des phrases qui sont composées de mots ordonnés suivant l’envie et la culture de l’auteur. Ces données sont dites non structurées car on ne connait pas le contenu qui serait défini comme aléatoire pour un ordinateur, il faut une réflexion humaine pour déchiffrer la donnée et pouvoir en extraire des informations. Par exemple les phrases « Julie va passer le weekend à Paris, elle en a de la chance ! » et « A la fin de la semaine la miss va s’éclater à paname » sont compréhensibles et similaires pour nous alors que l’ordinateur ne sait les analyser et les comparer simplement. Pourtant en information on pourrait en déduire plusieurs axes d’analyse : une personne (Julie), un temps (samedi/dimanche qui arrivent), un lieu (Paris) et un fait (présence et une opinion satisfaisante).

Les Big Data révolutionnent la BI en stockant ces données non structurées et en remettant au goût du jour l’analyse sémantique. Cette dernière va permettre d’analyser un nombre important de données et d’en tirer des informations comme les opinions, avec des modules de datamining.

C’est pourquoi on définit généralement les Big Data par les 3 V : VVV = Volume x Vitesse x Variété (volumétrie importante de données hétérogènes traitée très rapidement).

La recette du Big Data

Pour faire du Big Data c’est simple. Il vous faut ;

quelques Tera de base NoSQL (soit une grosse base qui n’est pas relationnelle comme celles qu’on connait mais qui peut tout stocker, même l’univers diront certains)
quelques CPU de framework MapReduce (soit un traitement ultra rapide un peu comme ce que fait Google quand il indexe ses pages … Ah bin justement ils utilisent un tel framework, ça tombe bien)
quelques Mo d’outils pour restituer les données (un peu classiques avec les bons connecteurs)
quelques Mo d’outils pour analyser les données (si on veut faire un peu d’analyse sémantique)

Certains challengers sortent du lot, principalement en opensource comme :

HBase, Cassandra pour les bases NoSQL
Hadoop en framework MapReduce (adopté partout, même par les plus grands éditeurs)

Les technos citées ci-dessus sont matures et viennent des grands acteurs du web (Google, Yahoo!, etc).
En ce qui concerne la BI « pure » les éditeurs s’y mettent et nous promettent un futur resplendissant pour les Big Data.

Sans jeu de mots il est difficile de résumer les Big Data en quelques lignes, le sujet est vaste !

Quelques liens pour ceux qui voudraient aller plus loin :

http://en.wikipedia.org/wiki/Big_data : la définition sur wikipedia
http://www.decideo.fr/bigdata/ : le blog de Philippe Nieuwbourg qui écrit un livre sur le sujet
http://bigdataparis.com/compte-rendu.php : les slides de la conférence Big Data Paris du 20 et 21 mars
http://www.kimballgroup.com/html/articles.html : The Evolving Role of the Enterprise Data Warehouse in the Era of
Big Data Analytics, un article de Ralph Kimball très complet sur le sujet

Des tables de faits sans faits

doc malkovich — Mon, 16 Aug 2010 11:58:20 +0000

Il y a des expressions décisionnelles qui me donnent des boutons, limite la varicelle.

Par exemple, le fait qu’il existe des tables de faits sans faits …
C’est un peu comme si on avait des moules sans frites, une bière sans mousse, un avion sans ailes, un film de Tim Burton sans Johnny Deep ou une version de BO sans bug …

Je n’invente rien, tout est expliqué là, in french :
Cours de modélisation décisionnelle

En résumé il s’agit tout simplement de tables de faits sans mesures ( ou sans indicateurs ).
On trouvera ce type de table pour représenter surtout l’absence d’événements ( produits qui ne se sont pas vendus lors d’une promotion par exemple ). On répertorie ces tables en tables de suivi d’événements ou tables de couverture, c’est beau à dire et ça fait cultivé mais bon je m’éloigne là …

Alors pour moi un fait est un événement, par exemple une vente.
Un fait par homonymisme c’est « ce qui a été fait », ou « sera fait » …
Une table de faits correspond à une table d’événements, ces événéments correspondant au croisement des dimensions dans l’espace temps. Par exemple on aurait les ventes au mois par vendeur et par produit.
Mais on a toujours des faits dans une table, même si on n’a pas forcément d’indicateurs / de mesures.
Par exemple si on prend les absences d’élèves, on aurait une table de faits sans mesures, mais pourtant on a bien des faits dans la table – l’absence est un fait, on est sur le fait qu’un élève est absent tel jour de la semaine …

Mais voilà on a des tables de faits sans faits.
On aurait pu dire « tables de faits sans indicateurs » ou « tables de faits sans mesures », mais non pourquoi faire simple, autant semer le doute dans les esprits … On notera que les tables de dimension sans dimensions n’existent pas, mais les tables de faits sans faits si !

Evidemment les puristes diront que dans sa définition originale un fait est une mesure, alors qu’une table de faits n’est pas qu’une table de mesures … Du coup les esprits les plus alertes pourraient se dire, c’est une erreur de traduction, mais non pas du tout. On trouve des factless fact tables de l’autre côté de notre planète.

Moi j’aurais tendance à dire que le mal est fait …

Merci Ralphy

La BI 2.0

doc malkovich — Mon, 22 Mar 2010 16:18:39 +0000

La BI existe maintenant depuis une vingtaine d’années, et repose sur des modèles solides comme l’OLAP, les modèles en étoile / flocons, les cubes etc …

La BI 2.0 est un terme à la mode qui caractérise les nouveaux outils qui se détachent des anciens modèles de la BI traditionnelle.

Les principales différences sont :

une mise en oeuvre simplifiée, quelques jours ( voire heures ) suffisent pour monter une solution BI
la rapidité, notamment due à des nouvelles technos comme l’analyse « in-memory »
l’autonomie des utilisateurs – par rapport à la dsi
la démocratisation – la BI est utilisée par tous, et non plus destinée à certains cadres dirigeants
la souplesse – pouvoir combiner des données qui n’étaient pas reliées entre elles avant, de sources différentes ( fichiers excel, bases de données, sites web )
le temps réel – du fait de pouvoir se connecter à n’importe quelle source
le travail collaboratif – génération web 2.0

Evidemment de par sa version la BI 2.0 est orientée Web 2.0, et elle adopte les technos du moment ( Cloud Computing, Saas, Paas, mobile etc )

Comme il suffit d’adopter une des caractéristiques citées ci-dessus, beaucoup d’applications sont estampillées « BI 2.0″, notamment les versions « OnDemand » des applications traditionnelles.

Quelques exemples concrets d’applis BI 2.0 :

Qlikview
Bime

Les problématiques que peut apporter la BI 2.0 :

des données publiées non certifiées
des process inexistants ( par exemple pour la maintenance … )
des limites aux traitements de la donnée