mai
2008
AAAAAAAA En voilà une question qu’elle est bonne !
Ami Wikipedia dit qu’un entrepôt de données (DataWareHouse) est un concept spécifique de l’informatique décisionnelle, issu du constat suivant : les données de l’informatique de production (également appelée « informatique transactionnelle »), notamment les progiciels de gestion intégrés (ou ERP, Enterprise Resource Planning) ne se prêtent pas à une exploitation dans un cadre d’analyse décisionnelle. J’adore cette définition !!! (je vous renvoie aussi à l’article complet sur Wikipedia).
En fait, les entrepôt existent parceque les système de production ne peuvent pas tout faire (ou pas tout faire bien en tout cas). Et c’est ce que pensait le monde jusqu’à très récement : on a les données de prod, faisons des rapports directement depuis la source, ça va être plus simple et moins cher !
1- Ça ne va pas du tout être plus simple, pour les raisons suivantes :
– Alourdir le système de production avec des requêtes d’analyse sur une grosse quantité de données, je vous rappèle juste qu’un système de production est fait pour faire de la production, donc optimisé et pensé pour faire du transactionnel (CRUD).
– Complexifier la conception de rapports depuis des tables qui ne sont pas faite pour cela.
– Gérer le traffic que cela va engendrer.
2- Ça va pas être moins cher, car l’argent épargné en faisant de l’analyse sur de la production va être dépensé pour faire des requêtes très complexes (concéption, débogage, tests, optimisation) par des informaticiens de plus en plus dépassés par les demandes de développement de rapports. L’argent va aussi être gaspillé pour « booster » le système de prod, car on voit qu’il commence à donner des signes de fatigue. Sans oublier, les développements style (création de tables d’agrégats, interfaces utilisateurs, etc.). Finalement, et ce qui coûte le plus cher, la confiance des utilisateurs qui va baisser car le système plante de plus en plus souvent, car on attend trop avant d’avoir un rapport, car il faut arréter de travailler le temps que le système fasse les traitements de fin de mois…
Donc au final, on aura deux systèmes bancals, perdu la confiance des users et perdu de l’argent. Personne ne veut ça je pense.
Donc, pour éviter tout ce chaos, avoir deux systèmes indépendants de production et d’analyse. Le système de production fera de la production, le système d’analyse fera de l’analyse et des rapports. Criant de logique (mais pourtant beaucoup refusent d’emboiter le pas), les analystes seront aux anges et les utilisateurs « généraux » du système aussi. Même les informaticiens y trouveront leurs car, nous le verrons plus loin, ils développeront plus en moins de temps.
Ceci étant dit, il faut savoir que les systèmes d’analyse actuels se basent sur un modèle de données différent des systèmes conventionnels (modèle relationnel). Les systèmes d’analyses utilisent des entrepôts de données.
Concretement, qu’est ce que c’est ? :
Et bien, c’est des tables, pas en troisième forme normale, qui contiennent les informations historisées de production, mais organisés différament. Les données sont modélisées en étoile ou en flocon.
Pourquoi pas en 3eme FN, et pourquoi pas en Entité Relation ? :
Tout simplement parcequ’une structure optimisée pour faire de l’analyse et de la création de rapports s’en fiche qu’il existe un principe d’unicité dans les données. On va créer des doublons, on va dénormaliser, on va faire en sorte que l’information soit disponible en un minimum de transactions SQL (jointures, gestion d’index, recherche, etc) pour avoir un maximum de performance. Le schéma en étoile est très bon pour cela.
Autre raison, et pas des moindres, on veut permettre aux utilisateurs finaux de jouer directement avec la source de données, l’analyste pourra explorer les données et créer le rapport qu’il veut sans participation du département informatique !!!! Et oui ! le modèle en étoile (à travers des outils spécifiques) permet de faire cela. Nous verrons ces outils dans un autre post (OLAP). Je vous laisse imaginer les possibilités.
Imaginons que j’ai fait un entrepôt avec mes données de production, et après ? :
Une fois l’entrepôt fait, le voyage commence ! Premier test : essayer de faire un cumul annel du chiffre d’affaire, par client, par territoire depuis votre source de données, ensuite depuis l’entrepôt… Oui ça prend beaucoup moins de temps !!
Pas convaincus, regardez tout ce que votre entrepôt prend en historique des prix, et autres informations non gérés dans votre système de production. Plus de possibilités d’analyse !!!
Toujours pas convaincus ! Bon, parlons OLAP. Imaginez que, depuis Excel, votre patron, ou vos analystes puissent accéder à toutes les informations de votre entrepôt et analyser des faits par dimensions avec une simplicité déconcertante et sans connaissances en informatique spécifique. La si vous n’étes pas convaincus ….
Tous ces avantages font des entrepôts de données un outils stratégique de plus en plus présent dans les enptreprises. Dans un monde ou avoir l’information, c’est être meilleur, les Data WareHouses ont plus qu’une place de choix dans les entreprises. Il est clair que l’avenir sera informationnel plus qu’opérationnel.