Salon Big Data Paris 2015 : l’ETL Ab Initio

BigDataParis2015

J’ai eu la chance de pouvoir me rendre au Salon Big Data Paris 2015.
J’ai choisi comme approche de rencontrer 1 éditeur big data/NoSql (datastax), 1 éditeur d’outil de reporting (Tableau software), et un éditeur ETL (Ab Initio). Je recommande ce genre d’approche pour les pros du décisionnels qui se rendront au salon Big Data Paris des années suivantes si vous avez un temps limité. Il faut identifier les éditeurs qu’on souhaite rencontrer avant de se rendre au salon car il y a des dizaines et des dizaines d’éditeurs.

Je m’attendais à avoir du mal à obtenir des informations concrètes et non commerciales, mais ce ne fut pas le cas. Sur chacun de ces stands, j’ai eu quelqu’un de compétent qui a pu répondre à toutes les questions que je me posais.

C’est l’éditeur d’ETL Ab Initio qui a le plus retenu mon attention. Voici ce que j’en ai retenu :

– Ab Initio est écrit en C++ (comme l’ETL Data Studio). C’est assez rare pour le noter. C’est pour moi un avantage par rapport à tous les autres ETLs écrit en Java : rapidité d’exécution et d’utilisation, moins d’ouverture comme en Java mais environnement de l’ETL « maitrisé », etc..
L’architecture facilite vraiment le parallélisme de traitement des données :
L’interface graphique qui décrit l’exécution des traitements analyse automatiquement les données disponibles et peut les diviser et les traiter en parallèle ce qui donne un énorme avantage de traitement.
De plus, si j’ai bien compris l’ETL analyse automatiquement (par exemple) si on veut croiser des sources de données qui se trouvent sur le même serveur ou sur des serveurs distants et choisi le serveur le plus efficace pour rapatrier les données. Ceci m’est apparu comme un très gros avantages. Sur des architectures classiques, on est plutôt en aveugle sur cette information d’où se trouvent les serveurs qui hébergent les bases et des liaisons réseaux entre eux. On n’obtient souvent ces informations sur l’architecture que suite à de gros problèmes de performances.

On a aussi, dans la même logique, la possibilité de placer un filtre sur les données en amont ou en aval du transport des données, selon la masse (et donc le temps de traitement) sur les données.

L’ETL va aussi calculer automatiquement un pourcentage, le plus approprié possible d’utilisation de la mémoire sur les serveurs, indicateurs qu’on peut bien sûr modifier manuellement si on le souhaite.

réutilisation et partage de code :
La réutilisation de code m’est apparu plus qu’un concept. Les données d’un traitement sont stockées dans de petits fichiers textes qui constituent le référentiel de l’ETL. On peut facilement utiliser ou réutiliser ces sortes d’objets dans les autres traitements.

Merci à la personne qui a aimablement répondu à toutes mes questions, m’a montré le produit et donné toutes les informations nécessaires.

– J’aime toujours voir ce que font les ETLs avec les fichiers Excels, l’import/export Excel étant pour moi une fonctionnalité primordiale dans les ETLs, et le discours des éditeurs d’ETL à ce sujet est souvent pour moi un indicateur de la facilité d’utilisation du produit.
J’ai beaucoup apprécié dans Ab Initio, le facilité avec laquelle on peut importer les fichiers Excels, et la possibilité de lire les données, mais aussi les formules ainsi que les métadonnées (couleur des cellules par exemple). Je pense particulièrement aux utilisateurs qui me génèrent des fichiers Excels avec les modifications en couleurs et qui n’ont jamais pu comprendre que l’ETL que j’utilise ne reconnait pas ces couleurs :)).

 

 

Sinon Ab Initio semble être plutôt dans les fourchettes hautes de prix face aux concurrents, mais une solution appréciée et considérée comme un ETL de très bonne qualité. Sur Internet je n’ai pas trouvé beaucoup d’information au sujet d’Ab Initio, que ce soit des forums, des blogs, etc.. quasiment rien.

 

Je suis curieux d’avoir l’avis des personnes qui utilisent Ab Initio, n’hésitez pas à laisser un petit commentaire.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *