Connexion

Connexion à votre compte

Identifiant
Mot de passe
Maintenir la connexion active sur ce site

Blog

Nous avons testé Talend Big Data



Pour réaliser les requêtes sur vos Big Data, vous n’aurez plus besoin d’apprendre les nouveaux langages tels que Pig ou Hive, les composants mis à disposition permettent de réaliser vos jobs grâce à l’interface graphique. Il vous reste ensuite à découper votre requête en composants indivisibles tels que les filtres sur ligne, sur colonnes, les groupements, ...

Les composants Hive

Si vous êtes initié au SQL, l’apprentissage du langage Hive ne posera pas trop de problèmes puisque les requêtes sont écrites en HiveQL, très proche du langage SQL : on garde toujours les Select, From, Where et autre Group By. Notons qu’actuellement, les possibilités offertes par l’utilisation de composants Hive semblent limitées : soit vous réécrivez votre requête HiveQL, soit vous décomposez celle-ci dans Talend.
Dans ce deuxième cas, il n'est pas possible de factoriser les actions à la manière d'une requête SQL. Vous enchaînez vos filtres, vos agrégats, ... dans autant de composants nécessaires. Le résultat de chaque action est écrite par chaque composant, ce qui est loin d'être optimal (par ex: si vous voulez faire un filtre sur un champ, puis retirez des colonnes et faire enfin une agrégation, vous devrez créer 3 tables que vous remplirez successivement).
En résumé, dans ce contexte, l'utilisation des composants Hive est moins rapide que le HiveQL. Notons que ceux-ci ne devaient pas être intégrés à Talend Big Data à l'origine, il est donc normal qu'ils soient appelés à évoluer.

Les composants Pig

En revanche, pour Pig, qui est plutôt orienté script, l’apprentissage se révèlera plus long. Il faudra apprendre une nouvelle structure, de nouveaux mots clés, etc. En utilisant les composants TPig, vous n’aurez pas besoin de comprendre Pig, un enchaînement logique de composants vous permettra de construire votre requête. Si je reprends l’exemple donné plus haut, pour un filtre sur les valeurs, puis sur les colonnes et enfin une agrégation, il faudra utiliser successivement les composants tPigFilterRows, tPigFilterColumns et tPigAgregate. Pas plus compliqué que cela si vous êtes habitué à utiliser Talend. Cette fois Talend execute la requête en une seule fois, de la manière optimale.

Ainsi, à choisir, préférez les composants Pig aux composants Hive.

En conclusion

Concernant les actions primaires que sont les « get » et « put » d’Hadoop, l’utilisation de Talend semble intéressant surtout par son apport graphique. Les tâches effectuées par ces composants sont très simples à exécuter à la main et ne gagnent pas vraiment à être automatisée si leur utilisation n’est pas suivie d’autres traitements ou de façon répétée régulièrement (tâches planifiées par exemple). On appréciera toute de même la possibilité de pouvoir le faire via Talend.

Une version 5.2 est attendue prochainement qui approfondira un peu plus la gestion et l’utilisation de vos données Big Data.
En vous appuyant sur l’interface TIS Administrator, vous pourrez lancer vos jobs Big Data à distance à la volée ou encore de manière planifiée.

Rechercher sur le blog