Connexion

Connexion à votre compte

Identifiant
Mot de passe
Maintenir la connexion active sur ce site

Blog

Talend Big Data, Hadoop et Elasticsearch

Nombreux d'entre vous recherchent une architecture Big Data tant le nombre d'acteurs et d'offres continue à s'etoffer. Ainsi l'objectif de l'exercice décrit dans cet article est de tester le bon fonctionnement d'un ensemble d'outils appartenant au domaine Big Data.

Pour cela, nous avons choisi de nous intéresser à l'intégration du moteur de recherche Elasticsearch à Hadoop et d'utiliser Talend Big Data pour orchestrer le tout. Avec un tel ensemble il s'agit d'exploiter la puissance d'un moteur de recherche tel qu'Elasticsearch au sein d'une grille Hadoop qui conserve encore l'image d'un système peu interactif. Ce qui au passage est de moins en moins vrai avec le nouveau gestionnaire de ressource YARN.

Pour être en mesure de réaliser ces tests, nous avons donc utilisé le Studio Talend Big Data, la Sandbox d'Hortonworks et la librairie elasticsearch-hadoop (réalisée par les équipes d'ElasticSearch).

On verra à la fin de cet article que ces tests ont permis de faire ressortir un exemple d'architecture Big Data dans laquelle on réussit à trouver une interface de requêtage classique de type batch (avec Pig, Hive...) mais également une autre interface plus rapide et plus transverse à travers l'utilisation Elasticsearch.

Lire la suite...

Le CREFOR améliore ses analyses à l’aide de Talend Integration Suite

Le GIP spécialisé dans la relation entre l’emploi et la formation en Haute-Normandie a déployé la solution d’intégration de données open source de Talend pour améliorer les échanges de données avec ses partenaires et la cohérence des données qu’il produit

Lire la suite...

La puissance des GPU et la Business Intelligence

On a pu remarquer ces dernières années l'évolution rapide de la puissance des GPU (Graphics Processing Unit) permettant d'obtenir des rendus graphiques de plus en plus aboutis. Cette évolution a été si importante, qu'aujourd'hui, la puissance des GPU est la plupart du temps supérieure à celle de nos CPU (Central Processing Unit) classiques.

Autre fait remarquable, les sociétés spécialisées dans les CPU telles qu'Intel reconnaissent elles-aussi la supériorité des GPU face à leurs processeurs ! En effet, une étude réalisée récemment par des chercheurs d'Intel a établi officiellement la supériorité d'une puce graphique Geforce GTX 280 de nVidia par rapport au processeur quatre coeurs Core i7 d'Intel. Il faut nuancer cette conclusion en précisant que cette étude s'est essentiellement basée sur les performances en terme de traitement parallèle, mais le fait de reconnaître la supériorité de leur « concurrent » est inédit et surprenant.
Selon leurs résultats, en moyenne la Nvidia GeForce GTX 280 est 2,5 fois plus rapide que l'Intel Core i7 960 cadencé à 3,2 GHz processeur, et dans certaines circonstances jusqu'à plus de 14 fois plus véloce. Leurs observations et conclusions ont été publiées dans un document appelé « Debunking the 100x GPU vs CPU myth : An evaluation of throughput computing on CPU and GPU »

 

Pour rappel, le traitement en parallèle consiste à effectuer de multiples calculs en simultané par opposition à un travail en série qui réalise les tâches dans un ordre séquentiel. Dans leur étude, les chercheurs affirment donc que les circuits du GPU sont bien mieux adaptés au traitement en parallèle alors que les CPU du type Core i7 sont mieux adaptés au travail en série. Cela ne veut pas dire que les puces quatre coeurs d'Intel ne peuvent pas effectuer de calcul en parallèle, mais elles le font beaucoup moins bien que les GPU comme le GTX280.
Indépendamment des différences techniques entre CPU et GPU, les puces graphiques sont aujourd'hui utilisées dans les systèmes informatiques haute performance, comme dans les supercomputers mais on peut également les trouver dans des nouveaux domaines tels que la Business Intelligence (BI).


Pourquoi les applications BI s'intéressent-elles aux GPU ?


La réponse est assez simple, dans le cadre d'analyse de données, le volume de données à traiter peut atteindre des sommets... On sait de nos jours l'importance qu'ont les données dans une entreprise, et surtout à quelle vitesse leur proportion augmente. L'utilisation des GPU permet donc d'exploiter leur puissance de calcul afin d'améliorer les performances et les temps de réponse lors de traitements à grosse volumétrie.
Aujourd'hui peu d'acteurs de la BI se tournent vers l'utilisation des GPU dans leur solution, mais des solutions existent déjà et commencent à faire parler d'elles, en particulier la version GPU du Palo Server de la société Jedox.

Jedox, éditeur allemand de la solution PALO, est un des leaders européens en solutions en Open Source Commercial pour la Planification, le Reporting et l’Analyse. La suite Palo BI, totalement Open Source, donne un rôle central aux experts métiers voués à utiliser l'outil en leur proposant des outils simples, faciles à prendre en main, à gérer et à utiliser. Elle permet de rassembler, organiser, analyser et consolider les données de l'entreprise, de créer des rapports et de les diffuser dans l'organisation via un accès web. Mais surtout, la suite Palo BI plait aux utilisateurs avancés de tableurs en leur offrant la possibilité de gérer l'application depuis Excel (suite Microsoft Office) ou depuis Calc (suite Open Office).

Très récemment, Jedox a sorti une version GPU (bêta) de sa solution, permettant donc d'exploiter la puissance des GPU pour les calculs d'aggrégation, d'indicateurs etc... sur des cubes particulièrements volumineux. ALTIC, partenaire Jedox, est souvent amené à avoir des cubes de données importants à manipuler dans ses différents projets, nous nous sommes donc logiquement intéressés à cet accélérateur GPU de Palo.
Afin de voir les réels bénéfices de cette solution, nous avons mis en contact la société Carri Systems, entreprise française spécialisée dans les systèmes informatiques hautes performances (www.carri.fr) avec Jedox afin de pouvoir mener des tests plus aboutis en utilisant des cubes de données volumineux. Carri Systems possède en effet le seul serveur doté de 8 processeurs GPU disponible en Europe à ce jour, ce qui en fait probablement le meilleur outil pour exécuter et utiliser l'accélerateur GPU de Palo.
Les tests ont été mené au siège de Jedox à Fribourg. Ils ont mis en évidence l'augmentation des performances lors de l'utilisation du GPU. Pour ces tests, la société Carri Systems a donc fourni un serveur doté de 8 cartes nVidia Tesla C1060 avec une version de Windows 7 64bits. ALTIC a pour sa part installé Palo GPU 3.1 et validé la configuration du serveur. Les conclusions de ces tests ont montré une amélioration constante et quasi-linéaire des performances en fonction du nombre de GPUs utilisés. Vous pouvez retrouver la description des résultats sur le blog du CEO de Jedox, Kristian Raue.

A noter que la sortie officielle de cet accélérateur GPU pour Palo devrait se faire au cours du mois d'Octobre 2010.


L'accélerateur GPU de Palo est donc un précurseur dans l'utilisation du GPU dans le domaine de la Business Intelligence mais il est fort probable que d'autres acteurs de ce domaine vont sûrement offrir une solution GPU dans un futur proche.



PS : Si vous êtes sur Bordeaux cette semaine, pensez à venir aux Rencontres Mondiales du Logiciel Libre où nous allons donner une présentation de Palo.

 

Site de Jedox

Rechercher sur le blog