Connexion

Connexion à votre compte

Identifiant
Mot de passe
Maintenir la connexion active sur ce site

Blog

Simplifier Hadoop !


Deuxième jour du Hadoop Summit, San José le 04 Juin 2014.

ATT était l'animateur d'une table ronde dont le titre était « simplifier Hadoop ». Une session des plus intéressantes et qui aura marqué pour nous le mot d'ordre pour cette journée et sans doute pour les mois à venir.

Ce qu'il faut constater c'est que toute les couches d'Hadoop s'avèrent de plus en plus simple à utiliser ou peuvent mieux satisfaire les utilisateurs finaux.

Commençons par exemple par l'administration de son cluster Hadoop. Ambari, dont c'est le rôle, a connu de nombreuses améliorations telles que la définition des modèles de cluster, pour faciliter le déploiement automatisé des noeuds. En plus, Ambari a intégré les notions de stack et de view qui ouvrent de nouvelles possibilités. Ainsi les utilisateurs finaux vont bientôt eux aussi accéder à Ambari pour par exemple gérer, exécuter leurs requêtes Hive, leurs script sPig ! Ouaa... Il est sûr que Cloudera, avec Hue apporte déjà une solution très agréable mais pourquoi pas une autre.

Les utilisateurs finaux ne sont pas donc pas laissés de côtés dans toutes ces évolutions. En effet, avec les nouveaux modèles de programmation distribué tels que Tez, Slider au dessus de YARN, ils bénéficient clairement d'une réactivité bien plus importante. On approche donc des temps de réponse humainement acceptables. Nous avons, par ailleurs chez Altic, beaucoup apprécié l'arrivée de Julian Hyde, le leader du projet Mondrian (OLAP), chez Hortonworks et son implication dans Hive. Grâce à Optiq il propose d'améliorer grandement les temps de réponse de Hive en repensant le plan d'exécution des requêtes via un optimiseur basé sur le coût, « Cost Based Optimizer », et aussi des vues matérialisées intelligentes, « Discardable In-Memory Materialized Queries » (DIMMQ). Hive est lancée sur une belle perspective et délivrera toute l'intéractivité dont ont besoin les utilisateurs. Notons aussi que Pig et Cascading s'appuieront sur Tez, que HBase et Storm exploiteront Slider ; tous bénéficieront pleinement de YARN pour des exécutions toujours plus rapides.

La gouvernance des données, c'est Falcon. L'outil permet par exemple de concevoir des flux de synchronisation complexe entre clusters Hadoop dans le même data center ou non. Il s'agit aussi d'avoir un interface unique pour travailler avec l'ensemble de ses clusters Hadoop. Sans recréer les cloisonnements existants dans les entreprises, bien entendu.

Altic a présenté le projet OpenStack Sahara, Hadoop as Service, à Solution Linux, et ici nombreux sont ceux qui pensent que c'est une bonne manière d'éliminer la complexité de l'installation pour une appropriation plus simple de notre robuste éléphant.

Il est impossible ici que nous citions toutes les améliorations qu'Hadoop a connu ses derniers temps et qui dessine ce nouvel axe : la simplification !

Durant cette journée il nous a bien été rappelé que ce qui est important pour l'ensemble des distributeurs d'Hadoop c'est de coller au maximum au standard, Apache Hadoop : « Tout comme on a plusieurs distributions Linux et OpenOffice qui s'y installe, il doit en être de même pour les distributions Hadoop et les applications qui s'y exécutent ».

Si je suis venu à Hadoop c'est effectivement parce qu'il y a une couche SQL. Cependant de nombreux éditeurs ont intégré Hadoop seulement parce qu'il y a cet accès là. Et le souci c'est qu'ils ne présentent Hadoop au plus grand nombre que par ce biais là ! Ce qui vous l'aurez compris est bien réducteur, en particulier parce qu'il y aujourd'hui YARN et que HDFS est capable de stocker autre chose que des données tabulaires. J'en veux pour preuve l'un des premiers cas d'utilisation connu, le New York Times qui avait bâti des fichiers pdf de toutes ses parutions depuis ses débuts !

Certes Hadoop s'est largement simplifié mais il ne faudra pas résumer Hadoop à une utilisation uniquement orienté BI (SQL). Hadoop devra être encore plus simple mais il faut lui laisser le champ de tout les possibles qu'il continue à ouvrir.

Rechercher sur le blog