Connexion

Connexion à votre compte

Identifiant
Mot de passe
Maintenir la connexion active sur ce site

Blog

Du « Data Warehouse Low Cost » à la fin du Data Warehouse.


Il faut noter que tous les grands constructeurs de matériel informatique, tous les éditeurs l'embarquent d'une manière ou d'une autre. Mais là Cloudera rappelle à Hortonworks qu'elle a été la première société à supporter commercialement Hadoop et qu'il compte bien conserver cette place. Il est vrai qu'Hortonworks rassure :
  • Ils gèrent la plus grosse plate-forme Hadoop : Yahoo!
  • Ils ont les principaux core contributeurs et ce même en nombre

On peut dire que si Cloudera sort Impala sous licence Apache c'est sans doute parce qu'il y a la concurrence avec Hortonworks.

Quoi qu'il en soit, avec Impala, Hadoop change de registre va désormais sérieusement être mis en confrontation avec les solutions de data warehousing classique. Je pense à Terradata, Exadata... Si bien que le Cloudera déclare :
« qu'un entrepôt de données d'une capacité de 100 To coûte entre 2 millions de dollars et 10 millions de dollars chez les fournisseurs de data warehouse traditionnels , mais ajouter 100 To à HDFS au dessus d'un cluster Hadoop ne coûte que 200.000 dollars. »

En plus, ce que l'on gagne avec une telle architecture c'est la capacité à passer à l'échelle, ce que les vendeurs traditionnels ne sont pas complètement en mesure de faire et pour un coût réduit, et prévisible.

Platfora a carrément annoncé la fin du data warehouse ! Mais Impala a enfoncé le clou et vient apporter à Hadoop l'élément qui lui manquait. Les architectures hybrides vont perdre un peu de leur sens : au sein d'Hadoop les traitements seront tant mode batchs, que temps réél ! Tous les outils traditionnels de visualisation peuvent directement être connecté !

Il y a moins de 6 mois suite au Hadoop Summit nous pensions qu'il ne manquait plus qu'une chose à Hadoop ! Et bien c'est fait ! Impala coiffe les différentes tentatives qui auraient pu venir d'Hadapt, de Datastax, du couple Hbase + Hive, de Spark et Shark !

SQL est un langage qui n'est sans doute pas « sexy » en 2012, une sorte de bidule préhistorique à l'âge de l'informatique. Mais il est tellement largement diffusé que Cloudera a eu raison de venir bousculer le marché du data warahousing, et d'offrir à tous la possibilité de monter, louer son cluster Hadoop pour analyser toutes ses données :
  • produites en internes
  • produites par ses partenaires (clients, fournisseurs, institutionnels)
  • produites en dehors de l'écosystème de l'organisation

Cloudera a d'autant plus eu raison d'apporter cette brique qu'elle peut facilement être intégrer au reste du système d'informatio..SQL ça change tout. Les DSI n'auront plus à craindre un très long processus d'apprentissage. Impala offre une alternative à Map Reduce, avec un vrai moteur SQL qui s'intègre, de fait, aux outils des entreprises et organisations : ETL, reporting, solutions de visualisation, solutions de gestion.

Avec Impala il est possible d'interroger HDFS ou HBase. Bien entendu on a la possibilité d'exploiter les jointures, les agrégations et ce, en temps réel. Dans l'open source, on ne réinvente pas l'eau chaude. Ainsi, Impala exploite la même gestion des métodonnées que Hive. HCatalog, unification des métadonnées au sein d'Hadoop, facilitera sans doute par la suite un accès aux données d'Impala depuis Pig.
De fait, toutes les fonctionnalités d'intégration avec le système d'information qui existait déjà avec Hive, via JDBC ou ODBC sont réutilisés : sans trop d'effort les développeurs peuvent accéder au données stockées dans Hadoop dans les différents formats déjà supportés tels que les fichiers texte, les fichiers séquentiels compressés (GZIP, BZIP, Snappy). D'autres formats sont également inclus comme Avro, RCFile, LZO, et même, Trevni, le format binaire orienté colonne de Doug Cutting (le papa d'Hadoop).

Pour éviter les latences, Impala contourne Mapreduce, et accède directement aux données grâce à un moteur d'interrogation spécialement conçu pour être distribué comme ce que l'on connaît chez les vendeurs de SGBDR traditionnels. Ce moteur reprend les grands principes des architectures « shared nothing » (déjà existant dans Hadoop), et « massivement parallèle ».

Impala travaille beaucoup en mémoire, ce qui améliore grandement les performances. Les requêtes complexes s'exécutent entre 7 à 45 fois plus vite.

Impala correspond à une implémentation de Dreamel de Google. Cloudera recommande l'utilisation du stockage en colonne Trevni, pour une plus grande efficacité. Aussi, grâce à tous les formats supportés, précédemment cités, Impala fonctionne directement sur des données sans transformations particulières.

Aujourd'hui Impala ne vient ni remplacer MapReduce – qui peut être utile sur des processus particulièrement longs – ni les data warehouses actuels – qui présentent leurs spécificités dans le cadre de calculs très complexes. Toutefois, ce nouveau pas que franchit Hadoop laisse entrevoir à quel point ce système est encore perfectible et va transformer le marché du data warehouse.

Cloudera's Project Impala rides herd with Hadoop elephant in real-time
http://www.theregister.co.uk/2012/10/24/cloudera_hadoop_impala_real_time_query/

Cloudera Impala: Real-Time Queries in Apache Hadoop, For Real
http://blog.cloudera.com/blog/2012/10/cloudera-impala-real-time-queries-in-apache-hadoop-for-real/

Impala source code
http://github.com/cloudera/impala
Impala downloads (Beta Release and VM)
https://ccp.cloudera.com/display/SUPPORT/Downloads
Impala documentation
https://ccp.cloudera.com/display/IMPALA10BETADOC/Cloudera+Impala+1.0+Beta+Documentation
Public JIRA
http://issues.cloudera.org/
Impala mailing list
Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Tags: Cloudera

Rechercher sur le blog