Connexion

Connexion à votre compte

Identifiant
Mot de passe
Maintenir la connexion active sur ce site

Blog

Ne jetez plus vos données, elles cachent de belles informations

La technologie au cœur de ce mouvement, que certains considèrent déjà comme étant une rupture, Hadoop !

Hadoop est un projet de la fondation Apache. Ce projet est devenu en quelques mois le socle des nouvelles offres de nombreux éditeurs. IBM soutient ce projet et l'embarque au sein de ses solutions. Informatica, Terradata, Talend se sont rapprochés de Cloudera, la société qui a choisi d'être l'Hadoop Entreprise ! Cloudera a levé 25 millions de dollars ; des spécialistes l'imaginent même être l'Oracle de demain.

Comme vous l'aurez sans doute soupçonné Hadoop permet de lancer des calculs sur des volumes très large de données. Hadoop met à la portée des entreprises mêmes de taille moyenne des composants qui font la force de Google.

Bien que Google ait abandonné cette méthode de calcul, seul Hadoop propose à ce jour une manière simple pour traiter de gigantesques volumes de données. Mis sur un pied d'estale cette nouvellte technologie possède quelques faiblesses, d'où l'abandon de cet algorithme par Google. Hadoop fonctionne en mode batch ! Si elle avait été en temps réel tout le monde le connaîtrait déjà... Même vous !

Basé sur un algorithme nommé Map Reduce, Hadoop s'appuie sur un cluster de machines, découpant le traitement des larges volumes de données depuis un nœud maître. Ce dernier distribue le calcul aux autres nœuds appelés alors nœuds de données et de calcul !

Architecture hadoop

 

Les entreprises de grande taille verront assez rapidement un intérêt à démarrer des projets dont le cœur sera Hadoop. Nous chez Altic, nous souhaitons que les toutes les entreprises puissent en bénéficier. C'est vrai, avec Cloudera l'installation d'Hadoop est déjà simplifiée. Et nous pensons que les années à venir vont apporter encore plus de performance et de simplification.

Maintenant, à quoi pourrait vous servir Hadoop ? Vous vous demandez si dans votre organisation vos données sont si volumineuses que ça ? Souffrez-vous d'entropie de données ? L'un de nos premiers métiers a été l'ERP. Un ERP est conserver 7 à 10 ans. Ca laisse le temps d'accumuler de la donnée. Si vos anciennes bases n'y répondaient pas Hadoop vous satisfera.

mapreduce hadoop

Pour ce qui est du data warehousing, Hadoop n'est pas encore assez performant.  Toutefois, il constitue une excellente zone de préparation dès lors que les volumes manipulés deviennent gigantesque. Aussi, chez Altic nous commençons à regarder HadoopDB. Il est question d'exploiter la distributivité de Hadoop et la puissance de calcul des bases de données qui emploient le "Massive Paralelle Processing"(1) et le "Shared Nothing"(2). En plus, pour offrir un vrai support aux projets de grands data warehouses HadoopDB dans sa prochaine mouture intègre des bases orientées colonnes : plus performantes et avec une meilleure compression des données.

Arcitecture hadoopDB

Dès lors que HadoopDB deviendra suffisamment mâture nous approcherons le rêve de certain : Informatique décisionnelle en temps réel ! SqlStream permet déjà d'agréger même des grands volumes de données en temps réel !

Massive Paralelle Processing(1) : http://en.wikipedia.org/wiki/Massive_parallel_processing

 

Shared Nothing(2)http://en.wikipedia.org/wiki/Shared_nothing_architecture

 

Tags: BigData

Rechercher sur le blog