Connexion

Connexion à votre compte

Identifiant
Mot de passe
Maintenir la connexion active sur ce site

Blog

Hadoop, Big Data, tout ce que vous auriez manqué

 

Chez Altic grâce à notre veille nous avons constitué une belle bibliothèque de liens. Elle s'enrichit aussi des contributions de partenaires qui aiment eux aussi partager des nouvelles fraîches qui ont un certain impact sur la vision que nous aurions d'une solution, d'une technologie. Ici nous voulons échanger avec vous quelques liens autour d'Hadoop. Il s'est passé tellement de choses récemment que nous estimons intéressant de les rappeler.


1. Presto, une couche SQL « interactif » pour Hadoop signé Facebook
 
Facebook est à l'initiative de Hive, la couche SQL pour Hadoop. Mais Hive, largement utilisé chez eux n'est pas très interactif, alors Presto vient corriger ça. Et bien entendu le gros contributeur open source qu'est Facebook n'a pas tarder à l'ouvrir... Il paraît même qu'ils sont allés voir les leaders des distributions Hadoop pour leur proposer le projet...

http://gigaom.com/2013/11/06/facebook-open-sources-its-sql-on-hadoop-engine-and-the-web-rejoices/
 
2. Hadoop Yarn
 
Il est certain que vous avez entendu parler d'Hadoop 2 ! Et bien tout ça c'est grâce à YARN ! Ainsi, la page Hadoop YARN d'Hortonworks’ explique le but de ce changement tant important de cette nouvelle approche qui sépare la gestion des ressources de celle traitements pour décupler les performances.

http://hortonworks.com/hadoop/yarn/
 
3. Ça ne tient pas dans Excel, ça ne signifie pas que c'est du Big Data
 
Un blog de Chris Stucchio nous explique que Hadoop ce justifie si l'on a plus de 5 To de données. 

http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

Microsoft avait aussi fait une étude qui montrait que la majorité des jobs par exemple chez Facebook ne traitaient en moyenne que quelques dizaines ou centaines de gigaoctets.

Le CEO de Qubole, du Hadoop as Services surtout avec la couche SQL, lui répond en montrant la flexibilité, l'évolutivité, et la versatilité d'Hadoop. D'autres diraient que ce n'est pas tant une question de volume, mais la rupture engendrée est tellement importante...

http://www.forbes.com/sites/ciocentral/2013/10/09/dont-use-hadoop-your-stovepipe-still-works/
 
4. Impala: une plateforme sql pour Hadoop inspiré de Google
 
Maintenant que Amazon Web Services a annoncé le support pour Impala, créé par Cloudera, ça mérite un peu d'attention.

Du coup, MapR fait mieux... Ils ont annoncé le support de toutes les couches SQL du monde Hadoop. Ca s'appelle ratisser large...

http://techcrunch.com/2013/12/15/impala-another-google-inspired-platform-enters-the-mainstream-data-world/
 
5. Le monsieur Big Data de Facebook pour vous servir
 
Johnathan Gray a lancé sa propre boîte ! Il est l'origine de Puma, une plateforme pour construire des « data-driven » applications qu'il a developpée lorsqu'il était chez Facebook.

http://www.wired.com/wiredenterprise/2013/10/continuuity/all/1
 
6. Améliorer les outils pour le Big Data
 
La nouvelle version d'Hadoop va permettre de gérer tous les types de traitements : batch, temps réel, transactionnel...

http://bits.blogs.nytimes.com/2013/09/17/improving-the-big-data-toolkit/?pagewanted=all
 
7. L'innovation dans les Big Data progresse grâce l'open source, peu d'espoir pour les propriétaires
 
Il y a un éléphant dans la pièce ! Attention, il va tout casser. Hadoop et les base de données NoSql changent réellement la donne... à tel point que certains ont déjà dévissé...

http://readwrite.com/2013/10/28/why-proprietary-big-data-technologies-have-no-hope-of-competing-with-hadoop#awesm=~owgfMHFtxs0p8b
 
8. YARN: dessine le futur d'Hadoop
 
Grâce à YARN, MapReduce n'est plus le seul paradigme pour traiter les données au sein d'Hadoop.

http://insideanalysis.com/2013/11/yarn-weaving-the-future-of-hadoop/
 
9. facile, rapide et peu cher pour traiter ses Big Data grâce au connecteur Google Cloud Storage Connector pour Hadoop
 
Il était déjà possible d'exploiter du Hadoop au sein de Google Compute Engine. Désormais on peut utiliser le système de fichiers de Google en lieu et place de HDFS pour des résultats bien meilleurs. Qui plus est l'infrastructure réseau de Google décuple là aussi les performances.

http://googlecloudplatform.blogspot.com/2014/01/easier-faster-lower-cost-big-data-processing-with-the-google-cloud-storage-connector-for-hadoop.html
 
10. Les Big Data ont un spectre bien plus large qu'on ne le pense

 Il existe encore de nombreux secteurs qui ne sont pas encore arrêter sur les impacts du Big Data sur leur métier...

http://www.informationweek.com/hardware/supercomputers/massively-parallel-processing-finds-more/240162707

 

Cet article a été inspiré et traduit à partir de celui de Qubole - http://www.qubole.com/hadoop-happening-series/

Rechercher sur le blog