La deuxième conférence Hadoop World s’est tenue Mardi dernier, 12 Octobre à New-York. Plus de 1000 participants y étaient réunis pour ce qui est devenu de fait l’événement majeur consacré à cette technologie open-source, de plus en plus utilisée, dans des industries de plus en plus variées.
Côté ambiance, le cadre classique et chic de l’hotel Hilton de la 6ème avenue, une organisation efficace et sans fioritures, et des thématiques variées et pertinentes. L’introduction était assurée par deux keynotes majeurs, sur lesquels je reviens dans cet article, puis une trentaine de sessions de 30mn se succedèrent pendant la journée, laissant au participant le choix de la séance la mieux appropriée parmi 4 ou 5 sessions, selon ses thèmes de prédilection.
Les keynotes (de Mike Olson, puis Tim O’Reilly) étaient de grande qualité. L’élément principal qui en ressortait n’était pas tant l’importance d’Hadoop mais l’importance de la data. Voire la “big data“, celle qui se décline en pétabyte, exobyte, ou même zettabyte. La data est partout, et elle est un des éléments clé des innovations de fonds observées dans le web, mais également dans nombre d’industries “traditionnelles” (électricité, grande distirbution, banque, automobile..). Chaque année, le volume de données nouvellement créé est égal à la taille totale des données créées depuis l’invention de l’informatique. Plus rien ne se perd désormais: chaque interaction est stockée, permettant d’atteindre des mondes nouveaux en terme de profondeur d’analyse, et donc d’atteindre des stades nouveaux en matière d’intelligence business.

Tim O’Reilly consacrera d’ailleurs son keynote à un exercice de prospective assez bluffant. En recoupant des articles et des tendances décelées depuis 2006 avec des projets de R&D récents, il démontra de fort belle manière que la data est partout, que ses applications sont multiples, que certaines sont effrayantes, mais qu’un nouvel élan technologique est en train de se passer, de manière fondamentale, de la même manière que l’avènement du mobile en matière d’usage, ou que la finalisation de l’HTML 5 dans la production d’applications web/mobile.
Smart grid, médecine personnalisée, et analyse prédictive
Un exemple parmi tant d’autres, choisi exprès en dehors du secteur Internet. Il concerne le Smart-Grid, soit cette nouvelle manière de distribuer l’électricité, en permettant un échange bi-directionnel de l’information. Là où les compagnies d’électricité se contentent de distribuer de l’énergie à la demande, la Smart-Grid récupère en même temps les informations sur la distribution. En se basant sur ce principe, une société (suédoise, de mémoire), prépare un projet de R&D consistant à analyser de manière précise l’ensemble des courbes de consommation, puis d’y associer les “fingerprints” de la consommation éléctrique de chaque objet au monde. En effet, chaque objet a une empreinte électrique propre, une courbe spécifique si vous préférez, qui permet ainsi d’identifier les objets présent dans une habitation sans même y rentrer, et donc de communiquer avec, sans les identifier préalablement par IP.
Le keynote a débordé d’exemples de ce type, de la médecine personnalisée (construction de modèles d’utilisateurs liés à leur génotype, permettant le calcul automatique de la composition médicamenteuse la plus efficace pour guérir une maladie), à l’avènement de l’informatique sans clavier, l’informatique des capteurs. Enfin, impossible de ne pas mentionner l’informatique prédictive, et l’exemple de cette société qui a collecté l’ensemble des données relatives aux heures de départ et d’arrivée des avions, et qui est désormais capable de prédire les horaires de n’importe quel vol d’une manière si précise, que de plus en plus de compagnies aériennes utilisent désormais leurs services.
Des clusters de 114TB à 60PB, 115TB par noeud en moyenne
Mike Olson fera lui un état des technologies Hadoop, et appuyera sur la maturité de ces technologies, qui ont fortement bénéficié de l’investissement de très nombreuses sociétés, parmi lesquelles il faut citer Yahoo!, Twitter, eBay, Facebook comme contributeurs significatifs. Hadoop n’est plus une simple technologie de stockage et computation distribuée, elle devient un véritable écosystème technologique. Ainsi, le CEO de Cloudera, société de services dédiée à Hadoop et développant le CDH, un package open-source prêt à installer (“yum install hadoop”) et composé de l’ensemble des outils de cet écosystème, listera les nombreuses sociétés à établir des partenariats techniques et commerciaux dans le but de rendre leurs produits ou services compatibles avec l’élephant jaune. Ainsi, des sociétés de business intelligence traditionnelles comme MicroStrategy ou Oracle ont développé, ou sont en train de développer, des connecteurs pour Hadoop, comme autant de signes que nous sommes bien là devant un logiciel couche basse destiné à devenir la norme du stockage et computation de grande ampleur.

Quelques chiffres à retenir sur Cloudera: les clusters de leurs clients vont de 114TB à 60PB, il y a 66 noeuds en moyenne sur ces clusters, et une moyenne de 115 TB par noeud. Enfin, une des phrases marquantes de son keynote “Hadoop is not about cheap hardware, it’s about analytical power“.
Peut être qu’une autre phrase, de Tim O’Reilly cette fois, illustre encore mieux le message que les deux conférenciers ont voulu faire passer, et dont la fréquentation, deux fois plus importante que l’an dernier, atteste: “hackers play, entrepreneurs build products, entreprises follow“. Il semble que nous sommes bel et bien passés à la troisième étape. Et la présence en nombre d’executifs de sociétés côtées à Wall Street comme JP Morgan, Bank of America, General Electric et comparses, corrobore de fait cette hypothèse.
Dans un prochain article, je ferai le point sur les enseignements issus des différentes “breakout session”. En guise de teasing, je peux vous dire que la conférence de Facebook était très riche en informations.
Note: Si vous êtes dans le monde de la big data et rêvez de travailler sur un projet pleinement innovant, où Hadoop, HBase, Pig sont au coeur de l’écosystème technologique, le tout dans des conditions optimales, envoyez-moi un mail avec votre CV et le détail de votre expertise dans ces technologies. — cedric **at** sadai **point** net
credit photo: cloudera
Ces cinq dernières années ont vu l’avènement de mastodontes d’un nouveau type. Les Facebook, Youtube, et autres Twitter se sont développés à une vitesse phénoménale, un avènement se caractérisant entre autres par une explosion du volume (et de l’importance) des données stockées sur Internet.