Articles taggés "hadoop"

Poste par Cedric Sadai, le 19/10/10 - Technologie

La deuxième conférence Hadoop World s’est tenue Mardi dernier, 12 Octobre à New-York. Plus de 1000 participants y étaient réunis pour ce qui est devenu de fait l’événement majeur consacré à cette technologie open-source, de plus en plus utilisée, dans des industries de plus en plus variées.

Côté ambiance, le cadre classique et chic de l’hotel Hilton de la 6ème avenue, une organisation efficace et sans fioritures, et des thématiques variées et pertinentes. L’introduction était assurée par deux keynotes majeurs, sur lesquels je reviens dans cet article, puis une trentaine de sessions de 30mn se succedèrent pendant la journée, laissant au participant le choix de la séance la mieux appropriée parmi 4 ou 5 sessions, selon ses thèmes de prédilection.

Les keynotes (de Mike Olson, puis Tim O’Reilly) étaient de grande qualité. L’élément principal qui en ressortait n’était pas tant l’importance d’Hadoop mais l’importance de la data. Voire la “big data“, celle qui se décline en pétabyte, exobyte, ou même zettabyte. La data est partout, et elle est un des éléments clé des innovations de fonds observées dans le web, mais également dans nombre d’industries “traditionnelles” (électricité, grande distirbution, banque, automobile..). Chaque année, le volume de données nouvellement créé est égal à la taille totale des données créées depuis l’invention de l’informatique. Plus rien ne se perd désormais: chaque interaction est stockée, permettant d’atteindre des mondes nouveaux en terme de profondeur d’analyse, et donc d’atteindre des stades nouveaux en matière d’intelligence business.

Tim Oreilly, Hadoop World 2010

Tim O’Reilly consacrera d’ailleurs son keynote à un exercice de prospective assez bluffant. En recoupant des articles et des tendances décelées depuis 2006 avec des projets de R&D récents, il démontra de fort belle manière que la data est partout, que ses applications sont multiples, que certaines sont effrayantes, mais qu’un nouvel élan technologique est en train de se passer, de manière fondamentale, de la même manière que l’avènement du mobile en matière d’usage, ou que la finalisation de l’HTML 5 dans la production d’applications web/mobile.

Smart grid, médecine personnalisée, et analyse prédictive

Un exemple parmi tant d’autres, choisi exprès en dehors du secteur Internet. Il concerne le Smart-Grid, soit cette nouvelle manière de distribuer l’électricité, en permettant un échange bi-directionnel de l’information. Là où les compagnies d’électricité se contentent de distribuer de l’énergie à la demande, la Smart-Grid récupère en même temps les informations sur la distribution. En se basant sur ce principe, une société (suédoise, de mémoire), prépare un projet de R&D consistant à analyser de manière précise l’ensemble des courbes de consommation, puis d’y associer les “fingerprints” de la consommation éléctrique de chaque objet au monde. En effet, chaque objet a une empreinte électrique propre, une courbe spécifique si vous préférez, qui permet ainsi d’identifier les objets présent dans une habitation sans même y rentrer, et donc de communiquer avec, sans les identifier préalablement par IP.

Le keynote a débordé d’exemples de ce type, de la médecine personnalisée (construction de modèles d’utilisateurs liés à leur génotype, permettant le calcul automatique de la composition médicamenteuse la plus efficace pour guérir une maladie), à l’avènement de l’informatique sans clavier, l’informatique des capteurs. Enfin, impossible de ne pas mentionner l’informatique prédictive, et l’exemple de cette société qui a collecté l’ensemble des données relatives aux heures de départ et d’arrivée des avions, et qui est désormais capable de prédire les horaires de n’importe quel vol d’une manière si précise, que de plus en plus de compagnies aériennes utilisent désormais leurs services.

Des clusters de 114TB à 60PB, 115TB par noeud en moyenne

Mike Olson fera lui un état des technologies Hadoop, et appuyera sur la maturité de ces technologies, qui ont fortement bénéficié de l’investissement de très nombreuses sociétés, parmi lesquelles il faut citer Yahoo!, Twitter, eBay, Facebook comme contributeurs significatifs. Hadoop n’est plus une simple technologie de stockage et computation distribuée, elle devient un véritable écosystème technologique. Ainsi, le CEO de Cloudera, société de services dédiée à Hadoop et développant le CDH, un package open-source prêt à installer (“yum install hadoop”) et composé de l’ensemble des outils de cet écosystème, listera les nombreuses sociétés à établir des partenariats techniques et commerciaux dans le but de rendre leurs produits ou services compatibles avec l’élephant jaune. Ainsi, des sociétés de business intelligence traditionnelles comme MicroStrategy ou Oracle ont développé, ou sont en train de développer, des connecteurs pour Hadoop, comme autant de signes que nous sommes bien là devant un logiciel couche basse destiné à devenir la norme du stockage et computation de grande ampleur.

Mike Olson, Hadoop 2010
Quelques chiffres à retenir sur Cloudera: les clusters de leurs clients vont de 114TB à 60PB, il y a 66 noeuds en moyenne sur ces clusters, et une moyenne de 115 TB par noeud. Enfin, une des phrases marquantes de son keynote “Hadoop is not about cheap hardware, it’s about analytical power“.

Peut être qu’une autre phrase, de Tim O’Reilly cette fois, illustre encore mieux le message que les deux conférenciers ont voulu faire passer, et dont la fréquentation, deux fois plus importante que l’an dernier, atteste: “hackers play, entrepreneurs build products, entreprises follow“. Il semble que nous sommes bel et bien passés à la troisième étape. Et la présence en nombre d’executifs de sociétés côtées à Wall Street comme JP Morgan, Bank of America, General Electric et comparses, corrobore de fait cette hypothèse.

Dans un prochain article, je ferai le point sur les enseignements issus des différentes “breakout session”. En guise de teasing, je peux vous dire que la conférence de Facebook était très riche en informations.

Note: Si vous êtes dans le monde de la big data et rêvez de travailler sur un projet pleinement innovant, où Hadoop, HBase, Pig sont au coeur de l’écosystème technologique, le tout dans des conditions optimales, envoyez-moi un mail avec votre CV et le détail de votre expertise dans ces technologies. — cedric **at** sadai **point** net

credit photo: cloudera

Poste par Cedric Sadai, le 11/10/10 - Technologie

Ces cinq dernières années ont vu l’avènement de mastodontes d’un nouveau type. Les Facebook, Youtube, et autres Twitter se sont développés à une vitesse phénoménale, un avènement se caractérisant entre autres par une explosion du volume (et de l’importance) des données stockées sur Internet.

Ces acteurs, dont les applications étaient bâties initialement sur des technologies grand public, souvent Open-source, ont initié une vague successive d’innovations, ayant vocation à résoudre les problèmes concrets qui se posaient à eux.

Parmis ces problèmes, la gestion des grandes masses de données. Facebook représente ainsi plus de 300Tb de nouveaux logs quotidiens, et nécessite des milliers de traitements asynchrones par batch. Reposer sur les technologies traditionnelles pose donc très rapidement des problèmes insurmontables de performance, comme en témoignent les multiples downs de Facebook en 2008, à l’époque ou les données étaient encore stockées sur la base de données relationnelle et peu scalable MySQL.

La solution apportée en 2007 par les géants de l’industrie, Yahoo! en tête, se nomme Hadoop. Distribuée sous license Apache, cette solution, écrite en Java, permet de stocker des fichiers de manière distribuée, c’est à dire sur un cluster de serveurs, et non plus sur un seul disque dur, duquel étaient bricolées des réplications.  Cette architecture permet une scalabilité d’un nouveau type, puisqu’il “suffit” d’ajouter des serveurs au cluster pour démultiplier les possibilités de stockage et de calcul. En effet, Hadoop dispose également d’un framework “Map/Reduce“, méthode par laquelle il est possible d’appliquer des traitements par batch (du calcul) sur des milliards de données, le tout, également de manière distribuée. C’est l’avènement des “commodity hardware architecture”, modèle inventé et éprouvé par Google, selon lequel il vaut mieux bâtir une architecture serveur sur des machines à bas cout, en agrégeant leurs capacités de calcul, plutôt que de reposer sur des machines couteuses, sans capacité d’évolution, et au cout de maintenance énorme.

Le décor posé, on se rend compte alors des enjeux d’Hadoop. Technologie récente (2007), mais qui évolue rapidement grâce à la contribution multiple des principaux acteurs du monde des “BigData”, excepté Google, qui repose exclusivement sur des technologies propriétaires.

La conférence Hadoop World, organisée par Cloudera, se tient cette semaine à New-York, où je suis actuellement afin d’y assister. Cette conférence est l’occasion de faire un point sur les derniers développement d’Hadoop, mais également sur son écosystème, très riche et dynamique (Hive, Pig, Flume, Zookeeper, etc..).

Les géants s’y sont donnés rendez-vous, et les conférences vont se succéder toute la journée de demain, avec des sessions variées, techniques ou business, couvrant les différents champs d’application de la technologie: du stockage et analyse de clickstream, à la business intelligence, en passant par le machine learning.

Je posterai sur ce blog cette semaine une série d’articles relatant le contenu des différentes conférences. Je live-twitterai également la conférence sur mon compte Twitter @yeahscience. Stay tuned.