Cloudera Hortonworks, le divorce !

Pendant de longues années, ils se sont chamaillés mais leurs solutions restaient relativement proches. Il semble qu’aujourd’hui, les chemins de Cloudera et Hortonworks se séparent.

Naissance commune chez Yahoo

On peut considérer que Google est à l’origine de Hadoop. La société a été la première à mettre en place un système de fichiers distribués GFS (qui a pris le nom de HDFS, une fois reversé dans la communauté Apache). Elle a également posé les bases de MapReduce dans une thèse célèbre (MapReduce: Simplified Data Processing on Large Clusters)

Les autres acteurs de l’Internet comme Facebook, Linkedin, Netflix ont également joué un rôle mais celui de Yahoo est particulier.

Doug Cutting, un ingénieur de chez Yahoo, a repris les idées de Google et a jeté les bases de Hadoop. D’autres projets, comme Pig, ont également émergé chez Yahoo.

Doug Cutting a ensuite rejoint en tant qu’architecte en chef la société Cloudera qui venait d’être fondée.

Un an plus tard, une équipe d’ingénieurs issus de Yahoo créent une nouvelle startup Big Data: Hortonworks était né.

Premières brouilles

Les autres distributions Hadoop sont peu nombreuses mais présentes sur des créneaux bien distincts. Amazon propose une solution packagée pour son cloud avec des outils bien spécifiques, MapR, une solution commerciale.

A contrario, les distributions Cloudera et Hortonworks s’appuient fortement sur l’open source.

Pour se différencier, les deux sociétés développent leur propre solution d’administration. Ce sera Cloudera Manager pour Cloudera et Ambari pour Hortonworks.

L’essor de Hadoop fait émerger de nouveaux besoins. On aimerait maintenant lancer des requêtes interactives avec des temps de réponse rapides. Hortonworks mise sur Tez, une solution 100% compatible Hive. Cloudera préfère investir sur Impala, une approche plus radicale mais avec de meilleures performances.

Ca bouge aussi sur le front de la sécurité. Hortonworks développe Knox et Ranger alors que Cloudera met en avant Sentry et Cloudera Navigator.

Malgré des choix différents, les deux distributions continuent de s’appuyer sur un socle commun: Hue, HDFS, Pig, Hive, HBase, Spark. Les versions de produits sont légèrement différentes entre les deux distributions mais il est tout à fait possible et simple d’envisager la migration des développements d’une distribution vers une autre.

La rupture est consommée

Cela ne devait plus durer.

Cloudera lance le projet Kudu, une solution de stockage optimisée pour permettre l’analyse performante de données en mouvement. En parallèle, Cloudera décide de remanier Hue et d’intégrer HCatalog dans Hive.

De son côté, Hortonworks, peut-être lassé par ces changements qui impactent sa distribution, décide de s’affranchir de Hue et lance Ambari Views.

Le choix est audacieux puisqu’il propose un accès aux outls de développement Pig et Hive via la solution maison d’administration.

Hortonworks lance également Zeppelin, un notebook web pour travailler notamment avec Spark.

Conclusion

Si le choix d’une distribution n’était pas essentiel il y a encore 2 ans, il le devient aujourd’hui. Les deux leaders du marché se distinguent maintenant sur les trois niveaux d’une distribution Hadoop: administration, sécurité, développement.

Compte tenu de l’évolution très rapide des solutions, la vraie difficulté sera sûrement de choisir l’acteur à même d’offrir la meilleure solution du moment mais aussi les meilleures innovations à venir.