Breakthrough in Big Data: 16X performance gains for Hadoop, delivering over 1.2 million operations per second

28 February, 2017 - 09:52

Läs på svenska

PRESSRELEASE 2017-02-28

On February 28th 2017, at USENIX FAST 2017, researchers from RISE SICS and KTH will present a next-generation distribution of Apache Hadoop File System, called HopsFS, that delivers a quantum leap in both the cluster-size and throughput compared to Hadoop clusters. Hadoop is the de facto open-source platform for Big Data. HopsFS delivers over 16 times the throughput of the Hadoop Filesystem (HDFS) for a real-world Hadoop workload from Spotify AB on the SICS ICE cluster. HopsFS’ key innovation is a novel distributed architecture for managing Hadoop’s metadata in MySQL Cluster, Oracle’s open-source NewSQL database. The result is a more scalable, reliable, and more customizable drop-in replacement for Hadoop.

The Hops platform is developed by the Distributed Computing Research Group that spans RISE SICS and KTH – Royal Institute of Technology in Stockholm led by Prof. Seif Haridi and Assoc. Prof. Jim Dowling. Hops is a fully-compatible Hadoop distribution – a platform that is used by companies such as Yahoo!, Facebook, and Spotify for the storage and processing of Big Data. In the paper to be presented at USENIX FAST, the Hops filesystem, HopsFS, is shown to scale to 1.2 million ops/sec on Spotify's Hadoop workload.

What’s unique to Hops is the use of an open-source distributed database for its metadata.

"In Hadoop, metadata is siloed away on the heap of a single Java Virtual Machine, limiting its size to a couple of hundred of GBs. In Hops, metadata is stored in MySQL Cluster and can scale out to many tens of nodes and tens of TBs of RAM. HopsFS’ 1.2 million ops/sec produced over 10 million ops/sec on MySQL Cluster. With the help our data center, SICS ICE, we were able to test and benchmark our platform at the scale needed", says Jim Dowling (image), Assoc. Prof in Distributed Systems at KTH and a Senior Researcher at RISE SICS.

"At SICS ICE, since mid-2016, we have been providing Hadoop-as-a-Service to researchers and companies in Sweden. SICS ICE is our 240 kW, 400 servers, 10000 cores, 10 petabytes storage research datacenter", says Tor Björn Minde, CEO of RISE SICS North AB.

A spin-off company, Logical Clocks AB, with co-founders including RISE SICS AB, and researchers at RISE SICS and KTH has been formed to commercialize the technology.

PRESSRELEASE 2017-02-28

Stort genombrott inom Big Data: 16 gånger bättre prestanda än Hadoop och mer än 1,2 miljoner operationer per sekund!

Den 28 februari 2017 presenterar forskare från RISE SICS och KTH nästa generations skalbara plattform för lagring och bearbetning av mycket stora datamängder, på den internationella toppkonferensen UNENIX FAST i Santa Clara. Den nya plattformen HopsFS arbetar mer än 16 gånger snabbare med en stor realistisk arbetslast från Spotify jämfört med standardplattformen Hadoop, som idag används av ledande företag över hela världen. Den uppseendeväckande prestandan kunde visas genom storskaliga tester på ett kluster i RISE SICS eget datacenter SICS ICE.

HopsFS har utvecklats gemensamt av forskare på RISE SICS och KTH, Kungliga Tekniska Högskolan i Stockholm, i samarbete med forskare på Spotify och Oracle, som en mer skalbar och tillförlitlig ersättare för filsystemet HDFS i den populära Big-Data-plattformen Apache Hadoop. Apache Hadoop används idag över hela världen och av ledande företag som Yahoo, Facebook och Spotify. I den vetenskapliga artikeln som presenteras beskrivs hur HopsFS nu kan arbeta med upp till 1,2 miljoner operationer per sekund på en arbetslast från Spotify, vilket är 16 gånger snabbare än i vanliga Hadoop.

Unikt för HopsFS är att använda en skalbar distribuerad databas för metadata, den information som systemet har om filerna, med hjälp av öppen-källkod-databasen MySQL Cluster från Oracle. I Hadoops HDFS hanteras metadata av en enda virtuell maskin i Java, vilket begränsar dess storlek till ett par hundra gigabyte. I HopsFS lagras detta i ett MySQL-kluster som kan skalas upp till många tiotals maskiner och hundra gånger större mängder metadata.

– Denna typ av forskning kräver tillgång till mycket stora beräkningsresurser för testning och utvärdering och där har vi unika möjligheter genom forskningsdatacentret SICS ICE i Luleå, säger Jim Dowling, docent i distribuerade system vid KTH och forskare vid RISE SICS.

– HopsFS erbjuder beräkningsmöjligheter av helt andra dimensioner än tidigare. Tack vare HopsFS kan vi nu på SICS ICE erbjuda världens mest skalbara Hadoop-as-a-Service till alla forskare och företag i Sverige, säger Tor Björn Minde, VD på RISE SICS North AB som driver forskningsdatacentret.

Ett avknoppningsföretag, Logical Clocks AB, med grundare från RISE SICS och KTH, har bildats för att kommersialisera den nya teknologin.