Viele Anwendungen erzeugen große Datenmengen, aus deren Auswertungen sich business-relevante Aussagen ziehen lassen. Doch die Auswertung immenser Datenmengen benötigt passende Plattformen mit adäquaten technischen Kapazitäten und Möglichkeiten. Für Analysen und Prozessierung sowie das Streaming von Massendaten ist MapReduce weit verbreitet. Das MapReduce Framework besteht aus einer Suite verschiedener Tools, die Aufgaben wie Datenaufnahme, -ablage, -streaming und -analyse übernehmen.
MapReduce Service (MRS) auf der Open Telekom Cloud erzeugt komplette Cluster mit separaten Funktionen für Datenspeicherung und -verarbeitung. Alle Cluster-Management-Funktionen werden via REST-API oder durch Konsolenzugriff ausgelöst (Erzeugung, Konfiguration, Erweiterung, Verkleinerung, Durchsuchung). Diese können – je nach Wahl des Szenario integriert oder separat arbeiten. Bei der Nutzung von Hadoop Distributed File Systems (HDFS) ist die simultane Speicherung und Prozessierung möglich. Dieses Szenario eignet sich für einen kontinuierlichen oder häufigen Einsatz. Sollen Daten nur gelegentlich ausgewertet werden, empfiehlt sich der Einsatz von Object Storage, der eine geringere Übertragungsgeschwindigkeit bietet. MRS bietet folgende Analyse- und Datenmanagement-Tools: HBase, Hive, Spark, Hadoop, Loader. Eine weitere Komponente der Suite ist Zookeeper. Als Streaming-Dienste stehen Kafka, Storm, Carbon Data, Flume zur Verfügung. Der Dienst wird stundengenau abgerechnet (VMs inklusive Lizenzen für Software-Images) plus Kosten für Datenspeicherung.