Big Data: Definition und Beispiele

Nicht erst seit gestern ist der Begriff Big Data in aller Munde und wird kontrovers diskutiert. Während Befürworter den großen Nutzen der durch Digitalisierung entstandenen Massendaten betonen, äußern Kritiker immer lauter ihre Datenschutzbedenken. Und spätestens seit „Whistleblower“ Edward Snowden und der Offenlegung diverser Spionage- und Überwachungspraktiken hat auch der private Nutzer Angst um seine persönlichen Daten. Was Bürger im Kontext mit Big Data hören und lesen, ist deshalb meist negativ besetzt. Dabei umfasst dies nur einen kleinen Aspekt von dem, was Big Data per Definition bedeutet.

Was ist Big Data?

„Big Data“ (= Massendaten) meint eine Datenmenge, die so komplex ist, dass mit ihr herkömmliche Soft- und Hardware auf den klassischen Wegen der Datenverarbeitung nicht mehr umgehen kann. Big Data ist an sich ein wertfreier Begriff, denn er kann sich z. B. auch auf unverfängliche Datenmengen aus der Forschung beziehen. Doch weil die gesammelten Daten auch personenbezogen sein können, etwa das Kommunikations- oder Konsumverhalten von Internetnutzern, ist der Begriff oft negativ konnotiert. Kritiker sehen durch die Sammlung und vor allem Auswertung dieser Daten Persönlichkeitsrechte verletzt.

Wie groß ist Big Data?

Der Begriff „Big Data“ bezieht sich nicht auf eine bestimmte Menge an Daten. Es gibt keine fest definierte Grenze, ab der Massendaten als Big Data zu bezeichnen sind. In der Praxis wird der Begriff aber oft als Synonym für Größen gewählt, die nicht mehr in Gigabyte zu messen sind.

Wie entsteht Big Data?

Der Datenumfang hat immense Ausmaße angenommen: Die Menge an Daten, die die Menschheit von Beginn an bis ins Jahr 2002 angesammelt hat, entstand 2014 schon innerhalb von nur zehn Minuten. Laut Prognosen wird dieser Datenberg weiter steigen und sich weltweit im Zweijahrestakt verdoppeln. Die Datenflut ergibt sich durch die steigende Digitalisierung aller Lebensbereiche. Big Data entsteht dabei durch das Zusammenführen verschiedener Datenquellen wie:

  • mobile Internetnutzung
  • Social Media
  • Geo-Tracking
  • Cloud Computing
  • Vitaldaten-Messung
  • Media-Streaming

Spricht man von Big Data, sind in der Regel nicht nur die Daten selbst, sondern auch deren Analyse und Nutzung gemeint. Man versucht Muster und Zusammenhänge zu finden und in den richtigen Kontext zu bringen. Die Herausforderung dabei ist nicht nur das riesige Datenvolumen, sondern auch die Datengeschwindigkeit und die Vielfalt der Informationen. Die Daten strömen ununterbrochen in einen unstrukturierten Pool. Sie sollen erfasst, gespeichert und verarbeitet werden, wenn möglich in Echtzeit. Um die Daten richtig lesen und in Zusammenhang bringen zu können, bedarf es einer ausgefeilten Dateninfrastruktur.

Wie gehe ich mit Big Data um?

Laut Big-Data-Definition sind die Datenmengen so umfangreich, dass normale Software schlichtweg überfordert ist und die übliche Technik die Menge nicht effizient verarbeiten kann. Beim Umgang mit Massendaten stellen sich also besondere technische Anforderungen an die verwendete Software. Nur spezielle Frameworks können die Daten analysieren. Die Software muss dafür möglichst viele Datensätze auf einmal verarbeiten und große Datenmengen schnellstmöglich importieren können. Außerdem sollte die Software die Datenmengen für den Anwender möglichst in Echtzeit zur Verfügung stellen und wenn nötig auch mehrere Datenbankanfragen gleichzeitig beantworten können.

Eine bekannte Open-Source-Lösung stellt z. B. Hadoop zur Verfügung. Wegen der hinreichend komplexen Implementierung ist diese jedoch meist nicht ohne die Hilfe von Experten, sogenannten Data Scientist, möglich. Zum Einstieg in den Bereich Big Data eignen sich aber auch Lösungen aus der Cloud. Verschiedene Anbieter werden in diesem Artikel vorgestellt.

Beispiele von Big-Data-Nutzung

Big Data wird in den unterschiedlichsten Lebensbereichen angewendet. Auch ganz alltägliche Dinge, die fast jeder Internetnutzer kennt, basieren darauf. Ein Beispiel für Big-Data-Auswertung aus dem Bereich Onlineshopping: Wer schon einmal im Internet eingekauft hat, kennt die Rubrik „Kunden, die das Produkt XY kauften, kauften auch“. Diese Empfehlungen entstehen aus der Auswertung von Millionen von Kaufdaten anderer Kunden.

Weitere Bereiche, in denen man von Big Data profitiert:

  • Medizinische Forschung: Durch die Auswertung von Massendaten können Mediziner die besten Therapielösungen und -pläne für Patienten finden.
  • Industrie: Dank der Nutzung eigener Maschinendaten können Unternehmen die Effizienz ihrer Produktion steigern und so nachhaltiger arbeiten.
  • Wirtschaft: Big Data ermöglicht es Unternehmen, ihre Kunden besser kennenzulernen und Angebote besser auf diese abzustimmen.
  • Energie: Um den Energieverbrauch auf individuelle Bedürfnisse zuzuschneiden, muss man diese Bedürfnisse kennen. Erhobene Verbrauchsdaten sorgen langfristig für eine nachhaltige Energieversorgung.
  • Marketing: Big Data wird im Marketing-Bereich oft zu Targeting-Zwecken genutzt. Ziel ist meist die Verbesserung der Customer-Relationship und eine Steigerung von Conversions bei verschiedenen Marketing-Maßnahmen.
  • Verbrechensbekämpfung: Auch Regierung und Staatsschutz greifen auf Big Data zurück – z. B. im Rahmen der Terrorismusbekämpfung.

Kritik an Big Data

Vielen Kritikern von Big Data geht es um den Datenschutz. Große Datenbestände bieten Potenzial für Unternehmen und Marken, dank Big Data kann man Marketing-Maßnahmen besser aussteuern. Doch mit den fürs Targeting verwendeten Datenmengen könnten auch präzise Nutzerprofile erstellt werden. Das sehen Datenschützer als Eingriff in die Privatsphäre der Nutzer. Wer mit Big Data arbeitet, muss Kunden bzw. Website-Besuchern in der Datenschutzerklärung auf die Verwendung personenbezogener Daten hinweisen.

Ein weiterer Kritikpunkt ist die „Alleinherrschaft über die Daten“. Denn natürlich gibt es auch im Big-Data-Bereich sogenannte Big Player. Das sind Unternehmen, die schon seit Jahren mit großen Datenbeständen arbeiten und Geld verdienen, z. B. Google oder andere Suchmaschinenprovider. So gewinnen einzelne Unternehmen eine große Datenhoheit. Diese Monopolstellung wird ebenso häufig kritisiert wie die Gefahr eines groß angelegten Datenmissbrauchs. Ohne klare Regelungen zum Schutz der Daten und Anonymisierung der verwerteten Datensätze ist der missbräuchliche Einsatz von User-Daten nicht ausgeschlossen.

Verantwortungsvoller Umgang mit Big Data

Trotz aller Kritikpunkte kann der Einsatz von Big Data sinnvoll sein – vorausgesetzt, die Technik wird korrekt eingesetzt. Einige wichtige Fortschritte, beispielsweise in der Krebsforschung, wären ohne Big Data nicht möglich gewesen. Energieversorgung und Verkehrswesen werden ebenfalls durch die Auswertung von Massendaten stetig optimiert und bieten dadurch mehr Sicherheit im Alltag. Doch trotz vieler Chancen in den Bereichen Medizin, Verkehrswesen und Wirtschaft stellen sich ethische Fragen. Denn die Vorhersehbarkeit bestimmter Ereignisse, z. B. ob jemand mit hoher Wahrscheinlichkeit eine bestimmte Krankheit bekommt, ist vielen unheimlich. Die Bevölkerung hat ihre Vorbehalte und bekommt so mehr und mehr Angst vor den sogenannten Datenkraken.

Dem will der deutsche Digitalverband Bitkom mit Leitlinien zum Big-Data-Einsatz entgegentreten. Anbieter und Anwender finden darin Empfehlungen für die verantwortungsvolle Nutzung von Big Data. Zentrale Themen sind der Datenschutz und die Wahrung der Privatsphäre von Nutzern. Darüber hinaus wird eine nachvollziehbare und transparente Datenverarbeitung und -nutzung empfohlen. Denn nur wenn Unternehmen ihre Praktiken offenlegen und für Transparenz sorgen, kann die Angst der Nutzer vor den Datenkraken umgangen und Vertrauen geschaffen werden.