Data Science (Statistische Datenanalyse)

Data Science steht im Allgemeinen für die Extraktion von Wissen, d. h. für Entscheidungsprozesse nutzbare Informationen aus in der Regel großen Mengen an Daten. Allgemein gebräuchlich ist der Unterbegriff Data Mining. Unter Data Mining versteht man die systematische Anwendung statistischer Methoden auf große Datenbestände (insbesondere „Big Data“ bzw. Massendaten) mit dem Ziel, neue Querverbindungen und Trends zu erkennen. Die in diesem Bereich tätigen Fachleute werden oft als Data Scientist oder Datenwissenschaftler bezeichnet.

Data Science, Einsatzgebiete und Vorteile

Data Mining, die Analyse großer Datenmengen, ist heute aus der Unternehmenswelt nicht mehr wegzudenken. Insbesondere für betriebswirtschaftliche Optimierungen ist die Analyse statistischer Daten von großer Bedeutung. Einige Beispiele: Ein Versandhändler analysiert die häufigsten Gründe für Retouren und optimiert sein Angebot so, dass deren Häufigkeit reduziert wird. Eine Bank erstellt Statistiken über häufige Anpassungswünsche bei Krediten und deren Gründe und optimiert ihre Kreditbedingungen so, dass sie diesen Umständen Rechnung tragen. Ein produzierender Betrieb bildet seine Fertigungsprozesse als Simulation im Computer ab und erkennt Flaschenhälse und andere Schwachstellen. Diese Beispiele zeigen bereits, für welche Art von Unternehmen die statistische Datenanalyse interessant ist, nämlich für alle größeren Firmen in fast allen Branchen. Zum einen tritt dort am ehesten das Problem auf, dass die Geschäftsleitung die alltäglichen Vorgänge und Erfahrungen im Betrieb nicht im Blick hat. Zum anderen ist diese Art von Optimierung sehr kostenintensiv – Data Scientists gehören zu den bestbezahltesten Fachkräften der Welt und die zur Erfassung notwendige IT Infrastruktur ist recht umfangreich.

Welchen Fachgebieten ist Data Science zuzurechnen?

Grundsätzlich ist Data Science ein interdisziplinäres Berufsfeld. Zunächst einmal müssen die zu analysierenden Daten in einem geeigneten Format gespeichert werden. Dies ist in der Regel die Aufgabe von Informatikern. Zumindest die Grundlagen von relationalen Datenbanken (SQL) müssen beherrscht werden. Wenn die Datenmengen sehr groß sind oder die Art der Daten für eine Abbildung in einem relationalen Modell ungeeignet ist, kommen stattdessen oft sogenannte NoSQL Systeme zum Einsatz. Für die eigentliche Analyse müssen Verfahren entwickelt werden, wobei Mathematiker (vor allem Stochastiker) federführend sind. Die deskriptive Statistik dient dazu, methodisch gesammelte Daten (empirische Daten) die eine Verteilung oder Entwicklung charakterisieren mit Maßzahlen und Parametern grafisch darzustellen und zu beschreiben. Mit dieser Methodik können auch Zusammenhänge oder Wechselbeziehungen zwischen Vorgängen und Entwicklungen dargestellt werden (z.B. Rangkorrelationskoeffizient von Spearmen). Mittels der explorativen Datenanalyse (auch explorative Statistik genannt) werden aus vorliegenden Daten verwertbare Erkenntnisse gewonnen. Noch weiter geht die induktive Statistik, mit der man Aussagen zu der statistischen Wahrscheinlichkeit des Eintreffens eines Ereignisses machen kann. Die damit verwandte statistische Inferenz dient dazu, aus stichprobenweise gewonnenen Daten Rückschlüsse über den gesamten Bestand zu ziehen. Das mathematisch entwickelte Verfahren muss anschließend in einen maschinell ausführbaren Algorithmus umgesetzt werden. Für einfachere Aufgaben eignen sich Tools, die auch von Nicht Informatikern bedient werden können. Umfangreichere Projekte müssen mit speziellen Programmiersprachen realisiert werden. Data Science ist eine angewandte Wissenschaft. Um aussagekräftige Ergebnisse zu erzielen, müssen Spezialisten aus dem Fachgebiet einbezogen werden, in dem die Analyse erfolgt. Im klassischen Unternehmenseinsatz für die Geschäftsoptimierung wären das Betriebswirte. Im naturwissenschaftlichen oder technischen Bereich (z. B. bei Auswertungen medizinischer Daten) gilt der gleiche Grundsatz.