„The objective of the (business intelligence) system is to supply suitable information to support specific activities.“
— Hans Peter Luhn, IBM 1958
Lochkarten und visionäre Denker
Wahrscheinlich ist Hans Peter Luhn der erste gewesen, der den Begriff Business Intelligence verwendet hat. In seinem Paper „A Business Intelligence System“ hat der deutsche Informatiker in den Reihen von IBM beschrieben, wie Maschinen Informationen verarbeiten und Organisationen mit diesen Informationen Entscheidungen treffen können. Luhns Beitrag erschien im Oktober des Jahres 1958. Zwanzig Jahre vor der Entwicklung der ersten Personalcomputer.
Nach einfacher Definition verstehen wir unter Business Intelligence „Verfahren und Prozesse zur systematischen Sammlung, Auswertung und Darstellung von Daten“. Und wir sammeln immer mehr von diesen Daten. Während die Systeme, die diese Daten auswerten und darstellen, immer noch ausgefeilter werden. Business Intelligence as usual? Schließlich ist es bereits eine halbe Ewigkeit her, seit Luhns Beitrag im renommierten IBM Journal erschienen ist. Haben Daten die Wirtschaft transformiert?
Um den Transmissionsriemen hinter dem Wandel zu verstehen, taucht Philip Evans im TED-Vortrag „How data will transform business“ tief in den Maschinenraum der Wirtschaft ab. Und findet eine der großen Antriebswellen, durch die Unternehmen funktionieren, wie sie funktionieren. Während Skalen- und Verbundeffekte einst zu Unternehmenskonzentrationen geführt haben, reduziert das Internet schrittweise Transaktionskosten – und erzeugt so den gegenteiligen Effekt.
Traditionelle Wertschöpfungsketten werden instabil und brechen wieder auseinander. Small became beautiful, glaubt Evans. Und Big Data became Smart Data. Binnen kurzer Zeit speicherten wir 100 mal mehr Daten, wobei ein guter Teil dieser Daten im Internet über IP-Adressen mit wiederum anderen Daten verbunden ist. Der Effekt: 100 mal mehr solcher verbundener Daten produzieren 10.000 mal mehr Muster, die wir in solchen Daten erkennen können. Wissen entsteht durch Vernetzung. Auch in der Praxis?
Je mehr Geräte wir ans Netz schalten – Computer, Smartphones, Milliarden Internet of Things – desto mehr Daten sammeln wir. Knapp 30 Milliarden solcher Dinge werden im Jahr 2020 am Netz hängen, schätzen die Analysten von Goldman Sachs in: „The Internet of Things: Making sense of the next megatrend“. Sogar Traktoren. Sensoren, die die Welt ertasten.
„Most companies are capturing only a fraction of the potential value from data and analytics.“
–McKinsey
Dabei sammeln wir nicht einfach nur mehr Daten, sondern vor allem andere Daten. Der Begriff der „orthogonalen Daten“ macht in der Fachwelt die Runde. Damit sind Daten gemeint, die quasi in einem „rechten Winkel“ zu den bereits vorhandenen Daten eines Unternehmens stehen. Wenn eine KFZ-Versicherung zum Beispiel Telematikdaten über das Fahrverhalten seiner Versicherungsnehmer empfangen und mit persönlichen Daten verknüpfen kann, dann schärft das die Risikobeurteilung. Neue Risikofaktoren werden sichtbar. Gibt es etwa eine Korrelation zwischen dem Geschlecht und zu schnellem Fahren? Und wann führt zu langsames Fahren zu mehr Unfällen? Sogar neue Geschäftsmodelle können durch orthogonale Daten entstehen, denken die Analysten von McKinsey.
Potenziale über Potenziale? Die Unternehmensrealität sieht anders aus. Zumindest unter dem Mikroskop. Silo-Denke gepaart mit fehlender Analysekompetenz verhindert den schnellen Durchbruch von Business Intelligence auf breiter Ebene. Ausnahmen finden sich – wie sooft bei neuen Methoden – bei den Digital Natives. Bei Airbnb zum Beispiel. Im Headquarter in San Francisco versteht man, dass Silos zwar eine Herausforderung für die Wertschöpfung durch Business Intelligence sind. Aber eben auch, dass Business Intelligence ein Hebel sein kann, um bestehende Silos aufzubrechen. Wenn Daten demokratisiert werden, dann kann Wissen skalieren.
Wenn Mitarbeiter im Kollegenkreis mühsam veraltete Informationen zusammentragen, um daraus neue Informationen zu erstellen, die bald schon wieder veraltet sein werden, dann steckt das Unternehmen in einer Endlosschleife der Wissensproduktion fest. Je größer die Organisation ist, desto größer sind die Ineffizienzen.
Die Dosis macht das Gift: „It was apparent that we needed to develop a system that enabled a shift in thinking,“ schreibt Chris C Williams in: Democratizing Data at Airbnb. Dieses System ist bei Airbnb ein unternehmensinternes Wissensnetzwerk, welches Wissenseinheiten, Mitarbeiter sowie die Beziehungen von Information, Prozess und Mensch untereinander abbildet. Und dabei auch noch dynamisch überprüft, welche Informationen „online“ gehen dürfen. Wie eine neue Zeile Programmiercode.
„Low quality research manifests as an environment of knowledge cacophony, where teams only read and trust research that they themselves created.“
–Airbnb
Doch selbst viel einfachere BI-Systeme als das von Airbnb können Organisationen vor große Herausforderungen stellen. Das sogenannte Data Warehouse, das als Grundlage für die Analyse der Daten dient, steht auf einem wackligen Fundament, wenn der Zugang zu Informationen von Silo-Hütern erfolgreich verteidigt werden kann. Und mediokre Daten von Mitarbeitern mit fehlender Analysekompetenz verarbeitet werden müssen. Wissensbildung wird erstickt, bevor sie entstehen kann.
—
How To: Data Warehouse
Ein Interview mit Dr. Christian Schäfer
Moderne Visualisierungstools werben damit, einen guten Teil der Analysearbeit übernehmen zu können. Das klappt aber nur dann, wenn die Rohdaten sauber aufbereitet sind, sagt BI-Experte Dr. Christian Schäfer – und erklärt uns, wie das geht.
NW: Die Visualisierung von Daten ist Dank einer Vielzahl moderner Tools deutlich einfacher geworden. Sind wir heute nicht alle ein bisschen „Data Scientist“?
CS: Nur bedingt. Das teuerste Visualisierungswerkzeug ist nutzlos, wenn die Daten nicht solide aufbereitet wurden. Viele Visualisierungswerkzeuge werben zwar damit, dass sie Daten aus mehreren Datenquellen verbinden können. Das funktioniert aber nur bei sehr kleinen Datensätzen. Für die typischen Analysen in der Digitalindustrie, wie die Optimierung der Conversion-Funnels großer Online-Händler oder die Segmentierung unterschiedlichster Kundengruppen, sind diese Tools unbrauchbar. Solche Daten müssen in einem Data Warehouse vorbereitet werden. Zwar können die Tools von heute sogar Unzulänglichkeiten in Datensätzen ausgleichen. Aber dieses Flickwerk macht das gesamte System auf lange Sicht unwartbar. Auf einem sehr guten Datenmodell hingegen lassen sich sogar mit Open Source- Werkzeugen die notwendigen Datenvisualisierungen problemlos produzieren.
NW: Wie kommen die Daten eigentlich in das Data Warehouse?
CS: Im klassischen Data-Warehousing spricht man von ETL-Prozessen: Extract, Transform, Load. Die Daten werden also aus einer oder mehreren Datenquelle gezogen, umgeformt und in das Data-Warehouse geladen. In der Digi- talindustrie sind die eigenen Klickdaten normalerweise der größte ETL-Prozess. Hinzu kommen meist noch Daten aus den Produktbackends sowie zum Beispiel aus der Personal- und Buchhaltungssoftware. Der komplizierte Teil innerhalb von ETL ist in der Regel das T, also die Datentransformation. Denn die Daten müssen je nach Quelle gefiltert, gesäubert oder denormalisiert werden, damit Berichte und Visualisierungen auf ihnen aufbauen können. Das ist nicht nur ein technischer Prozess. Häufig muss das Wissen der Fach anwender in die Datentransformation einfließen, um die Daten korrekt aufzubereiten.
NW: Klingt kompliziert.
CS: Ist es auch. Deshalb fanden diese Transformationen früher sogar außerhalb der Datenbanken statt, um dort keine unnötige Last zu erzeugen. Das ist heute Dank moderner, verteilter Datenbanken nicht mehr unbedingt notwendig. Der Vorteil: die Fachlogik der Datentransformationen kann auch direkt in SQL implementiert werden. Damit lässt sich diese sowohl von Technikern als auch von Analysten warten – und problemlos auf eine andere Technologie portieren. Das ist ein wichtiger Aspekt, denn die totale Abhängigkeit von einem bestimmten Anbieter kann sich in horrenden Lizenzkosten niederschlagen. Damit die vorbereiteten Daten dann auch wirklich im Self-Service-Modus von den Mitarbeitern anderer Fachabteilungen genutzt werden können, sollten die Tabellen, Felder und Schemen zentral und eindeutig definiert werden. Die Definition der Felder muss klar sein.
„Die totale Abhängigkeit von einem bestimmten Anbieter kann sich in horrenden Lizenzkosten niederschlagen.“
–Dr. Christian Schäfer
NW: Und wie bereitet man die Daten für die anschließende Visualisierung vor?
CS: Bei der Analyse großer Datensätze geht es vor allem um Geschwindigkeit. Um diese zu gewährleisten, werden die Daten in ein sogenanntes Sternschema überführt. Im Zentrum steht dann eine Faktentabelle. Fakten sind Felder, die man zum Beispiel zählen und summieren kann. Drumherum sind Dimensionstabellen angeordnet. Hier werden die Fakten gruppiert. Ein Beispiel: Nehmen wir an, dass unsere Faktentabelle die Umsätze eines Unternehmens pro Datum enthält. Ferner gibt es eine Dimensionstabelle, die zu jedem Datum weitere Informationen vorhält, wie zum Beispiel die Kalenderwoche. Dank der Dimensionstabelle können wir also ausweisen, wie hoch der Umsatz in einzelnen Kalenderwochen gewesen ist. Das ist natürlich ein sehr einfaches Beispiel. In der Praxis können Dimensionstabellen sehr viel umfangreicher sein. Und in einem guten Data-Warehouse ist die Geschäftslogik des Business- Intelligence-Systems nahezu vollständig im Sternschema untergebracht.
NW: Die Geschäftslogik des Business Intelligence-Systems?
CS: Ein Beispiel: Ein Webshop möchte wissen, wie viele Nutzer sich bestimmte Warensegmente anschauen. Dafür muss irgendwo festgelegt werden, wie der Besuch des Nutzers gezählt wird und welche Waren zu welchen Segmenten gehören. Das erste sollte in der Faktentablle, das zweite in der Dimensionstabelle für Waren festgelegt sein. Egal, wer nun einen Bericht auf Basis dieser Daten baut, die Anzahl der Nutzer wird immer gleich berechnet und die Segmente heißen immer gleich. Es besteht also keine Gefahr, aus Unwissenheit Äpfel mit Birnen zu vergleichen.
Link-Tipps zum Thema BI von Dr. Christian Schäfer
*) Die meisten BI-Beiträge sind entweder kommerziell ausgerichtet, greifen schlichtweg zu kurz oder beleuchten Teilaspekte in hoher Detailtiefe. Diese Artikel können aber weiterhelfen: ETL-Prozesse, zum Sternschema sowie zur BI-Architektur
*) Folgende Produkte dienen der Datenvisualisierung: Looker, Qlik, Sisense und Tableau. Sie ermöglichen es selbst Fachanwendern ohne technisches Wissen, eigene Berichte auf der Basis vorhandener Datenquellen zusammenzuklicken.
*) Visualisierungswerkzeuge werden in der Regel mit Tools zur Datenintegration kombiniert oder bieten selbst Möglichkeiten der Datenintegration an, wie zum Beispiel: ↗Alteryx, ↗Talend oder ↗Pentaho.
—
Dass Aufbau und Wartung eines Data Warehouses in der Praxis Probleme bereitet, das zeigt sich auch in der Intensität, mit der die Netzwirtschaft Lösungen bejubelt, die diese Probleme beseitigen können. 18.000 Likes zum Beispiel bekam eine einfache Pressemitteilung von Amazon zum Launch der hauseigenen Data Warehouse-Lösung Redshift. Amazon-CTO Werner Vogels auf seinem Blog „All Things Distributed“: „Today, we are excited to announce the limited preview of Amazon Redshift, a fast and powerful, fully managed, petabyte-scale data warehouse service in the cloud.“ Ein Petabyte, das sind 1.000 terabyte oder 192 mal das Wissen der Library of Congress – oder ein MPEG4-Film, der in einer 53.000 Jahre langen Endlosschleife läuft. Wobei jedes Unternehmen so ein Petabyte haben kann. Zu einem Bruchteil der üblichen Kosten, dafür aber x-mal schneller als bisher. Amazon eben. Aber was bringt das dem Otto-Normal-Unternehmen?
An einem Mangel an Tools kann es nicht liegen, dass Unternehmen die Kraft der Daten nicht für sich nutzen können. Aus: Dresner Advisory Service: The Internet of Things and Business Intelligence (via Robert Bosch, Ströer). Um Wettbewerber mit Daten vom Markt zu werfen, dafür muss man schon ein GAFA sein. Aber auch sonst verspricht Business Intelligence eine Reihe knackiger Use Cases.
Wir konzentrieren uns auf das Segment, das laut McKinsey Business Intelligence-Potenziale am ehesten für sich zu nutzen weiß. Und landen, wie sooft, im E-Commerce. Immerhin 30 % bis 40 % der Möglichkeiten soll der Online-Handel bereits heben. US-Werte, die für den EU-Raum entsprechend gelten. Was sagen Unternehmen wie Adobe, MediaMarktSaturn und Zalando hierzu?
Feines Futter, Mails en Masse und die Rückkehr der Rabattmarke
Ein Grundproblem im E-Commerce: Online-Händler, die den Geschmack vieler Kunden treffen wollen, müssen ein umfangreiches Produktsortiment aufbauen. Andererseits muss der persönliche Geschmack jedes einzelnen Kunden bekannt sein und angesprochen werden. Sonst zieht’s die Konversionsrate runter und das Marketing wird schnell ineffizient. Wachstum folgt aus optimaler Sortimentserweiterung und differenzierten Vertriebsformen gleichzeitig. Ein Balanceakt, der in einigen Segmenten extrem schwierig ist. Zum Beispiel bei den Lebensmitteln.
„Mehr als 250.000 unterschiedliche Newsletter-Varianten versendet MediaMarktSaturn an seine drei Millionen Clubmitglieder. Der Effekt dieser Massen-Personalisierung: doppelter Umsatz.“
–MediaMarkSaturn
Von Glutenunverträglichkeiten bis Laktoseintoleranzen – wahrscheinlich gibt es mehr Abneigungen gegen und Vorlieben für einzelne Lebensmittel als Menschen auf dieser Erde. In diesem Kontext zu verstehen, wie ein Rezept entwickelt werden muss, das jedem einzelnen Kunden und damit allen zusammen schmeckt, ist die Aufgabe von Malte Schröder und dem Business Intelligence-Team bei HelloFresh.
Das Berliner Startup mit der außerbörslichen MilliardenBewertung analysiert, welche Zutaten die Kunden mögen oder eben nicht mögen. Und was die wichtigsten Erfolgsfaktoren bei der Rezepterstellung sind. „Mit diesen Erkenntnissen können unsere HelloFresh-Köche dann unser Produkt bzw. die Rezepte noch besser machen und noch enger an die Bedürfnisse der Kunden in den einzelnen Ländern anpassen,“ sagt Schröder.
Wenn das Sortiment bereits hinreichend breit ist, dann kann die Personalisierung alternativ auch über das Marketing erfolgen. Mehr als 250.000 unterschiedliche Newsletter-Varianten versendet zum Beispiel MediaMarktSaturn an seine mittlerweile drei Millionen Clubmitglieder.
Und die so umworbenen Kunden lassen fast doppelt so viel Geld im Elektro-Laden, wie ein herkömmlicher Kunde, verrät uns Christian Hess. Was Groupon einst mit mehr als fünf Milliarden Mails pro Woche vorgemacht hat, funktioniert also auch bei der Metro-Tochter: die massenweise Segmentierung der Newsletter-Werbung.
Fast noch spannender als der Erfolg selbst, ist hier aber der Weg zum Ziel: „Als wir mit dem MediaMarkt Club im Jahr 2016 in mehreren Ländern gestartet sind“, erzählt Hess, „hatten wir natürlich noch keinerlei Daten.“ Die Lösung: Man schnappte sich die Daten der Kollegen aus Italien. Die nutzten bereits seit 1999 ein Loyality-Program. Aus den anonymisierten Daten mit mehrjähriger Transaktionshistorie konnten das Business Intelligence-Team dann individualisierte Produktempfehlungen für Kunden in Deutschland, Holland, Belgien, Griechenland oder Schweden schätzen. „Mit Hilfe dieser Zwischenlösung gelang es uns, Sales-Uplifts zwischen 25 %–35 % zu realisieren“, berichtet Hess.
„Mit Zalando Media Solutions kapitalisieren wir die 97 Prozent unserer Reichweite, die wir nicht zu Käufern konvertieren können.“
— Zalando
Wer wie Zalando bereits 20 Millionen aktive Kunden in seiner Datenbank zählt, bei dem rückt die Neukundengewinnung in den Hintergrund. Der Wert der bestehenden Kunden soll entwickelt werden. Mit Gutscheinen und Rabatten in genau der richtigen Höhe. Geringer Kundenwert? Standard- Gutschein! Key Account? Darf es etwas mehr Gutschein sein, fasste Mirko Schlossmacher, Gutschein-Spezialist und Co-Founder der Agentur für Netzwirtschaft, die Vorgehensweise des Retailers griffig zusammen (siehe „Zum Goldenen Gutschein“).
Ganz ähnlich verfährt der Berliner Spielzeughändler Mytoys: „Eines der wesentlichen Ziele im Marketing ist die gezielte Aussteuerung von Incentives an unsere Kunden, um ihnen einen konkreten Mehrwert beim Einsatz von Gutscheinen oder Rabatten zu bieten“, verrät uns Saskia Schade. Die Rückkehr der Rabattmarke als Werttreiber im Online-Handel.
Machine Learning – und manuelles Handeln
Es könnte Arbeitsteilung bestehen zwischen dem Internet der Dinge und Machine Learning. Die bald 30 Milliarden Sensoren ertasten die Welt. Machine Learning macht Zusammenhänge zwischen wirtschaftlichen Zielgrößen und den gesammelten Daten sichtbar. Welche Risikofaktoren treten bei Autounfällen klumpenweise auf? Und welche Faktoren beeinflussen die Konversionsraten einer Landing Page? Machine Learning findet es heraus. Die Systeme futtern Daten und lernen dabei: selbständig.
„Machine learning is the subfield of computer science that gives computers the ability to learn without being explicitly programmed“, sagte Arthur Samuel, einer der Pioniere der Methodik schon 1959. Linkes Töpfchen oder rechtes Töpfchen? Insbesondere in der Klassifizierung ist Machine Learning einiges zuzutrauen. Je mehr, desto besser.
Knapp 1.000 Variablen seiner Kunden wertet zum Beispiel der Softwarehersteller Adobe aus, um zu verstehen, welcher seiner Kunden „bereit“ ist für den Vertrieb. Mit Erfolg. „Dass Business Intelligence in der Neukundenakquise bzw. im gesamten Sales-Bereich für einen signifikanten Uplift sorgen kann, beweisen wir mit unserer verbesserten Data Science Modeling-Methodik – allein 410.000 mal im letzten Jahr“, sagt uns der Ex-McKinsey-Mann Thomas Mayer im virtuellen Interview.
„We survived spreadsheets, and we’ll survive AI.“
— The Wall Street Journal
Hyper-Personalisierungen im Produkt und im Marketing sowie Predicitve Analytics – nur zwei Anwendungsfelder von Business Intelligence. Und je schlauer die Algorithmen werden, desto verlässlicher werden ihre Prognosen. Bis es uns Menschen gar nicht mehr braucht, so die Befürchtung vieler. Der Blogger Tim Urban von Wait but Why rechnet damit, dass Maschinen bereits um das Jahr 2025, also quasi übermorgen, schlauer sein werden als wir Menschen. Ben Thompson von Stratechery konkretisiert das Drama: es ist die generelle Intelligenz, die uns das fürchten lehrt – und die spezielle Intelligenz, die unsere Arbeitsplätze kosten wird. Ein beängstigendes Bild.
Information is beautiful
„Niemals wurden Ihnen Daten auf diese Art und Weise präsentiert. Mit der Dramatik und der Dringlichkeit eines Sportreporters entlarvt Statistikguru Hans Rosling den Mythos der sogenannten Entwicklungsländer“ – so bejubelt TED den Vortrag des schwedischen Statistikers Hans Rosling, der mit seiner Präsentation etwas erreicht hat, was Tausenden durchs Netz schwirrender Infografiken nie gelingen wird: informieren und dabei faszinieren.
Wobei mit Information eben nicht das bloße Aneinanderreihen von Fakten gemeint ist, sondern der Versuch, das Verständnisniveau des Fragenden zu erhöhen. Dafür muss erstmal die Ausgangsfrage bekannt sein. Und dann müssen Antworten gefunden werden, bevor man sie darstellen kann. Ein mühsamer Prozess, den nur wenige beherrschen. Und der im Ergebnis umso schöner ist, wenn er mal gelingt.
Zum Beispiel bei Edward R. Tufte, David McCandless (hier) und Hans Rosling (ebendort). Diese Meister ihres Faches sorgen dafür, dass wir Unterschiede erkennen und Zusammenhänge verstehen können. Und so Entscheidungen fällen können.
Wir sammeln zusammen: Drei einfache Visualisierungen aus fast drei Jahren Netzwirtschaft. Oder warum Digitalisierung alles verändert. Information can be beautiful – and extremely useful.