Prognosen zum Kundenverhalten (2)


07.03.2019, Lesezeit: ~3min

Zusammenfassung

Ein Lebensmittelgeschäft möchte Kunden, die ihre Website aufrufen, in eine von zwei Kategorien einteilen. Sie sind sehr daran interessiert, Kunden diesen Gruppen korrekt zuzuordnen. Erfolg kann zu einer Umsatzsteigerung führen, aber eine falsche Zuordnung kann dazu führen, dass Personen die Website verlassen, ohne einen Kauf zu tätigen. Das BI-Team von Cards & Systems erläutert diesen Anwendungsfall näher.

Das beschriebene Problem ist ein Klassifizierungsproblem - das Unternehmen möchte die Käufer in eine von zwei möglichen Kategorien einteilen. Es handelt sich auch um ein überwachtes Lernproblem, was bedeutet, dass es einen Datensatz gibt, die so genannten Trainingsdaten, bei denen die Klassen bereits bekannt sind.

In diesem Fall wurde die logistische Regression gewählt, um das Problem zu lösen. Dies ist ein maschineller Lernalgorithmus, der binäre Klassifizierungsprobleme wie das in diesem Projekt löst. Während andere Algorithmen für sehr große Datensätze etwas besser funktionieren können, wird die logistische Regression als eine gute Wahl angesehen, wenn es wenig Daten gibt, um eine Kategorie von der anderen zu unterscheiden, wie wir es in diesem Projekt erwarten könnten.

Es gibt viele Alternativen zum logistischen Regressionsalgorithmus. Ein Beispiel ist ein Random Forest Algorithmus. Dieser Algorithmus kategorisiert die Daten anhand einer Reihe von Entscheidungen. Diese können als Fragen betrachtet werden, bei denen die einzig möglichen Antworten "ja" oder "nein" sind. Zum Beispiel: "Hat der Käufer nach Schinken gesucht? Wenn es einen großen Unterschied in der Anzahl der Personen in jeder Kategorie gab, könnte sich Random Forest als genauer erweisen als die logistische Regression, aber in diesem Fall war das Klassenungleichgewicht nicht groß genug, um diese Wahl zu treffen.

In diesem Projekt wurde ein Nachbearbeitungsschritt hinzugefügt, um die Ergebnisse zu erklären. Der Algorithmus LIME (Local Interpretable Model-Agnostic Explanations) wurde verwendet, um die wichtigsten Merkmale zu finden, die zu den Klassifizierungen beitragen, die sich aus dem trainierten logistischen Regressionsalgorithmus ergeben. In diesem Schritt ist das Wort lokal der Schlüssel - es wird auf jeden Käufer unabhängig angewendet, so dass für jeden Fall ein anderer Satz von Funktionen beitragen kann. Dennoch können anhand einer repräsentativen Stichprobe von Käufern einige einfache Geschäftsregeln ausgearbeitet werden, die die Entscheidungsfindung beschleunigen können. So ist beispielsweise der Kauf von Meerrettich - auch wenn es sich um ein Gemüse handelt - in den meisten Fällen ein Indikator für Käufer, die in die Fleischkategorie eingeordnet sind.

Nach der Schulung des logistischen Regressionsalgorithmus gibt er Informationen für jeden Käufer aus. Diese Ausgabe ist im folgenden Beispiel zusammengefasst:

Wahrscheinlichkeit von "Fleisch": 31%,

Wahrscheinlichkeit von "vegan": 69%.

Diese Wahrscheinlichkeitsschätzungen können als Teil der Lösung dieses Problems verwendet werden. Dazu wird ein Schwellenwert gewählt. Wenn die Wahrscheinlichkeit des ausgewählten Labels über dem Schwellenwert liegt, wird die zugehörige Aktion angezeigt. Unterschreitet er jedoch den Schwellenwert, bleibt das neutrale Banner auf dem Bildschirm.

Wie bereits im vorherigen Blog erläutert, möchte das Unternehmen ganz sicher sein und hat daher eine Schwelle von 75% festgelegt. Betrachtet man das obige Beispiel, so ist die Wahrscheinlichkeit, dass das vegane Label niedriger als dieser Wert ist, so wird die Promotion nicht angezeigt. Die Wahrscheinlichkeit ist einfach nicht hoch genug, um die Chancen zu riskieren, ein unangemessenes Angebot zu zeigen.

In einem zweiten Beispiel beträgt die Wahrscheinlichkeit von "Fleisch" 88% und die Wahrscheinlichkeit von "vegan" 12%. Hier liegt die Wahrscheinlichkeit von "Fleisch" deutlich über der vom Unternehmen festgelegten Schwelle. Sie beschließen daher, diesem Shopper das Fleisch-Promotion-Banner zu zeigen, da die Wahrscheinlichkeit, dass sie die falsche Entscheidung treffen, gering ist.

Im nächsten Blog werden wir zeigen, wie die Visualisierungs-Software Tableau genutzt werden kann, um einige der Daten und Erkenntnisse in diesem Projekt zu visualisieren, und wie die Visualisierung von Daten der Schlüssel zum Verständnis ist. In Teil 4 gibt unser BI-Marketing-Team seine Sichtweise auf das Projekt und seinen Nutzen für den Kunden wieder.

Dr. Fern Watson

Data Scientist

  • Teilen:

We keep you informed

Mit unserem Blog-Newsletter informieren wir Sie regelmäßig über Spannendes, Ungewöhnliches, Neues & Kommendes aus der IT-Welt.

We keep you informed

Mit unserem Blog-Newsletter informieren wir Sie regelmäßig über Spannendes, Ungewöhnliches, Neues & Kommendes aus der IT-Welt.

Kontakt