Blog_Definition

Visualize your Solr – Part 1

Patricia Kraft

..., geboren 1988 in Augsburg, studierte Informatik und Multimedia an der Universität Augsburg. Nach dem Erreichen des Masters in diesem Fach stieg sie unmittelbar in die Suchbranche ein und begann 2015 ihre Karriere bei der SHI als Consultant für Search & Big Data. Durch das heterogene Arbeiten an Projekten – sowohl in der Beratung als auch in der Konzeption und Implementierung – erlangte sie einen umfassenden Überblick über alle Projekt-Phasen. Für den SHI-Blog teilt sie ihre Erfahrung aus zahlreichen Projekten in verschiedensten Branchen sowohl aus technischer als auch als aus unternehmerischer Sicht. Lieblingsdateiformat: JSON

Grab a banana

Sie sehen sich vor einem Berg kryptisch formulierter Log-Daten stehen, aus denen Informationen nur schwer zu extrahieren sind? Sie haben eine Idee zur Optimierung Ihrer Systeme, aber wissen nicht, wie Sie diese verifizieren und präsentieren können? Oder wollen Sie einfach mal herausfinden, welche Features Sie in Ihren Online-Shop einbauen könnten? Dann schnappen Sie sich eine Banana, springen Sie in den Zeppelin, browsen Sie durch Graphen und sehen Sie Garbage aus einer anderen View! Wie das geht, was das bringt und wem das hilft, erfahren Sie hier.

Der erste Teil dieser Blogserie startet fruchtig mit dem Visualisierungstool von Lucidworks namens Banana. Banana ist eine auf Apache Solr abgestimmte Auskopplung von Kibana und wurde seit der ersten Version umfassend weiterentwickelt. So wie alle anderen in dieser Reihe vorgestellten Werkzeuge, ist auch Banana ein Open Source Projekt und kann als solches kostenlos vollumfänglich sowohl eingesetzt als auch beliebig erweitert werden. Auf der GitHub-Seite steht der Source Code zum Download zur Verfügung. Auch Anleitungen zum Installieren und Integrieren der Software können an dieser Stelle nachgelesen werden.

Banana ist eine Webapplikation, die auf HTML, Javascript, CSS und AngularJS aufgebaut ist. Als solche ist das Tool in jeder Art von Webserver, wie beispielsweise Jetty oder Tomcat lauffähig. Da Banana speziell für Apache Solr konzipiert wurde, ist allerdings die einfachste Variante zur Verwendung von Banana die Integration in den Solr internen Webcontainer. Hierzu müssen Sie sich lediglich die neueste Banana-Version von GitHub klonen und in das passende Solr-Verzeichnis kopieren (/server/solr-webapp/webapp für die Standardkonfiguration von Solr). Danach können Sie ohne weitere Umwege auf die Applikation unter Verwendung Ihrer Solr-Basis-URL zugreifen (Solr-URL/banana/index.html).

Aber was können Sie mit Banana denn nun anstellen? Dass dieses Banana nicht essbar ist, sollte aus den ersten Zeilen bereits hervorgegangen sein. Sollten Sie also ein Hungergefühl verspüren, hoffe ich, dass es sich hierbei um Hunger nach technologischen Errungenschaften und faszinierenden Software-Lösungen handelt. Da sich diese Blogserie um Visualisierung handelt, lasse ich Banana sich nun vorerst in einem Bild selbst präsentieren:

Ob Log-Daten, Serverauslastungen, Nutzerstatistiken oder jedwede andere Art von gefilterten Auswertungen: Banana macht Ihre Daten sichtbar und verständlich.

Panel on!

Banana stellt Ihnen eine Reihe vorgefertigter Panel zur Verfügung, die Sie mit einfachen Klicks zu einem Dashboard zusammenfügen können. Jedes der Panel kann auf Konfigurationsebene granular eingestellt werden und verändert dadurch nicht nur die Datenmenge, die der Anzeige zugrunde liegt, sondern auch die Darstellungsweise an sich. So wird das Panel Terms beispielsweise zwar immer die Terme aus einem bestimmten Feld aus Solr auslesen, bietet zu deren Anzeige allerdings die Variationen Tabelle, Balken- oder Kuchendiagramm an. Je nach Anwendungsfall kann dabei die eine oder andere Anzeigeversion dem Zweck dienlicher sein.

Stellen Sie sich als Beispiel einfache Logdateien vor – bestehend aus Log-Level, Source IP und ausgeführter Methode. Für das Log-Level ist sicherlich die Verteilung am interessantesten – ein Kuchendiagramm, das deutlich die Anzahl an Fehlern oder Warnungen mit der Anzahl aller vorkommenden Logevents in Bezug setzt. Die Source IPs hingegen möchten Sie vielleicht eher nach ihrer Häufigkeit geordnet vorfinden, sodass die meist detektierte Source IP schnell identifiziert werden kann. Der vorher noch so perfekt passende Kuchen wird diese Aufgabe nur bedingt erfüllen, wohingegen ein Balkendiagramm eine schnelle Interpretation der Daten auf den ersten Blick ermöglichen wird. Da könnte man vermuten, dass die dritte Darstellungsmöglichkeit der Terme als Liste in einer Tabelle neben ihren bunten Gesellen verblasst – doch weit gefehlt! Visualisierung muss nicht immer bunt und bildlich sein, auch die richtige Anordnung und Darstellungsweise von Text kann komplexe Informationen aus Daten extrahieren und sowohl einfach als auch klar darstellen. Wollen Sie beispielsweise nur sichergehen, dass sich eine bestimmte kritische Methode nicht unter den Top-N-Aufrufen in Ihren Log-Daten wiederfindet, werden Sie dies in einer Tabelle gegebenenfalls besser verifizieren können als in einem aufwendigen Diagramm.

Click your analytics

Das zuvor genannte Beispiel-Panel ist bei Weitem nicht das einzige Panel, das Banana Ihnen anbietet. Ob zeitbezogene Analysen mit Histogramm und Timepicker, geographische Visualisierung mit Maps und Bettermaps oder aber einfach das gefilterte und aufs Wesentliche beschränkte Gesamtergebnis eingegebener Suchanfragen – Banana wird Ihnen eine Funktion für all das zur Verfügung stellen. Die richtige Wahl des Panels für A) Ihre Daten, B) Ihren Anwendungsfall und um C) Ihr angestrebtes Ziel zu erreichen, bleibt allerdings weiterhin Ihre Aufgabe. Und die richtige Visualisierungsmethode auszuwählen, kann durchaus entscheidend für den Ausgang einer Präsentation oder den Erfolg eines POCs sein. Richtig eingesetzt und angeordnet können Sie mit Hits, Terms, Tables, Maps, Scatterplots, Heatmaps, Facets und all den anderen Panels in jeder Geschäftsebene überzeugen. Und einmal konfiguriert ist die (End-)Benutzung der Dashboards so simpel wie wundervoll: Ein Klick hier, eine Suchanfrage da, ein Zoom dort und schon ist der Topseller des Monats identifiziert oder die größte Schwachstelle in der Produktionskette entlarvt.

A word at the end

Visualisierung macht Ihre Daten nicht nur sichtbar, sondern versieht das graue Rohmaterial mit Farbe und lässt so manche Information schlagartig klar erscheinen. Und das Investigationspotenzial, das ein gut aufbereitetes Dashboard in Banana hervorbringen kann, hat schon so manchen Techniker oder Manager zum Meisterdetektiv werden lassen.

Grab a banana – and visualize your Solr!

Weiterführende Links