Blog_allgemein

Solr 6 – coming soon

Patricia Kraft

..., geboren 1988 in Augsburg, studierte Informatik und Multimedia an der Universität Augsburg. Nach dem Erreichen des Masters in diesem Fach stieg sie unmittelbar in die Suchbranche ein und begann 2015 ihre Karriere bei der SHI als Consultant für Search & Big Data. Durch das heterogene Arbeiten an Projekten – sowohl in der Beratung als auch in der Konzeption und Implementierung – erlangte sie einen umfassenden Überblick über alle Projekt-Phasen. Für den SHI-Blog teilt sie ihre Erfahrung aus zahlreichen Projekten in verschiedensten Branchen sowohl aus technischer als auch als aus unternehmerischer Sicht. Lieblingsdateiformat: JSON

Die für das Frühjahr 2016 geplante Veröffentlichung der neuen Solr-Version 6 kann mit Spannung erwartet werden.
Zu vielen Verbesserungen und Erweiterungen vorhandener Funktionalitäten, verspricht Solr 6 einige neue Features zu beinhalten.
Dazu gehören parallele SQL-Abfragen, Graphen-Traversierung und ein neuer Scoring-Algorithmus zur Bewertung von Dokumenten in der Trefferliste.

Parallele SQL-Anfragen

Die Nachfrage nach einer Verschmelzung der Solr-Suche mit SQL-Syntax ist schon lange groß. Solr 6 soll sich nun dieser Sache annehmen.
Es wird die Möglichkeit schaffen, Collections der SolrCloud als relationale Datenbank-Tabellen aufzufassen und die Suche über SQL-Anfragen zu realisieren.
Die SolrCloud trägt durch Verteilung der Suchlast auf all ihre Mitglieder ferner dazu bei, dass diese SQL-Abfragen parallel bearbeitet werden können, was die Einhaltung von Performanz-Anforderungen sichert.

Graphen-Traversierung

Solr bietet über sogenannte Joins schon länger die Möglichkeit, Suchanfragen derart miteinander zu kombinieren, dass in einem Feld gespeicherte Referenzen auf andere Felder ausgewertet und in die Suche integriert werden können. Neu in Solr 6 wird nun eine Funktionalität hinzukommen, welche wiederholte Joins auszuführen vermag. Diese setzen Dokumente rekursiv zueinander in Beziehung und generieren so einen kompletten Graphen, welcher die Relationen zwischen den Dokumenten visualisiert. Anschaulicher wird dies eventuell an einem Beispiel: Seien in den einzelnen Dokumenten Daten von Personen gespeichert. Jedes Dokument soll ein Feld „Eltern_Id“ besitzen, in dem die Referenzen auf zwei andere Personen gespeichert sind. Führt man nun die Suchanfrage

q={!graph from=Eltern_Id to=Id}id:”Max Mustermann”

aus, wird ein Graph erstellt, welcher nicht nur die Eltern von Max Mustermann aufzeigt, sondern auch die Eltern seiner Eltern und deren Eltern und deren Eltern und so weiter, bis sein gesamter Stammbaum (in Abhängigkeit von den gespeicherten Daten) aufgebaut ist.

BM25 Scoring

Aktuell baut Solr zum Scoring der Dokumente innerhalb einer Trefferliste auf den sogenannten TF-IDF-Algorithmus, welcher anhand der Termfrequenz der Suchbegriffe und der inversen Dokumentenfrequenz entscheidet, an welcher Stelle ein Dokument in der Trefferliste erscheint. Solr 6 führt nun BM25 als neuen Scoring-Algorithmus ein. Die Berechnungen der beiden Algorithmen sind ähnlich, aber der BM25 erweitert die Möglichkeiten des TF-IDF. Er stellt zwei Parameter zur Verfügung, mittels derer der Nutzer in die Berechnung eingreifen kann. Das Besondere an der neuen Dokumentenbewertung wird sich darin zeigen, dass der Algorithmus feldtypbezogen konfigurierbar sein wird. So lassen sich die Parameter für jeden Feldtypen separat justieren und der Nutzer kann infolgedessen präziser auf die Kalkulation der Scoringwerte Einfluss nehmen.

Shalin Says …. – What’s Cooking in Solr 6