Solr 6 – coming soon

27 Januar 2016

Search, Technologie/Software-Entwicklung

Die für das Frühjahr 2016 geplante Veröffentlichung der neuen Solr-Version 6 kann mit Spannung erwartet werden.
Zu vielen Verbesserungen und Erweiterungen vorhandener Funktionalitäten, verspricht Solr 6 einige neue Features zu beinhalten.
Dazu gehören parallele SQL-Abfragen, Graphen-Traversierung und ein neuer Scoring-Algorithmus zur Bewertung von Dokumenten in der Trefferliste.

Parallele SQL-Anfragen

Die Nachfrage nach einer Verschmelzung der Solr-Suche mit SQL-Syntax ist schon lange groß. Solr 6 soll sich nun dieser Sache annehmen.
Es wird die Möglichkeit schaffen, Collections der SolrCloud als relationale Datenbank-Tabellen aufzufassen und die Suche über SQL-Anfragen zu realisieren.
Die SolrCloud trägt durch Verteilung der Suchlast auf all ihre Mitglieder ferner dazu bei, dass diese SQL-Abfragen parallel bearbeitet werden können, was die Einhaltung von Performanz-Anforderungen sichert.

Graphen-Traversierung

Solr bietet über sogenannte Joins schon länger die Möglichkeit, Suchanfragen derart miteinander zu kombinieren, dass in einem Feld gespeicherte Referenzen auf andere Felder ausgewertet und in die Suche integriert werden können. Neu in Solr 6 wird nun eine Funktionalität hinzukommen, welche wiederholte Joins auszuführen vermag. Diese setzen Dokumente rekursiv zueinander in Beziehung und generieren so einen kompletten Graphen, welcher die Relationen zwischen den Dokumenten visualisiert. Anschaulicher wird dies eventuell an einem Beispiel: Seien in den einzelnen Dokumenten Daten von Personen gespeichert. Jedes Dokument soll ein Feld „Eltern_Id“ besitzen, in dem die Referenzen auf zwei andere Personen gespeichert sind. Führt man nun die Suchanfrage

q={!graph from=Eltern_Id to=Id}id:”Max Mustermann”

aus, wird ein Graph erstellt, welcher nicht nur die Eltern von Max Mustermann aufzeigt, sondern auch die Eltern seiner Eltern und deren Eltern und deren Eltern und so weiter, bis sein gesamter Stammbaum (in Abhängigkeit von den gespeicherten Daten) aufgebaut ist.

BM25 Scoring

Aktuell baut Solr zum Scoring der Dokumente innerhalb einer Trefferliste auf den sogenannten TF-IDF-Algorithmus, welcher anhand der Termfrequenz der Suchbegriffe und der inversen Dokumentenfrequenz entscheidet, an welcher Stelle ein Dokument in der Trefferliste erscheint. Solr 6 führt nun BM25 als neuen Scoring-Algorithmus ein. Die Berechnungen der beiden Algorithmen sind ähnlich, aber der BM25 erweitert die Möglichkeiten des TF-IDF. Er stellt zwei Parameter zur Verfügung, mittels derer der Nutzer in die Berechnung eingreifen kann. Das Besondere an der neuen Dokumentenbewertung wird sich darin zeigen, dass der Algorithmus feldtypbezogen konfigurierbar sein wird. So lassen sich die Parameter für jeden Feldtypen separat justieren und der Nutzer kann infolgedessen präziser auf die Kalkulation der Scoringwerte Einfluss nehmen.

Shalin Says …. – What’s Cooking in Solr 6

Solr 6 – coming soon

Parallele SQL-Anfragen

Graphen-Traversierung

BM25 Scoring

Patricia Kraft

Das könnte Sie auch interessieren:

Wenn KI die Bildersuche verbessert – Methoden, Technik und Anwendungsbereiche

KI- & Python-Integration in Apache NiFi – Der Gamechanger für moderne Plattformen

Screenreader NVDA als Linux-Entwickler nutzen