Blog
Eine der großen Herausforderung bei der Umsetzung einer Enterprise-Search ist die Anbindung der unterschiedlichsten Datenquellen. Jede Quelle hat ihre eigenen Schnittstellen, internen Strukturen und Daten bzw. Meta-Daten. Des Weiteren besitzen die Datenquellen eigene Sicherheitsmechanismen um den Zugriff auf die einzelnen Dokumente zu regeln.Möchte man nun eine Enterprise-Search Applikation mit Solr umsetzen steht man vor eben […]
WeiterlesenEinstieg in Apache Solr Wie man richtig mit Apache Solr kocht? Diese Frage beantwortet Rafal Kuc in der aktuellen Ausgabe seines Apache Solr Cookbooks. In „Solr Cookbook Third Edition“ beschreibt er typische Probleme bzw. Anwendungsfälle und deren Lösungen. Das Buch richtet sich an Entwickler, die bereits Hintergrundwissen zu Apache Solr mitbringen. Für diejenigen, die noch […]
WeiterlesenIst Ihr Search Cluster wirklich (ausfall)sicher??? Jepsen beweist es!!! Viele Anbieter und Produkte werben damit, dass große, skalierbare und performante Search Cluster leicht zu erstellen und zu warten sind. Weder mit Apache Solr noch mit Elasticsearch ist dies eine große Herausforderung. Beide Such-Server bieten eine ausgereifte API um neue Collections anzulegen, zu löschen, Aliase zu […]
WeiterlesenDie sogenannten „Saved Searches“ sind eine Suchtechnik, bei der ein Anwender seine Suche „speichern“ kann. Jede Änderung im Index wird mit den Saved Searches abgeglichen. Sobald ein Produkt auf diese Suche passt, wird der Anwender (beispielsweise durch eine E-Mail) benachrichtigt. Dies ermöglicht ein nachträgliches Finden von Produkten, Artikeln etc. Diese Technik lohnt sich vor allem […]
WeiterlesenDass Suche mittlerweile mehr ist, als nur das Auffinden von Dokumenten, die ein Suchwort beinhalten, ist längst kein Geheimnis mehr. Ebenso ist hinlänglich bekannt, dass es hierfür Lösungen gibt, die sehr weit ausgereift sind. Dies sind nicht nur Lösungen kommerzieller Natur, sondern auch kostenlose Open Source Varianten, wie Apache Solr, die unübertroffene Skalierbarkeit zeigen. Daher […]
WeiterlesenBei Apache Solr gibt es grundlegend keine Sicherheitsmechanismen. Dies betrifft sowohl den Zugriff auf den Solr-Server selbst, als auch die einzelnen Dokumente. Natürlich gibt viele bewährte Workarounds hierfür. Beispielsweise kann man den Solr-Server im eigenen Netz so absichern, dass nur bestimmte Ports freigeschaltet werden. Für Dokumentsicherheit kann man ACL Informationen mit im Index abspeichern und […]
WeiterlesenDiese Woche ist Apache Solr 4.9 veröffentlicht worden. Neben vielen Bug-Fixes und Verbesserungen gab es auch einige neue Funktionalitäten. Eine von den hervorstechenden Neuerungen ist die AnalyticsQuery API, die ich in diesem Blog kurz vorstellen werde. Was ist die AnalyticsQuery API und wie funktioniert sie? Die AnalyticsQuery ist im Grunde genommen eine Erweiterung bzw. Abstrahierung […]
WeiterlesenApache Solr 4.9 steht in den Startlöchern. Daher wird es Zeit neue und spannende Funktionalitäten unter die Lupe zu nehmen. Eine der kommenden Neuerungen wird das sogenannte Re-Ranking sein, welches ich in diesem Blog beschreiben möchte. Re-Ranking Was ist Re-Ranking überhaupt und warum braucht man so was?Fangen wir erst einmal mit dem zweiten Punkt an: […]
WeiterlesenIn einem früheren Blog habe ich einen kurzen Einblick in Apache Stanbol und Named Entity Recognition (NER) gegeben. Die gezeigte Oberfläche war der Stanbol Enhancer. Er ist dafür zuständig, Entitäten im Fließtext zu erkennen.In diesem Beitrag will ich etwas näher auf den sogenannten Contenthub eingehen, der ebenfalls Teil von Apache Stanbol ist. Der Contenthub besteht […]
WeiterlesenWie bereits im vergangenen Blog (Monitoring mit Solr) angedeutet, möchte ich hier nun auf die Möglichkeit eingehen, wie man Log-Dateien mittels Logstash verarbeiten kann, so dass diese anstelle in einem Elasticsearch Index in einem Solr Index landen.Logstash bietet eine Vielzahl von Plugins, sowohl für „input“, „filter“ oder „output“. Das Plugin für den Solr Output ist […]
Weiterlesen