SSL-Verwendung mit Apache Solr

Von Markus Klose I 09 September 2014
Veröffentlicht in ,

Bei Apache Solr gibt es grundlegend keine Sicherheitsmechanismen. Dies betrifft sowohl den Zugriff auf den Solr-Server selbst, als auch die einzelnen Dokumente. Natürlich gibt viele bewährte Workarounds hierfür. Beispielsweise kann man den Solr-Server im eigenen Netz so absichern, dass nur bestimmte Ports freigeschaltet werden. Für Dokumentsicherheit kann man ACL Informationen mit im Index abspeichern und […]

Weiterlesen

What’s new in Apache Solr – AnalyticsQuery

Von Daniel Wrigley I 27 Juni 2014
Veröffentlicht in ,

Diese Woche ist Apache Solr 4.9 veröffentlicht worden. Neben vielen Bug-Fixes und Verbesserungen gab es auch einige neue Funktionalitäten. Eine von den hervorstechenden Neuerungen ist die AnalyticsQuery API, die ich in diesem Blog kurz vorstellen werde. Was ist die AnalyticsQuery API und wie funktioniert sie? Die AnalyticsQuery ist im Grunde genommen eine Erweiterung bzw. Abstrahierung […]

Weiterlesen

Coming soon in Apache Solr – Re-Ranking

Von Daniel Wrigley I 17 Juni 2014
Veröffentlicht in ,

Apache Solr 4.9 steht in den Startlöchern. Daher wird es Zeit neue und spannende Funktionalitäten unter die Lupe zu nehmen. Eine der kommenden Neuerungen wird das sogenannte Re-Ranking sein, welches ich in diesem Blog beschreiben möchte. Re-Ranking Was ist Re-Ranking überhaupt und warum braucht man so was?Fangen wir erst einmal mit dem zweiten Punkt an: […]

Weiterlesen

Apache Stanbol – Einführung in den Contenthub

Von Johannes Brucher I 25 März 2014
Veröffentlicht in ,

In einem früheren Blog habe ich einen kurzen Einblick in Apache Stanbol und Named Entity Recognition (NER) gegeben. Die gezeigte Oberfläche war der Stanbol Enhancer. Er ist dafür zuständig, Entitäten im Fließtext zu erkennen.In diesem Beitrag will ich etwas näher auf den sogenannten Contenthub eingehen, der ebenfalls Teil von Apache Stanbol ist. Der Contenthub besteht […]

Weiterlesen

Monitoring mit Solr – Logstash to Solr

Von Markus Klose I 11 März 2014
Veröffentlicht in ,

Wie bereits im vergangenen Blog (Monitoring mit Solr) angedeutet, möchte ich hier nun auf die Möglichkeit eingehen, wie man Log-Dateien mittels Logstash verarbeiten kann, so dass diese anstelle in einem Elasticsearch Index in einem Solr Index landen.Logstash bietet eine Vielzahl von Plugins, sowohl für „input“, „filter“ oder „output“. Das Plugin für den Solr Output ist […]

Weiterlesen

Monitoring mit Solr

Von Markus Klose I 11 März 2014
Veröffentlicht in ,

Monitoring ist ein wichtiges Thema. Egal ob es sich um die technische Überwachung einer Serverlandschaft handelt oder beispielsweise um das Tracking des Userverhaltens beim Einkauf in einem Onlineshop. Es ist immer wichtig, gezielt nach Informationen wie Conversion-Rate oder CPU-Auslastung zu „suchen“, diese aufzubereiten und darzustellen.Sehr schnell kommt man bei diesem Thema mit dem ELK-Stack – […]

Weiterlesen

Document Routing in Solr – Update

Von Markus Klose I 21 Februar 2014
Veröffentlicht in ,

Mein Kollege Daniel Wrigley hatte vor gut einem Jahr bereits über das Document-Routing in Solr in einem Blogbeitrag berichtet. In diesem Jahr sind weitere Solr Versionen mit Anpassungen, Erweiterungen und neuen Features veröffentlicht worden. Die Änderungen betreffen auch das mit Solr 4.1 eingeführte Document Routing. Mit der Solr Version 4.5 wurde dieses Feature überarbeitet und […]

Weiterlesen

Der Hunspell Stemmer

Von Johannes Brucher I 03 Februar 2014
Veröffentlicht in , ,

In einem früheren Beitrag bin ich bereits etwas näher auf das Thema Stemming in der Analysekette von Solr (https://www.shi-gmbh.com/blog/solr-analysekette-stemming/) eingegangen. Neben der Bedeutung von Stemming für die Suchtechnologie habe ich auch den Einsatz des Porter-Stemmers in Solr beschrieben, ebenso wie die Erweiterungen durch den KeywordMarkerFilter (Wörter als Keywords markieren, um Stemming zu vermeiden) und den […]

Weiterlesen

Sortierung mal anders

Von Markus Klose I 16 Januar 2014
Veröffentlicht in ,

Die richtige Reihenfolge der Dokumente innerhalb der Trefferliste zu erreichen ist ein schwieriges Ziel. Da wird an allen Ecken und Enden geboostet, es wird der Relevanzalgorithmus umgeschrieben oder gar mit dem Elevate Feature gearbeitet. Trotz all dieser Möglichkeiten steht man oft vor der Situation, dass es dennoch nicht passt. In diesem Blog möchte ich auf […]

Weiterlesen

Einführung in Apache Stanbol

Von Markus Klose I 13 November 2013
Veröffentlicht in ,

Apache Stanbol gehört seit Oktober 2012 zu Apache Top-Level-Projekten. Das Projekt ist ein modulares Software-Paket mit einigen Komponenten, die es ermöglichen Inhalte semantisch anzureichern. Es wurde entwickelt, um mit Frameworks wie z.B. Apache Solr (zur semantischen Suche) oder Apache Tika (Extraktion von Inhalten und Metadaten) zusammenzuarbeiten. Dieser Blog wird eine kurze praktische Einführung hinsichtlich Anreicherung […]

Weiterlesen