Blog der SHI GmbH

Cloudera Morphlines – ETL Bibliothek für Apache Solr

Von Markus Klose I 21 September 2016
Veröffentlicht in , ,

Wie bekommt man in einem Big-Data Szenario seine Daten in Apache Solr? Eine gute Frage, denn Apache Solr bringt zwar im Standardumfang die Möglichkeit mit, Daten aus dem Dateisystem zu indexieren, aber Apache Solr kann beispielsweise kein HDFS crawlen. Verschärft wird das Problem noch durch die Tatsache, dass in Big Data Szenarien Daten oft unstrukturiert […]

Weiterlesen
Blog der SHI GmbH

Apache Solr DocTransformer – So einfach lässt sich die Trefferliste aufwerten

Von Markus Klose I 09 September 2016
Veröffentlicht in , ,

Die Qualität einer Suche hängt von der Trefferliste ab. Selbstverständlich erwartet der Anwender das „richtige“ Dokument an erster Stelle. Aber auch die Informationen, die in der Trefferliste je Dokument angeboten werden, sind wichtig. Bisher musste man alle Informationen, die man in der Trefferliste anzeigen möchte, auch im Index ablegen. Dies führt zu einem größeren Index, […]

Weiterlesen
Blog der SHI GmbH

Apache NiFi MiNiFi – Agenten für die Daten-Extraktion

Von Markus Klose I 30 August 2016
Veröffentlicht in , ,

Veröffentlicht am 30.08.2016 von Markus Klose Apache NiFi MiNiFi. Hierbei handelt es sich nicht um einen Tippfehler, sondern um den Namen eines Unterprojektes von „Apache NiFi“, welches am 10.06.2016 in der Version 0.0.1 veröffentlicht worden ist. Mit Apache NiFi MiNiFi werden sogenannte Agenten für die Daten-Extraktion möglich. Agenten sind leichtgewichtige Programme mit der Aufgabe Daten […]

Weiterlesen
Blog der SHI GmbH

Fusion 2.3

Von Daniel Wrigley I 09 Mai 2016
Veröffentlicht in , ,

In diesen Tagen wird ein neues Minor-Release von Lucidworks Fusion veröffentlicht. Dieses bietet neben allgemeinen Verbesserungen natürlich auch einige Ansätze, die widerspiegeln was aktuelle Trends im Bereich Search und Big Data im Allgemeinen sind: Datenmodellierung, Indexierung von zeitbasierten Daten (Log-Events, von Usern generierte Daten, Tweets etc.) und bessere Integration von Tools im Bereich Machine Learning. […]

Weiterlesen
Blog der SHI GmbH

Scoring BM25

Von Markus Klose I 06 Mai 2016
Veröffentlicht in , ,

Das Release 6.0 von Apache Solr ist nun seit kurzem veröffentlicht. Mit dieser Version gibt es einige neue Funktionalitäten, aber auch einige teils gravierende Änderungen bestehender Funktionalitäten. Eine dieser Änderungen betrifft das Scoring. In Solr 6.0 ist der Default des Scoring-Mechanismus von der TF-IDF-Berechnung auf BM25 umgestellt worden.Im Januar hat meine Kollegin Patricia Kaufmann bereits […]

Weiterlesen
Blog der SHI GmbH

Customer Journey Analytics im E-Commerce

Von Daniel Wrigley I 11 September 2015
Veröffentlicht in , ,

Anfangen, die Kunden kennen zu lernen Die Customer Journey ist ein in Marketingkreisen häufig genannter Begriff, der den Weg eines Kunden bis zum Kaufabschluss beschreibt. Nicht nur Global Player wie Amazon analysieren diese, um ihre Kunden besser zu verstehen und dieses Wissen gewinnbringend einsetzen zu können. Es handelt sich hierbei um ein zentrales Thema, sodass […]

Weiterlesen
Blog der SHI GmbH

Log Visualisierung mit Lucidworks Fusion – Alles unter einem Dach

Von Markus Klose I 28 Mai 2015
Veröffentlicht in , ,

„Daten sind wie Rohöl!“ – Es steckt viel Potenzial in ihnen, aber man muss es erst herausholen.Heutzutage wird für die „Veredlung“ von Daten oft auf Software wie Splunk oder Nagios zurückgegriffen. Mit solchen Tools können Daten, wie beispielsweise Log Dateien, verarbeitet und vor allem visualisiert werden, d.h. mit Diagrammen, Charts usw. können beispielsweise Trends besser […]

Weiterlesen
Blog der SHI GmbH

Flexibles Connector-Framework in Solr Integrieren – Lucidworks Fusion macht’s möglich

Von Markus Klose I 15 März 2015
Veröffentlicht in , ,

Eine der großen Herausforderung bei der Umsetzung einer Enterprise-Search ist die Anbindung der unterschiedlichsten Datenquellen. Jede Quelle hat ihre eigenen Schnittstellen, internen Strukturen und Daten bzw. Meta-Daten. Des Weiteren besitzen die Datenquellen eigene Sicherheitsmechanismen um den Zugriff auf die einzelnen Dokumente zu regeln.Möchte man nun eine Enterprise-Search Applikation mit Solr umsetzen steht man vor eben […]

Weiterlesen

Der Hunspell Stemmer

Von Johannes Brucher I 03 Februar 2014
Veröffentlicht in , ,

In einem früheren Beitrag bin ich bereits etwas näher auf das Thema Stemming in der Analysekette von Solr (https://www.shi-gmbh.com/blog/solr-analysekette-stemming/) eingegangen. Neben der Bedeutung von Stemming für die Suchtechnologie habe ich auch den Einsatz des Porter-Stemmers in Solr beschrieben, ebenso wie die Erweiterungen durch den KeywordMarkerFilter (Wörter als Keywords markieren, um Stemming zu vermeiden) und den […]

Weiterlesen