Blog
Wie bekommt man in einem Big-Data Szenario seine Daten in Apache Solr? Eine gute Frage, denn Apache Solr bringt zwar im Standardumfang die Möglichkeit mit, Daten aus dem Dateisystem zu indexieren, aber Apache Solr kann beispielsweise kein HDFS crawlen. Verschärft wird das Problem noch durch die Tatsache, dass in Big Data Szenarien Daten oft unstrukturiert […]
WeiterlesenDie Qualität einer Suche hängt von der Trefferliste ab. Selbstverständlich erwartet der Anwender das „richtige“ Dokument an erster Stelle. Aber auch die Informationen, die in der Trefferliste je Dokument angeboten werden, sind wichtig. Bisher musste man alle Informationen, die man in der Trefferliste anzeigen möchte, auch im Index ablegen. Dies führt zu einem größeren Index, […]
WeiterlesenVeröffentlicht am 30.08.2016 von Markus Klose Apache NiFi MiNiFi. Hierbei handelt es sich nicht um einen Tippfehler, sondern um den Namen eines Unterprojektes von „Apache NiFi“, welches am 10.06.2016 in der Version 0.0.1 veröffentlicht worden ist. Mit Apache NiFi MiNiFi werden sogenannte Agenten für die Daten-Extraktion möglich. Agenten sind leichtgewichtige Programme mit der Aufgabe Daten […]
WeiterlesenIn diesen Tagen wird ein neues Minor-Release von Lucidworks Fusion veröffentlicht. Dieses bietet neben allgemeinen Verbesserungen natürlich auch einige Ansätze, die widerspiegeln was aktuelle Trends im Bereich Search und Big Data im Allgemeinen sind: Datenmodellierung, Indexierung von zeitbasierten Daten (Log-Events, von Usern generierte Daten, Tweets etc.) und bessere Integration von Tools im Bereich Machine Learning. […]
WeiterlesenDas Release 6.0 von Apache Solr ist nun seit kurzem veröffentlicht. Mit dieser Version gibt es einige neue Funktionalitäten, aber auch einige teils gravierende Änderungen bestehender Funktionalitäten. Eine dieser Änderungen betrifft das Scoring. In Solr 6.0 ist der Default des Scoring-Mechanismus von der TF-IDF-Berechnung auf BM25 umgestellt worden.Im Januar hat meine Kollegin Patricia Kaufmann bereits […]
WeiterlesenAnfangen, die Kunden kennen zu lernen Die Customer Journey ist ein in Marketingkreisen häufig genannter Begriff, der den Weg eines Kunden bis zum Kaufabschluss beschreibt. Nicht nur Global Player wie Amazon analysieren diese, um ihre Kunden besser zu verstehen und dieses Wissen gewinnbringend einsetzen zu können. Es handelt sich hierbei um ein zentrales Thema, sodass […]
Weiterlesen„Daten sind wie Rohöl!“ – Es steckt viel Potenzial in ihnen, aber man muss es erst herausholen.Heutzutage wird für die „Veredlung“ von Daten oft auf Software wie Splunk oder Nagios zurückgegriffen. Mit solchen Tools können Daten, wie beispielsweise Log Dateien, verarbeitet und vor allem visualisiert werden, d.h. mit Diagrammen, Charts usw. können beispielsweise Trends besser […]
WeiterlesenEine der großen Herausforderung bei der Umsetzung einer Enterprise-Search ist die Anbindung der unterschiedlichsten Datenquellen. Jede Quelle hat ihre eigenen Schnittstellen, internen Strukturen und Daten bzw. Meta-Daten. Des Weiteren besitzen die Datenquellen eigene Sicherheitsmechanismen um den Zugriff auf die einzelnen Dokumente zu regeln.Möchte man nun eine Enterprise-Search Applikation mit Solr umsetzen steht man vor eben […]
WeiterlesenIn einem früheren Beitrag bin ich bereits etwas näher auf das Thema Stemming in der Analysekette von Solr (https://www.shi-gmbh.com/blog/solr-analysekette-stemming/) eingegangen. Neben der Bedeutung von Stemming für die Suchtechnologie habe ich auch den Einsatz des Porter-Stemmers in Solr beschrieben, ebenso wie die Erweiterungen durch den KeywordMarkerFilter (Wörter als Keywords markieren, um Stemming zu vermeiden) und den […]
Weiterlesen