Ingestion Framework

Von Markus Klose I 23 März 2018
Veröffentlicht in

In jedem Projekt, bei dem es um die Durchsuchbarkeit von Daten geht, ist die Anbindung der Datenquelle(n) eine der Herausforderungen. Dabei ist es unerheblich ob es sich um die klassische Enterprise Search handelt, oder um suchgetriebene Analytics Projekte. In diesem Blog werden wir aufzeigen wie man dieser Herausforderung bei Apache Solr begegnet.   Eine Typische […]

Weiterlesen
Blog der SHI GmbH

Release von Marple 1.0 – neues Lucene Index Tool

Von Markus Klose I 16 März 2017
Veröffentlicht in , ,

Dieser Blog ist eine kurze Einführung in das Tool „Marple“, einem neuen Lucene Index Tool. Es wird beschrieben, was Marple kann und was nicht, verglichen mit dem bisherigen Tool Luke. Bisher war Luke das Tool der Wahl, wenn es darum ging einen Solr/Lucene Index zu untersuchen ohne dabei Apache Solr zu konfigurieren. Seit einiger Zeit […]

Weiterlesen
Blog der SHI GmbH

SolrCloud – Cross Data Center Replication

Von Markus Klose I 09 Februar 2017
Veröffentlicht in , ,

Dieser Blog ist eine kurze Einführung in die CDCR (Cross Data Center Replication) Funktionalität von Solr. Es wird beschrieben, was CDCR ist, was CDCR nicht ist und wann man diese Funktionalität einsetzen kann. Die SolrCloud ist nun schon seit einigen Jahren das Mittel der Wahl, wenn es um eine verteilte Architektur im Zusammenhang mit Apache […]

Weiterlesen
Blog der SHI GmbH

Cloudera Morphlines – ETL Bibliothek für Apache Solr

Von Markus Klose I 21 September 2016
Veröffentlicht in , ,

Wie bekommt man in einem Big-Data Szenario seine Daten in Apache Solr? Eine gute Frage, denn Apache Solr bringt zwar im Standardumfang die Möglichkeit mit, Daten aus dem Dateisystem zu indexieren, aber Apache Solr kann beispielsweise kein HDFS crawlen. Verschärft wird das Problem noch durch die Tatsache, dass in Big Data Szenarien Daten oft unstrukturiert […]

Weiterlesen
Blog der SHI GmbH

Apache Solr DocTransformer – So einfach lässt sich die Trefferliste aufwerten

Von Markus Klose I 09 September 2016
Veröffentlicht in , ,

Die Qualität einer Suche hängt von der Trefferliste ab. Selbstverständlich erwartet der Anwender das „richtige“ Dokument an erster Stelle. Aber auch die Informationen, die in der Trefferliste je Dokument angeboten werden, sind wichtig. Bisher musste man alle Informationen, die man in der Trefferliste anzeigen möchte, auch im Index ablegen. Dies führt zu einem größeren Index, […]

Weiterlesen
Blog der SHI GmbH

Apache Solr 6.2

Von Markus Klose I 09 September 2016
Veröffentlicht in ,

Veröffentlicht am 09.09.2016 von Markus Klose Vor circa einer Woche, am 25. August 2016, wurde die neue Version 6.2 von Apache Solr veröffentlicht. Enthalten ist wie immer eine Reihe von Verbesserungen, Bugfixes und neuen Features. Eine der Neuerungen im neuen Release ist der Upgrade der Apache Tika Version von 1.7 nach 1.13. Somit unterstützt Apache […]

Weiterlesen
Blog der SHI GmbH

Apache NiFi MiNiFi – Agenten für die Daten-Extraktion

Von Markus Klose I 30 August 2016
Veröffentlicht in , ,

Veröffentlicht am 30.08.2016 von Markus Klose Apache NiFi MiNiFi. Hierbei handelt es sich nicht um einen Tippfehler, sondern um den Namen eines Unterprojektes von „Apache NiFi“, welches am 10.06.2016 in der Version 0.0.1 veröffentlicht worden ist. Mit Apache NiFi MiNiFi werden sogenannte Agenten für die Daten-Extraktion möglich. Agenten sind leichtgewichtige Programme mit der Aufgabe Daten […]

Weiterlesen
Blog der SHI GmbH

Scoring BM25

Von Markus Klose I 06 Mai 2016
Veröffentlicht in , ,

Das Release 6.0 von Apache Solr ist nun seit kurzem veröffentlicht. Mit dieser Version gibt es einige neue Funktionalitäten, aber auch einige teils gravierende Änderungen bestehender Funktionalitäten. Eine dieser Änderungen betrifft das Scoring. In Solr 6.0 ist der Default des Scoring-Mechanismus von der TF-IDF-Berechnung auf BM25 umgestellt worden.Im Januar hat meine Kollegin Patricia Kaufmann bereits […]

Weiterlesen
Blog der SHI GmbH

Dokumentverteilung in der SolrCloud

Von Markus Klose I 30 November 2015
Veröffentlicht in ,

Dokumentverteilung in der SolrCloud – Optimale Verteilung für optimale Suchperformance In einer SolrCloud werden die Dokumente auf alle verfügbaren Shards einer Collection verteilt. Dies geschieht mehr oder minder automatisch. Mit diesem Verteilen der Dokumente wird sichergestellt, dass die einzelnen Indexe nicht zu groß werden und die Suche somit performant bleibt. Bei einer Suche muss man […]

Weiterlesen
Blog der SHI GmbH

Apache Solr goes JSON

Von Markus Klose I 10 November 2015
Veröffentlicht in ,

Liest man die einschlägigen Dokumentationen zu Apache Solr, wird man immer wieder auf das sogenannte Solr XML stoßen. Mit diesem speziellen XML Format kann der Index leicht manipuliert werden. Viel mehr geht damit aber auch nicht. Seit einigen Versionen gibt es in Solr eine JSON API mit der man ebenfalls den Index manipulieren, aber auch […]

Weiterlesen