Der Hunspell Stemmer

Von Johannes Brucher I 03 Februar 2014
Veröffentlicht in , ,

In einem früheren Beitrag bin ich bereits etwas näher auf das Thema Stemming in der Analysekette von Solr (https://www.shi-gmbh.com/blog/solr-analysekette-stemming/) eingegangen. Neben der Bedeutung von Stemming für die Suchtechnologie habe ich auch den Einsatz des Porter-Stemmers in Solr beschrieben, ebenso wie die Erweiterungen durch den KeywordMarkerFilter (Wörter als Keywords markieren, um Stemming zu vermeiden) und den […]

Sortierung mal anders

Von Markus Klose I 16 Januar 2014
Veröffentlicht in ,

Die richtige Reihenfolge der Dokumente innerhalb der Trefferliste zu erreichen ist ein schwieriges Ziel. Da wird an allen Ecken und Enden geboostet, es wird der Relevanzalgorithmus umgeschrieben oder gar mit dem Elevate Feature gearbeitet. Trotz all dieser Möglichkeiten steht man oft vor der Situation, dass es dennoch nicht passt. In diesem Blog möchte ich auf […]

Einführung in Apache Stanbol

Von Markus Klose I 13 November 2013
Veröffentlicht in ,

Apache Stanbol gehört seit Oktober 2012 zu Apache Top-Level-Projekten. Das Projekt ist ein modulares Software-Paket mit einigen Komponenten, die es ermöglichen Inhalte semantisch anzureichern. Es wurde entwickelt, um mit Frameworks wie z.B. Apache Solr (zur semantischen Suche) oder Apache Tika (Extraktion von Inhalten und Metadaten) zusammenzuarbeiten. Dieser Blog wird eine kurze praktische Einführung hinsichtlich Anreicherung […]

Warum semantisch Suchen?

Von Johannes Brucher I 29 Oktober 2013
Veröffentlicht in ,

Semantische Suche ist in aller Munde und hat in den letzten Jahren einen erheblichen Sprung gemacht, was Ihre Bedeutung im Rahmen von Suchtechnologie angeht.Doch was ist Semantische Suche eigentlich? Um diese Frage zu beantworten, ist es notwendig zu verstehen, was Semantik im sprachwissenschaftlichen Sinne bedeutet. Semantik ist die Lehre der Bedeutung. Hierbei geht es also […]

Solr Ping Request Handler – mehr als nur Status prüfen

Von Markus Klose I 24 Oktober 2013
Veröffentlicht in ,

Wozu brauch man eigentlich den Solr PingRequestHandler? Diese Frage wird oft gestellt, denn um den Status eines SolrCore zu ermitteln kann man auch eine „normale“ Suchanfrage absetzen und das Ergebnis auswerten. Der PingRequestHandler wird im Allgemeinen unterschätzt. In diesem Blog werde ich auf PingRequestHandler und seinen Einsatz genauer eingehen. Der PingRequestHandler JA, der PingRequestHandler prüft […]

Solr ist Schemaless

Von Daniel Wrigley I 06 Oktober 2013
Veröffentlicht in ,

Beim Vergleich von Solr mit Elasticsearch wird fast immer darauf hingewiesen, dass Elasticsearch schemaless ist. „Schemaless“ bedeutet, dass man direkt, ohne eine vorhergehende Konfiguration, mit der Indexierung loslegen kann und dass das Framework das Mapping von Daten zum Datentyp übernimmt. Bei Solr hingegen muss man immer erst die schema.xml-Datei anpassen, bevor man eigene Daten indexieren kann.Seit […]

Cluster Monitoring mit Elasticsearch-head

Von Daniel Wrigley I 21 August 2013
Veröffentlicht in ,

Die Standardinstallation von Elasticsearch kommt ohne Admin-Oberfläche daher. Dies ist auch völlig ausreichend für den einfachen Betrieb einer Elasticsearch-Installation oder auch für die Entwicklung von neuer Suchfunktionalität. Für den administrativen Betrieb und für die Überwachung eines Clusters bietet Elasticsearch zwar viele APIs, die entsprechende Informationen als JSON-Objekte bereitstellen, jedoch reicht das nicht, um sich einen […]

Shard Splitting in Solr

Von Daniel Wrigley I 14 August 2013
Veröffentlicht in ,

Eines des größten Mankos bei der SolrCloud war das Fehlen der Möglichkeit bestehende Indexe zu teilen, wenn diese zu groß und somit bei der Suche zu inperformant geworden sind. In so einem Fall blieb nur den Index komplett neu aufzubauen, was im schlimmsten Fall zu einer Downtime der Suche führen konnte. Mit dem Solr Release […]

Solr Analysekette – Stemming

Von Markus Klose I 09 August 2013
Veröffentlicht in ,

Solr findet Treffer anhand eines Suchbegriffs, wenn sich der Suchbegriff mittels festgelegter Analysekette in einen Term zerlegen oder transformieren lässt, der einem Element des Index entspricht. Die Elemente des Index laufen vor der Indexierung ebenfalls durch einen Analyseprozess durch. Dieser Analyseprozess wird in der Konfigurationsdatei schema.xml für jeden Feldtypen definiert und beinhaltet genau einen Tokenizer und optional […]

Tipp – Solr ZooKeeper CLI / Neuer Artikel der Blogserie “SolrCloud – Tipps, Tricks und Pitfalls”

Von Johannes Brucher I 26 April 2013
Veröffentlicht in ,

Wie bereits in einem vorangegangen Artikel “Tipp – Mehrere Collections in einer SolrCloud verwalten” angedeutet, bietet Solr die Möglichkeit mit dem ZooKeeper über eine im Solr integrierte Command Line API zu kommunizieren. Die Möglichkeiten, die uns hier geboten werden, möchte ich in diesem Beitrag näher beleuchten. Mir der im Solr intergierten ZooKeeper CLI können relevante Operationen abgedeckt […]