Blog
Die richtige Reihenfolge der Dokumente innerhalb der Trefferliste zu erreichen ist ein schwieriges Ziel. Da wird an allen Ecken und Enden geboostet, es wird der Relevanzalgorithmus umgeschrieben oder gar mit dem Elevate Feature gearbeitet. Trotz all dieser Möglichkeiten steht man oft vor der Situation, dass es dennoch nicht passt. In diesem Blog möchte ich auf […]
WeiterlesenApache Stanbol gehört seit Oktober 2012 zu Apache Top-Level-Projekten. Das Projekt ist ein modulares Software-Paket mit einigen Komponenten, die es ermöglichen Inhalte semantisch anzureichern. Es wurde entwickelt, um mit Frameworks wie z.B. Apache Solr (zur semantischen Suche) oder Apache Tika (Extraktion von Inhalten und Metadaten) zusammenzuarbeiten. Dieser Blog wird eine kurze praktische Einführung hinsichtlich Anreicherung […]
WeiterlesenWozu brauch man eigentlich den Solr PingRequestHandler? Diese Frage wird oft gestellt, denn um den Status eines SolrCore zu ermitteln kann man auch eine „normale“ Suchanfrage absetzen und das Ergebnis auswerten. Der PingRequestHandler wird im Allgemeinen unterschätzt. In diesem Blog werde ich auf PingRequestHandler und seinen Einsatz genauer eingehen. Der PingRequestHandler JA, der PingRequestHandler prüft […]
WeiterlesenSolr findet Treffer anhand eines Suchbegriffs, wenn sich der Suchbegriff mittels festgelegter Analysekette in einen Term zerlegen oder transformieren lässt, der einem Element des Index entspricht. Die Elemente des Index laufen vor der Indexierung ebenfalls durch einen Analyseprozess durch. Dieser Analyseprozess wird in der Konfigurationsdatei schema.xml für jeden Feldtypen definiert und beinhaltet genau einen Tokenizer und optional […]
WeiterlesenNeben der reinen Volltext-Suche wird die geografische Suche immer wichtiger. Viele von den Diensten heutzutage sind ortsgebunden, was auch Sinn macht, denn wenn ich Hunger habe und nach einer guten Pizzeria suche, nützt es mir nichts, wenn die Suche mir ein Lokal in Berlin vorschlägt und ich gerade in Augsburg unterwegs bin.Dieser Artikel befasst sich […]
WeiterlesenWenn man Daten in Solr indexieren möchte, kommt man fast nicht um den DataImportHandler (DIH) herum. Der DIH ist eine zentrale Komponente in Solr, mit der eine Vielzahl von Datenquellen indexiert werden können, z.B. Datenbanken, Feeds oder das lokale Dateisystem. Dieser Artikel soll primär zeigen, wie man den Import von Daten von außen steuern bzw. […]
WeiterlesenCaches sind ein wesentlicher Faktor für die Performance des Search Servers Apache Solr. Nur wer diese Caches, ihre jeweilige Aufgabe und ihre Funktionsweise kennt, kann von Anfang an Performance-Engpässe vermeiden und das Maximale aus seiner Solr Installation herausholen.In Solr gibt es im Gegensatz zur reinen Lucene API mehrere verschiedene Arten von Caches. FilterCache QueryCache DocumentCache […]
Weiterlesen