Blog
Wenn man mit der SolrCloud arbeitet, stößt man unweigerlich über die clusterstate.json-Datei. Die clusterstate.json-Datei zeigt den aktuellen Status der SolrCloud und wird vom ZooKeeper erstellt und verwaltet. Dieses JSON-Datenformat kann man wunderbar nutzen, um den Status der SolrCloud mittels eigener Analyse- bzw. Monitoring-Tools auszulesen, um, beispielsweise, herauszufinden, ob alle Knoten in der Cloud noch aktiv […]
WeiterlesenWenn man Daten in Solr indexieren möchte, kommt man fast nicht um den DataImportHandler (DIH) herum. Der DIH ist eine zentrale Komponente in Solr, mit der eine Vielzahl von Datenquellen indexiert werden können, z.B. Datenbanken, Feeds oder das lokale Dateisystem. Dieser Artikel soll primär zeigen, wie man den Import von Daten von außen steuern bzw. […]
WeiterlesenAm 13.09.2012 durften wir Apache Solr als Suchplattform für Enterprise Search im Rahmen eines Vortrages in Stuttgart bei der dort ansässigen Java User Group (JUGS) vorstellen. In diesem Beitrag möchten wir einige interessante Aspekte des Vortrags aufgreifen und eine Zusammenfassung über die Antworten auf die aufgetauchten Fragen geben. Skalierbarkeit von Solr Hat Solr Grenzen, wenn […]
WeiterlesenSprachidentifizerung mit Solr zur Indexierungszeit Solr kann Sprachen während der Indexierung erkennen. Dazu benutzt man den langid UpdateRequestProcessor.Hierzu werden zwei Implementierungen angeboten:Das Feature von Tika Sprachen zu identifizieren: https://tika.apache.org/0.10/api/org/apache/tika/language/LanguageIdentifier.htmlLangDetect Sprachidentifizierung basierend auf einer Java Library: https://code.google.com/p/language-detection/ Konfiguration des UpdateRequestProcessors:Der UpdateRequestProcessor wird in der solrconfig.xml konfiguriert. Es muss zumindest ein Feld, welches Grundlage (also Input) der […]
WeiterlesenStand heute Das Thema Suchfunktion in Online-Shops ist nicht gerade neu. Die Shop-Betreiber haben die Bedeutung einer intelligenten und optimierten Produktsuche als „Conversion Engine“ längst erkannt. In der Studie von ibi research , die erst kürzlich veröffentlicht wurde, wird das bestätigt. So kommt die Studie zu dem Ergebnis, dass 70% aller befragten Online-Händler eine optimierte […]
WeiterlesenCaches sind ein wesentlicher Faktor für die Performance des Search Servers Apache Solr. Nur wer diese Caches, ihre jeweilige Aufgabe und ihre Funktionsweise kennt, kann von Anfang an Performance-Engpässe vermeiden und das Maximale aus seiner Solr Installation herausholen.In Solr gibt es im Gegensatz zur reinen Lucene API mehrere verschiedene Arten von Caches. FilterCache QueryCache DocumentCache […]
Weiterlesen