Vom Verlag zum Publisher_Beitragsbild_Blog

Such-Potenzial – Wie Sie im E-Publishing Inhalte auffindbar machen

10 Februar 2020

Teil 6 der BLOGSERIE:

„Vom Verlag zum E-Publisher – wie Redaktionen und Lektorate die digitale Transformation erfolgreich meistern.“

Lesedauer: 8 Min.

Suchtechnologie benötigt einen dafür eigens Zuständigen im Unternehmen. Je nach Produkt müssen anwendungsinterne und externe Suchen unterstützt werden. Grundlage sind ein interner Index durch Suchserver wie Solr und externe Indexierung z.B. durch Google. SEO-Maßnahmen wie Optimierung von Snippets, Title und Description, Keywords und Metadaten sind erforderlich. Synonymlisten, Fachthesauri und Ontologien unterstützen semantische Suchen.

Lesen Sie hier die anderen Beiträge dieser Blogserie:

Immer wieder erlebt: Ich sitze einem oder mehreren Menschen gegenüber, um grundlegende Anforderungen für ein neues Onlineprojekt zu besprechen, Damen und Herrn aus Lektorat oder Redaktion, der Leitung dieser Abteilungen, der Verlagsleitung, Geschäftsführung.

Irgendwann kommt zuverlässig der Satz: „Und natürlich brauchen wir eine gute Suche.“ Hochgezogene Augenbrauen untermauern die Bedeutung dieser Anforderung. Steigerbar durch einen erhobenen Zeigefinger. Ja, klar. Nur, was ist das, eine „gute“ Suche?

Was ist eine „gute Suche“?

Vorab: Sie werden in diesem Beitrag keinen erschöpfenden Aufriss zum Thema Suchtechnologie erhalten, das würde den hier gebotenen Rahmen bei weitem sprengen. Ja, Suche ist Technologie, aber eben nicht nur. Ich möchte nur einzelne technische Aspekte aufzeigen, insbesondere aber, dass auch das Thema Suche nahe am Inhalt steht. Inhaltliche Kompetenz in Redaktion und Lektorat können deshalb auf eine im Ergebnis gute Suche wesentlichen Einfluss nehmen.

Und das Ziel dieses Beitrags wäre schon erreicht, wenn die oben skizzierte Runde, von entsprechendem Sachverstand unterstützt, eine Stufe differenzierter in das Thema einsteigen könnte.

Wer ist zuständig?

Gibt es in Ihrem Unternehmen jemanden, der sich unter expliziter Aufgabenstellung mit einem wesentlichen Teil oder der Gänze seiner Arbeitskraft mit dem Thema Suche beschäftigt? Nein? Dann kann ich nur dringend raten, auf die Geschäftsleitung zuzugehen und eine solche Stelle zu schaffen.

Suchtechnologie hat mit dem heutigen Stand eine immense Breite und Komplexität angenommen. Entsprechend haben sich hochspezielles Fachwissen und eine eigene Fachsprache gebildet, die wir hier nur in einigen Begriffen streifen werden.

Niemand, erst recht nicht in Redaktion und Lektorat, kann die damit einhergehenden Aufgaben womöglich nebenher leisten. Die Aneignung, fortwährende Weiterbildung und kompetente Handhabung des entsprechenden Wissens kann heute über Erfolg oder Nichterfolg eines Unternehmens entscheiden. Zielsetzung muss ein ganzheitliches Suchkonzept über das Unternehmen hinweg sein, das nicht nur die Produktseite beleuchtet.

Es braucht also eine(n) Manager(in) Suchtechnik, der/die sich in inhaltlichen Dingen an Sie wenden kann und von Ihnen unterstützt wird.

Suchkonzepte: was wird gesucht – wer sucht?

Bereits hier geht es konzeptionell oft wild durcheinander und es ist wichtig, die einzelnen Teilbereiche sauber zu trennen, denn wenn sie auch zusammenhängen mögen, sind die Aufgabenstellungen in den einzelnen Bereichen unterschiedliche.

Fachinformationsanwendungen

Fachinformationsanwendungen laufen oft in einem geschützten Teilbereich des Internets, abgeschottet durch ein Bezahlsystem. Endanwender als registrierte Benutzer suchen hier in der Regel Dokumente in Text-, Bild-, Video- oder auch Audioform. Aufgabenstellung ist eine möglichst gute Erschließung dieser Bestände in einer anwendungsinternen Suche.

Offene Onlineplattformen

Offene Onlineplattformen im Bereich der Fachverlage sind oft zeitschriftenähnliche oder News-orientierte Informationsdienste wie z.B. sicherheitsmelder.de. Ist der Dienst werbefinanziert, hat die Suche auch die Belange des Search Advertisings zu berücksichtigen, auf das ich hier nicht weiter eingehe. Insbesondere externe Suchmaschinen wie Google müssen hier gut „bedient“ werden.

Mischform aus kostenfreien und bezahlten Inhalten

Die vorstehend beschriebenen Informationsdienste kommen natürlich auch als Mischform aus kostenfreien und bezahlten Inhalten vor. Jeder kennt heute die Onlineportale großer Magazine und Zeitungen, wo im Wege des sogenannten Content Marketings wertige kostenlose Inhalte auf kostenpflichtige Premiuminhalte hinführen sollen. Interne und externe Suche müssen hier gleichwertig bedient werden.

Shop-Systeme

Kostenpflichtiger Content innerhalb geschützter Anwendungen oder als Teilinhalt eines Mischangebots muss in einem Shopsystem buchbar gemacht werden. Es muss dazu definiert werden, welche beschreibenden Produktinformationen einen Inhalt begleiten und wie diese in die Suche eingebunden werden. Je nachdem, ob der Anwender registriert und angemeldet ist oder ob er im nicht autorisierten Zustand sucht, wird die Darstellung der Inhalte in Trefferlisten auf den Vollzugriff oder den Shop hinleiten.

Interne Contentverwaltung

Neben der Ausformung in Produkten und Anwendungen bestehen in den Verlagen meist noch größere Content-Repositories, sowie Redaktions- und Content-Management-Systeme. Ein umfassendes Suchkonzept eines Verlages sollte als Teilprojekt auch diese Inhaltstöpfe für den internen Zugriff der Mitarbeiter berücksichtigen.

Interne und externe Suche

Insbesondere in geschützten Inhalten ist zunächst die anwendungsinterne Suche von Bedeutung. Allerdings haben natürlich die Anbieter solcher Inhalte ein elementares Interesse, dass diese auch bei Suchanfragen in den großen Suchmaschinen gefunden werden.

Es ist zu beobachten, dass die anwendungsinternen Suchen zunehmend etwas in den Hintergrund treten. Waren vor Jahren nach dem Vorbild der Google-Startseite überall noch große Suchschlitze zu sehen, verschwinden diese heute verkleinert in weniger prominenten Bereichen.

Die Anbieter setzen stattdessen zum einen verstärkt auf Zugriffe, die von externen Suchmaschinen ausgelöst werden, allen voran Google. Nur am Rande bemerkt: Nach Google liegen Youtube und Facebook in den Suchanfragen an zweiter und dritter Stelle, wenn man sie als „Suchmaschinen“ begreift, woran diese Dienste mit Nachdruck feilen.

Ersatz für den Suchschlitz sind zum anderen eine feinere Rubrizierung und ein optimiertes Vorschlagswesen für relevante und aktuelle Inhalte, die verhindern sollen, dass ein Anwender überhaupt überlegen muss, was er suchen soll. Auch solche Mechanismen werden von Suchroutinen im Hintergrund gesteuert.

Grundlage der Suche: der Index

Für die eigene Suche und Anwendung erstellt die zugrundeliegende Plattform einen oder mehrere Indices. Für die externe Suche schickt z.B. Google spezielle Programme vorbei, sogenannte Bots oder Crawler, am bekanntesten ist der „Googlebot“. Letztlich ist auch das für den internen Index verwendete Programm ein solcher Crawler, er setzt jedoch auf dem eigenen Datenbestand auf.

Der Googlebot hingegen sucht im Internet nach Webseiten und ruft die Seiteninhalte wie in einem Browser auf. Er analysiert, quasi von der Oberfläche her und von Link zu Link springend, die wichtigsten Elemente und vermerkt sie in seinem Suchindex. Keywords, Bilder, mobile Seiten und weitere Elemente bis zur Aktualität der Website werden so erfasst. Nach größeren Änderungen in den Inhalten können die Google-Crawler auch angefordert werden.

Wie funktioniert ein Suchindex?

Ein Suchindex funktioniert wie das Stichwortverzeichnis am Ende eines Buchs: Jedes Wort, das Crawler im Datenbestand oder auf einer indexierten Webseite gefunden haben, erhält einen Eintrag. Wenn Google eine Webseite indexiert, wird sie allen Einträgen für Wörter hinzugefügt, die auf dieser Seite vorkommen.

Die Datenmengen, die auch intern bei solchen Indexierungsläufen anfallen, sind erheblich, bei Google geradezu gigantisch: Der Google-Suchindex umfasst Milliarden von Webseiten und ist über 100.000.000 Gigabyte groß.

Indexierung verhindern

Bei geschützten, kostenpflichtigen Inhalten wollen Sie möglicherweise verhindern, dass externe Suchmaschinen sie indexieren. In Redaktion und Lektorat muss definiert werden, welche Inhalte oder Inhaltsteile „preisgegeben“ werden.

Die Indexierung wird dann am effektivsten blockiert, indem die betreffenden Inhalte anwendungsseitig in passwortgeschützte Verzeichnisse gestellt werden. Bei Verwendung des häufigen Webservers Apache Tomcat ist dies durch eine Konfigurationsdatei, ansonsten durch Webtools einfach zu bewerkstelligen.

Im Hintergrund: Suchserver wie Apache Solr oder Elasticsearch

Um Aufgabenstellungen wie die Indexierung, aber auch die Bearbeitung von Suchanfragen, deren Abgleich mit den Indices und die Generierung von Treffern performant – in sogenannter Echtzeit – zu bewältigen, braucht es Hochleistungswerkzeuge im Hintergrund.

Bei vielen technischen Dienstleistern hat sich dazu in den letzten Jahren eine Plattform etabliert, die faktisch zu einem Standard geworden ist: Apache Solr (sprich: Solar). Ein außerdem gerne verwendeter Suchserver ist Elasticsearch. Beide mächtigen Werkzeuge bauen auf der umfassenden Apache-Java-Bibliothek Lucene auf.

Vorteile von Solr

Als Open-Source-Lösung verfügt Solr über eine sehr breite Anwender- und Entwicklergemeinde. Solr verarbeitet in Echtzeit sehr große Datenmengen, unterschiedlichste Datenformate und Datenquellen, verfügt über vielfältige Schnittstellen, ist modular aufgebaut und für die jeweiligen Aufgabenstellungen durch weitgehende Konfiguration adaptierbar. Shops, Fachinformationsportale und auch firmeninterne Dokumentenerschließung lassen sich damit höchst effektiv realisieren.

Gegenüber Elasticsearch hat Solr Vorteile in der Behandlung von Texten und dürfte deshalb in der Welt von Fachinformationen die bessere Wahl sein. Details müssen jedoch vor dem Hintergrund konkreter Anwendungen mit dem technischen Dienstleister geklärt werden.

Bei der Auswahl eines technischen Dienstleisters, der auf diese Technologien setzt, ist entscheidend, wie intensiv er in diese eingestiegen ist und sie in eigenen Anwendungen und Werkzeugen ergänzt und weiterentwickelt hat.

Mehr zu Apache Solr erfahren Sie hier.

Suchunterstützung

Kommen wir nochmals zu der Frage zurück, was eine „gute Suche“ sei. Hier hat wieder einmal Google in den vergangenen Jahren Standards gesetzt.

Wir erwarten Features wie eine mit der Zeicheneingabe im Suchfeld sich dynamisch aufbauende Vorschlagsliste mit Begriffen, zu denen es Treffer gibt. Wir erwarten linguistische Unterstützung durch Stemming, laut Wikipedia „ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. die Deklination von Wortes oder Wörter zu Wort und Konjugation von gesehen oder sah zu seh.“

Wir erwarten eine tippfehlertolerante Sucheingabe und „meinten-Sie“-Vorschläge als Ergebnis einer Ähnlichkeitssuche. Wir erwarten außerdem die Möglichkeit, Treffermengen durch sogenannte Facetten weiter einzugrenzen.

Praktisch all dies kommt bei den genannten Suchservern out of the box und konfigurierbar mit. Dennoch kommen Anwendungen mit diesen Features manchmal schnell an Grenzen. So erzielt z.B. der Suchbegriff „Ein-Euro-Job“ u.U. keinen Treffer, weil er umgangssprachlich ist und in § 16d SGB II nicht vorkommt, sondern dort „Arbeitsgelegenheiten“ heißt.

Angesagt sind also optimierende Maßnahmen für die Suche.

Search Engine Optimization – SEO

Wie bereits angesprochen, gibt es mittlerweile die Position des SEO-Managers. Seine Aufgaben u.a: Erreichbarkeit der Seiten, Ladezeitenoptimierung, Optimierung mobiler Darstellung, Beseitigung fehlgehender Links, Vermeidung von doppeltem Content. Wir wollen uns hier jedoch auf die Bereiche konzentrieren, bei denen Sie in Redaktion und Lektorat nicht nur Einfluss nehmen können, sondern den SEO-Manager sogar zwingend beraten müssen.

Snippet-Optimierung

Was ist ein Snippet? Das, was Sie in einer SERP (Search Engine Result Page = Trefferergebnisliste) als Treffer angezeigt bekommen. Dies zu definieren, ist eine inhaltlich-redaktionelle Aufgabe, denn Sie wollen ja, dass der Kunde so viel Information wie möglich aus der Trefferanzeige zieht, ohne jedoch zu viel erfassen zu müssen und ohne die Trefferliste unnötig aufzublähen.

Das Snippet ist ausschlaggebend dafür, ob sich der Anwender näher mit dem Treffer befasst oder nicht. Angezeigt werden also z.B. der Seiten- oder Dokumenttitel, zugehörige URL, Inhaltsrubrik, in eigener Anwendung ein Teaser oder bei Google ein Textausriss aus der Description.

Title und Description

Diese müssen sinnvoll gestaltet sein, um im Snippet Wirkung entfalten zu können. Beide sind im HTML-Code der Seite gesondert getaggt. Der Titel sollte das zentrale Keyword des Inhalts möglichst weit vorne enthalten und nicht länger als 55 Zeichen sein. Die Beschreibung sollte nicht länger als 139 Zeichen sein und zentrale Aussagen am Anfang abbilden.

Content-Optimierung

Nicht nur Titel und Beschreibung, sondern ganz grundsätzlich müssen Texte von vornherein suchtauglich formuliert werden.

Content-Optimierung ist eine rein redaktionelle Aufgabe, die Überschriften, Lesbarkeit, Struktur, Medien-Diversität und Bilder-Optimierung im Auge hat. Fragen Sie nach Schulung!

Keywords und weitere Metadaten

Zentral von Bedeutung ist, dass überhaupt erst einmal Metadaten vorhanden sind, also bei der Erstellung z.B. von Beiträgen die Vergabe von Schlagworten und das Verfassen eines Teasers und eines Abstracts zur Pflicht gemacht wird; letzterer wird das Description-Tag befüllen.

SEO kann aber bei der Vergabe von Keywords durch Analysen massiv unterstützen. Hier müssen SEO-Verantwortliche und Redaktion eng kommunizieren.

Ziel einer Keyword-Recherche ist die Identifikation von Suchbegriffen / Suchtermen, die durch Ihre Zielgruppe(n) bei Suchmaschinen eingegeben werden und die relevant für Ihr Produkt bzw. Fachthema sind. Bei einer Keyword-Analyse geht es um die Analyse der ersten Suchergebnisseite bei den recherchierten Keywords, z.B. hinsichtlich der Suchintention und der Wettbewerbsstärke eines Begriffs.

Interne Verlinkung und Informationsarchitektur

These: Je besser ein Kerndokument, aber auch eine komplette Domain in einem semantischen Beziehungszusammenhang zu anderen semantisch verwandten Dokumenten steht, desto relevanter ist das Dokument selbst. Dazu zählen nicht nur eingehende Verlinkungen, sondern auch ausgehende.

Der Entwurf eines Verlinkungskonzepts für eine Anwendung muss von Redaktion und Lektorat mindestens mit unterstützt werden – nur sie können sagen, welche Inhalte – über die darin stehenden Verweise hinaus – verwandt sind bzw. zwingend verlinkt werden müssen.

Semantische Suche

Suchmaschinen generell, besonders aber Google, versuchen Relevanz, Ranking und Trefferangebot zunehmend auch auf semantischem Wege zu erfassen und zu steuern.

Google denkt dabei in „Entitäten“ und deren Bezüge zueinander. Eine Entität kann z.B. eine Marke oder eine Website sein. Die semantischen Bezüge werden dabei eingeteilt nach Suchintention; Nutzerkontext nach Zeit, Ort, Endgerät und Suchabfolge; thematischer Relevanz von Domains und Dokumenten sowie nach deren inhaltlicher Tiefe.

Google & Co versuchen also, maschinell ontologische Zusammenhänge zu erkennen bzw. als Struktur herzustellen. Google speichert diese im „knowledge graph“, einer semantischen Bezüge-Datenbank, ab. Suchbegriffe werden so Klassen wie „Region“ oder „Mobil“ zugeschrieben und damit mit anderen in Zusammenhang gebracht, gewichtet u.a. nach interner und externer Dichte des Vorkommens.

Eigene Ontologien?

Die Google´schen Ansätze sind bestechend – allein ich glaube, dass sie im Bereich der Fachinformationen nicht besonders zielführend sind. Besser wäre es, die Fachinformationsanbieter könnten Google und den eigenen Suchservern eigene Fachontologien zur Verfügung stellen. Nur – wo in der Fachverlagslandschaft gibt es solche Fachontologien? Da gilt es meist kleinere Brötchen zu backen.

Synonym-Listen

Der oben beispielhaft angeführten, fehlgehenden Suchanfrage wäre schon abzuhelfen gewesen, wenn in einer einfachen Tabelle dem Begriff „Arbeitsgelegenheit“ der umgangssprachliche Begriff „Ein-Euro-Job“ zugeschrieben worden wäre. Ein erweitertes, möglicherweise mehrstufig aufgebautes Autosuggest hätte dann bei der Zeicheneingabe „ein-eur“ im Suchfeld bereits die „Arbeitsgelegenheit“ mit vorschlagen können.

Sich in der Konzeptionsphase eines Produktes mit Autoren und Fachleuten zusammenzusetzen und eine solche Synonymliste umgangssprachlicher Begriffe zu erstellen, ist gerade bei eingrenzbaren Themengebieten redaktionell ohne Weiteres zu leisten. Man wird feststellen, dass die Liste solcher Begriffe nicht unendlich groß ist.

Im Übrigen können solche Begriffe auch im laufenden Betrieb durch Analyse fehlgehender Suchanfragen herausgefiltert werden.

Fachthesaurus

Ein thematischer Fachthesaurus, mehrstufig aufgebaut mit Stichworten und Unterstichworten, „siehe-auch“-Verweisen und weiteren Kategorisierungen wie Sachgebietszuschreibungen ist die ideale semantische Anreicherung für einen maschinell erstellten Suchindex.

Leider ist auch das Vorhandensein solcher Fachthesauri in den Verlagen rar gesät. Der redaktionelle Aufwand zur Erstellung ist sehr groß und bedarf hohen fachlichen Inputs seitens Autoren, die überdies Generalisten und Praktiker im jeweiligen Fachgebiet sein müssen.

Ich glaube jedoch, dass sich Onlinedienste, die so unterstützte Suchfunktionen anbieten, sich im Konkurrenzumfeld deutlich absetzen können, sodass sich der Aufwand lohnt.

Im Übrigen gilt an der Stelle: wenig ist mehr als nichts. Thesauri – und Ontologien – können wachsen. Basis können auch Stichwortverzeichnisse von Printwerken sein, wenn deren Inhalte in einer elektronischen Umsetzung aufgehen. Oder man reichert einen maschinellen Index redaktionell an. Redaktionelle Kreativität ist gefragt.

Suche advanced

Abschließend möchte ich Ihr Gespür dafür wecken, dass Suchtechnologie, kreativ eingesetzt, viel mehr ist als das Verfolgen von Benutzeranfragen und das Treffen eines Inhalts.

Ich habe schon erwähnt, dass auch dynamische Inhaltszusammenstellungen und -vorschläge Ergebnis von Suchanfragen, besser Suchprofilen, sein können.

Die Kür stellt für mich derzeit die Lösung dar, ganze Produkte und Portale nicht mehr in Gliederungen und Steuerdateien, sondern sie komplett als Suchprofile anzulegen. Früher undenkbar, bringt die Rechenleistung heutiger Suchserver die erforderliche Performanz auf.

Sobald also der Anwender z.B. ein von ihm abonniertes Portal aufruft, wird über ein entsprechendes Profil eine Suchanfrage ausgelöst, welche aus einem übergreifenden Inhaltsrepository des Verlages die zugehörigen Inhalte sucht, aus den Treffern das Portal dynamisch aufbaut und am Bildschirm präsentiert.

Die Formulierung solcher Suchprofile ist sehr komplex und die Ergebnisse weichen manchmal vom gewohnten Zuschnitt eines Produktes ab. Aber die gewonnene Flexibilität in der Zusammenstellung und Pflege eines Produktes, seiner Individualisierung und Aktualisierung ist enorm. Und auch das Datenhandling im Vorfeld der Produktgenerierung wird wesentlich verkürzt.

Wenn Sie dieses Thema näher interessiert, dürfen Sie sich gerne direkt an mich wenden.

Checkliste: Wie optimieren Sie die Auffindbarkeit Ihrer Inhalte?

Zuständigkeiten für Suchtechnik und SEO klären.
Suchkonzepte definieren – produktbezogen, evtl. verlagsübergreifend.
Inhalte für externe Indexierung durch Suchmaschinen definieren.
Suchunterstützung produktbezogen prüfen, ggf. definieren oder erweitern.
SEO-Maßnahmen:

– Snippet-Optimierung, Title und Description optimieren

– Content-Optimierung

– Keywords erstellen, ggf. Keyword-Recherche und Keyword-Analyse

– Weitere Metadaten erstellen: Teaser, Abstract

– Verlinkungskonzepte prüfen und ggf. optimieren

Semantische Unterstützung prüfen und aufbauen:

– Synonymlisten

– Fachthesauri

– Ontologien

Im Ranking immer ganz oben zu stehen, wünscht Ihnen

Ihr

Hermann Ruckdeschel

Haben Sie Fragen zum Thema E-Publishing? Kontaktieren Sie uns gerne, um das Thema detaillierter zu besprechen.

Zum Kontaktformular

Hermann Ruckdeschel

..., geboren 1952 in Tübingen, studierte Rechtswissenschaften an der Universität Augsburg. Nach dem zweiten juristischen Staatsexamen stieg er unmittelbar in die Fachverlagsbranche ein und begann seine Karriere 1980 als Werbeleiter beim Stuttgarter Richard Boorberg Verlag, wo er später den Geschäftsbereich Vertrieb und Marketing übernahm. In der Geschäftsleitung verantwortete er schließlich langjährig den Geschäftsbereich Produkt- und Medienentwicklung. Heute ist er als selbständiger Berater im elektronischen Fachmedienbereich tätig. Für den SHI-Blog teilt er sein umfassendes Expertenwissen in der Schaffung medienneutraler Datenbestände und daraus generierter Informationsangebote. Lieblingsdateiformat: XML, so semantisch wie möglich.