BASED Meetup in München

Bavaria, Advancements in SEarch Development (BASED) Meetup: Rückblick und Highlights

Am 20. März hatten wir, gemeinsam mit vielen anderen Such-Interessierten, die Möglichkeit, am ersten Bavaria, Advancements in SEarch Development (BASED) Meetup in München teilzunehmen, das in den Büros der AutoScout24 GmbH stattfand.

Die Veranstaltung war ein voller Erfolg: Alle Teilnehmenden erschienen pünktlich und vollzählig, und der Austausch über neue Entwicklungen in moderner Technologie und Suchsystemen war lebendig und inspirierend.

Die beiden Hauptvorträge behandelten zentrale Entwicklungen wie Retrieval-Augmented Generation (RAG*), Optimierungsansätze für hybride Suche* sowie neue Möglichkeiten im PDF-Retrieval mithilfe visueller Sprachmodelle wie ColPali und ColQwen, mit Fokus auf den praktischen Einsatz in echten Produktivsystemen.

Der Vortrag mit dem Titel „Dynamic Hybrid Search Optimization: A Practical Framework for Query Understanding“ gehalten von Daniel Wrigley, Search Consultant bei OpenSource Connections, zeigte, wie hybride Suche intelligenter und flexibler gestaltet werden kann.

Das zentrale Problem: Nicht jede Suchanfrage profitiert im gleichen Maß von den beiden eingesetzten Suchmethoden, der schlüsselwortbasierten und der vektorbasierten Suche. Manche Anfragen benötigen mehr semantisches Verständnis, andere wiederum verlangen eher präzise, exakte Treffer.

Die vorgestellte Lösung war ein Framework, das automatisch erkennt, wie stark eine Anfrage von der Vektorsuche profitieren könnte (sie nennen das „Neuralness“). Auf dieser Basis wird dann die Suchkonfiguration dynamisch angepasst, also für jede Anfrage individuell optimiert. Dabei wurde maschinelles Lernen eingesetzt, um die Eigenschaften einer Suchanfrage zu analysieren und daraus die beste Gewichtung zwischen den beiden Sucharten vorherzusagen. Die Ergebnisse zeigten eine deutliche Steigerung der Qualität der Suchergebnisse. Dieser Ansatz ist besonders interessant für moderne Systeme wie Chatbots oder Anwendungen mit RAG, da sie stark davon profitieren, wenn Suchergebnisse präzise und flexibel auf die jeweilige Anfrage abgestimmt werden.

PDF Retrieval at Scale with Visual Language Models

In der Präsentation „PDF Retrieval at Scale with Visual Language Models*“, gehalten von Evgeniya Sukhodolskaya, Developer Advocate bei Qdrant, wurde gezeigt, wie moderne visuelle Sprachmodelle wie ColPali und ColQwen völlig neue Möglichkeiten für die Suche in PDF-Dokumenten eröffnen, ganz ohne Optical Character Recognition (OCR) oder aufwendige Dokumentenanalyse.

Diese Modelle können direkt mit den visuellen Inhalten von PDFs umgehen, einschließlich komplexer Layouts, Tabellen und Bilder. Das macht die Suche nicht nur einfacher, sondern auch zuverlässiger und robuster.

Ein weiterer Schwerpunkt lag auf der Skalierung dieser Methode, denn die Modelle erzeugen sehr viele Vektoren pro Seite, was den Aufbau und die Nutzung großer PDF-Sammlungen erschwert. Als Lösung wurde ein effizientes Verfahren vorgestellt, das die Datenmenge reduziert, ohne dabei relevante Informationen zu verlieren.

Dieser Ansatz ist besonders relevant für moderne Suchsysteme und RAG-Anwendungen, die PDF-Inhalte effizient und intelligent verarbeiten müssen, vor allem, wenn es um komplexe Dokumente mit Tabellen, Bildern oder ungewöhnlichen Layouts geht. Die vorgestellte Methode vereinfacht den Zugriff auf solche Inhalte deutlich und ermöglicht den effektiven Einsatz auch in großen, skalierbaren Systemen.

Erfolgreiches Debüt: Das erste BASED Meetup als Plattform für KI-Innovation und Networking

All diese spannenden Themen wurden im Rahmen des ersten BASED Meetups präsentiert, einer Veranstaltung, die Raum für fachlichen Austausch und persönliches Kennenlernen bot.

Vielen Dank an Daniel Wrigley und Evgeniya Sukhodolskaya für die Einladung und wir freuen uns bereits auf zukünftige Events dieser Reihe, bei denen wieder aktuelle und innovative Entwicklungen rund um Künstliche Intelligenz im Mittelpunkt stehen werden!


*Mehr über den Einsatz von RAG erfahren Sie unter: https://shi-gmbh.com/wissen/blog/technologie-softwareentwicklung/ki-zukunft-einfuhrung-in-retrieval-augmented-generation/

*Was ist eine Hybride Suche?
Hybride Suche bezeichnet ein Verfahren zur Dokumenten- oder Informationsbeschaffung, bei dem klassische, schlüsselwortbasierte Suchmethoden mit vektorbasierten, semantischen Suchmethoden kombiniert werden, um die Relevanz und Genauigkeit der Suchergebnisse zu verbessern.

*Was sind Visual Language Modells: Visual Language Models (VLMs) sind KI-Modelle, die Bilder und Texte gemeinsam verarbeiten können. Sie verbinden visuelle Informationen (z. B. aus Bildern oder PDFs) mit sprachlichem Verständnis und erzeugen so multimodale Repräsentationen. Dadurch können sie Inhalte wie Diagramme, Tabellen oder komplexe Layouts zusammen mit Text interpretieren, verstehen und abrufen – z. B. für Bildbeschreibungen, visuelle Suche oder PDF-Retrieval.

Portrait Lazaros Koutsianos

Lazaros Koutsianos

...hat sein Computer Linguistik Studium an der Ludwig-Maximilians-Universität in München abgeschlossen. Schwerpunkt seines Studiums war die Verarbeitung natürlicher Sprache unter der Verwendung von Machine Learning Algorithmen. Im Rahmen seiner Bachelorarbeit hat er mit großen Datenmengen gearbeitet und Machine Learning Modelle an Daten verschiedener Sprachen (unter anderem Brasilianische, Portugiesisch und Hindi) angewendet. Während seines Studiums arbeitete er bereits als Werkstudent im Verlagswesen und hat dort vielfältige Tätigkeiten und Verantwortungen sowohl in der Programmierung als auch der Kundenbetreuung übernommen. Seit Januar 2024 ist er Mitglied des Search & Analytics Teams bei der SHI GmbH. Lieblingsdateiformat: .py und .txt.