Embeddings mit Azure OpenAI, Qdrant und Rust

Um den Sinnzusammenhang von Inhalten als Vektoren darzustellen, kommen Embeddings zum Einsatz. Vektordatenbanken helfen dabei, ähnliche Inhalte effizient zu finden.

Von Rainer Stropek

Wenn Menschen zum ersten Mal mit Large Language Models (kurz LLM) in Kontakt kommen, versteckt meist eine Benutzerschnittstelle die technischen Details der jeweiligen Umsetzung. Jemand gibt eine Frage in natürlicher Sprache ein und erhält als Ergebnis typischerweise eine Antwort in Textform oder ein generiertes Bild. Bei ChatGPT von OpenAI ermöglicht das LLM sogar das Führen eines Dialogs, bei dem der Computer den Chatverlauf kennt und bei Folgefragen berücksichtigt.

Hinter den Kulissen

Hinter der Fassade repräsentieren bei Sprachmodellen wie denen von OpenAI Zahlen die sprachlichen Zusammenhänge. Dabei spielt das Konzept der Embeddings eine entscheidende Rolle. Embedding-Vektoren stehen im Bereich der künstlichen Intelligenz für die Zahlenrepräsentationen des Inhalts wie Text, Bilder oder Musik. Technisch gesehen handelt es sich um Vektoren im n-dimensionalen Raum. Das Geheimnis der Qualität von Systemen wie ChatGPT ist, dass es ihnen äußerst gut gelingt, nicht nur die Wörter eines Textes oder einer Frage, sondern den Sinnzusammenhang in Vektoren umzuwandeln. Texte, deren Sinnzusammenhänge sich ähneln, führen zu Vektoren, die ähnlich sind. Texte, die nichts miteinander zu tun haben, resultieren in deutlich unterschiedlichen Vektoren.