Wie Sie Dokumente mit Python indizieren und finden

Das Maß für Worthäufigkeiten TF-IDF schlägt Transformer-basierte Textsuche bei kleinen Datensammlungen, beschleunigt die Suche und liefert ein Ergebnis-Ranking.

Artikel verschenken

3

10.04.2024, 13:00 Uhr

Lesezeit: 17 Min.

iX Magazin

Von

Dr. Roland Pleger

Wie Sie Dokumente mit Python indizieren und finden
- Wortsuche mit TF-IDF
Dokumentsuche mit TD-IDF und Python
Indizieren und Einstellungen
Fremdsprachen erkennen
Fazit

Artikel in iX 5/2024 lesen

Transformer-basierte Sprachmodelle können viel, solange sie mit riesigen Datenmengen trainieren dürfen. Ist das nicht der Fall oder bezieht sich eine Dokumentensuche nur auf wenige Tausend Dateien, helfen klassische Verfahren weiter: Ein Text-Crawler sammelt das Material für eine Textsuche, das statistische Verfahren TF-IDF liefert die Basis für eine Suchmaschine, die auch Wildcards und Freitexteingaben interpretiert. Darüber hinaus identifiziert es die Sprache von Texten oder bildet die Grundlage für ein Schlagwortregister.

Dr. Roland Pleger arbeitet beim Institut für Softwaretechnologie des Deutschen Zentrums für Luft- und Raumfahrt (DLR). Er ist begeistert von den Möglichkeiten, die Python für das Prototyping von Software bietet.

Der vollständige Code ist als Jupyter-Notebook auf GitHub zu finden, Steuervariablen im Skript legen die Herkunft der Datenquellen fest. Obwohl das System einfach gehalten ist, bietet es eine Reihe von Hyperparametern. Sie laden zu weiteren Experimenten ein, um der Suchmaschine bei der Arbeit über die Schulter zu schauen.

Sind Dokumentensammlungen zu klein, versagen Methoden, die auf neuronalen Netzen basieren. Es verbleiben die klassischen Methoden wie TF-IDF, die auf einer statistischen Analyse beruhen.
TF-IDF (Term Frequency – Inverse Document Frequency) findet über Worthäufigkeiten innerhalb der Dokumentensammlung spezifische Einträge.
Eine Matrixmultiplikation der TF-IDF-Matrix mit dem Suchvektor beschleunigt die Suche und gibt für jedes Dokument eine Rückmeldung für das Maß der Übereinstimmung mit der Suchanfrage.
Reguläre Ausdrücke werten Wildcards aus und führen das Ergebnis einer normalen Suche zu.

Das Kernelement des Indizierers bildet eine sogenannte TF-IDF-Matrix, die Worthäufigkeiten unterschiedlicher Dokumente auswertet. Ein Wort, das in jedem Dokument auftritt, ist weniger prägnant als eines, das nur in einer Datei vorkommt.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Smart,Device,Virtual,Control,Interface.,Artificial,Intelligence,New,Application,Ai

Trend-Beruf: Mit diesen Fähigkeiten wird man KI-Experte

KI-Experte ist aktuell ein gefragter Beruf, mit dem sich viel Geld verdienen lässt. Aber welche Skills sind relevant und welche Fortbildungen lohnen sich?

Know-how für Heim-Admins: Alles über Ethernet-Switches

"RJ45", das haben Sie bestimmt schon gelesen. Was die Abkürzung bedeutet und alles, was Sie schon mal über Netzwerkswitches wissen wollten, erklären wir Ihnen.

Das Bild zeigt zwei Kreditkarten von Mastercard und Visa.

Prepaid, Debit, Credit: Wie Sie die passende Kreditkarte finden

Nach dem Maestro-Aus nimmt die Bedeutung von Kreditkarten zu. Die Wahl der passenden Karte sollte aber nicht nur von den Grundgebühren abhängen.

ETF: So sicher ist der MSCI World

Kurztests: Software für Aufgabenplanung, Zeiterfassung und Screenrecording

Eine smarte To-Do-Liste für die Aufgabenplanung, ein einfaches Zeiterfassungs-Tool und eine Screenrecorder-Software helfen bei Organisation und Arbeit.

Smartphone Xiaomi 14 Ultra mit Leica-Kamera im Test

Das Xiaomi 14 Ultra balanciert auf dem schmalen Grat zwischen Smartphone und Kamera – und das erfolgreich, trotz einiger Kompromisse.

Schlaue Multigigabit-Switches in der Übersicht

Multigigabit-Ethernet sichert Backups und kopiert VM-Images schnell. Konfigurierbare Netzverteiler sind nun auch mit 2,5 Gbit/s erschwinglicher – eine Auswahl.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Trend-Beruf: Mit diesen Fähigkeiten wird man KI-Experte

KI-Experte ist aktuell ein gefragter Beruf, mit dem sich viel Geld verdienen lässt. Aber welche Skills sind relevant und welche Fortbildungen lohnen sich?

Know-how für Heim-Admins: Alles über Ethernet-Switches

"RJ45", das haben Sie bestimmt schon gelesen. Was die Abkürzung bedeutet und alles, was Sie schon mal über Netzwerkswitches wissen wollten, erklären wir Ihnen.

Prepaid, Debit, Credit: Wie Sie die passende Kreditkarte finden

Nach dem Maestro-Aus nimmt die Bedeutung von Kreditkarten zu. Die Wahl der passenden Karte sollte aber nicht nur von den Grundgebühren abhängen.

ETF: So sicher ist der MSCI World

Kurztests: Software für Aufgabenplanung, Zeiterfassung und Screenrecording

Eine smarte To-Do-Liste für die Aufgabenplanung, ein einfaches Zeiterfassungs-Tool und eine Screenrecorder-Software helfen bei Organisation und Arbeit.

Smartphone Xiaomi 14 Ultra mit Leica-Kamera im Test

Das Xiaomi 14 Ultra balanciert auf dem schmalen Grat zwischen Smartphone und Kamera – und das erfolgreich, trotz einiger Kompromisse.

Schlaue Multigigabit-Switches in der Übersicht

Multigigabit-Ethernet sichert Backups und kopiert VM-Images schnell. Konfigurierbare Netzverteiler sind nun auch mit 2,5 Gbit/s erschwinglicher – eine Auswahl.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Wie Sie Dokumente mit Python indizieren und finden

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Trend-Beruf: Mit diesen Fähigkeiten wird man KI-Experte

Know-how für Heim-Admins: Alles über Ethernet-Switches

Prepaid, Debit, Credit: Wie Sie die passende Kreditkarte finden

Kurztests: Software für Aufgabenplanung, Zeiterfassung und Screenrecording

Smartphone Xiaomi 14 Ultra mit Leica-Kamera im Test

Schlaue Multigigabit-Switches in der Übersicht

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Trend-Beruf: Mit diesen Fähigkeiten wird man KI-Experte

Know-how für Heim-Admins: Alles über Ethernet-Switches

Prepaid, Debit, Credit: Wie Sie die passende Kreditkarte finden

Kurztests: Software für Aufgabenplanung, Zeiterfassung und Screenrecording

Smartphone Xiaomi 14 Ultra mit Leica-Kamera im Test

Schlaue Multigigabit-Switches in der Übersicht

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.