Dokumentations-Datenbanken, die dein KI-Coding-Assistent wirklich versteht

Dokumentations-Datenbanken, die dein KI-Coding-Assistent wirklich versteht

Mai 26, 2026 ai coding documentation management knowledge graphs local llm semantic search technical documentation vector embeddings

Smarte Dokumentationsdatenbanken für deinen KI-Coding-Assistenten

Rohdaten in eine KI zu werfen, ist wie eine Nadel im Heuhaufen zu suchen. Viele Seiten einer Dokumentation dienen nur der Struktur oder rechtlichen Absicherung. Für eine KI sind sie schlicht Störfaktoren.

Nicht jede Seite ist gleich wertvoll

Indexseiten, Datenschutzerklärungen oder Changelog-Listen sind für Menschen hilfreich. Für eine KI, die Inhalte lernen soll, bringen sie wenig. Wer sie ungefiltert in eine Vektordatenbank packt, riskiert langsamere Abfragen und ungenaue Antworten.

Zweistufig filtern

Am effizientesten funktioniert eine Kombination aus einfachen Regeln und gezielter LLM-Klassifikation.

Erster Durchgang: Regelbasierte Filterung

Viele Seiten lassen sich schon über URL-Muster oder Seitenlänge aussortieren:

  • Rechtliche Inhalte über Pfade wie /legal/ oder /privacy
  • Navigationsseiten mit unter 200 Wörtern und vielen Links
  • Changelogs und reine Referenzlisten

Dieser Schritt läuft lokal, ist kostenlos und erledigt oft 40 bis 60 Prozent der Arbeit.

Zweiter Durchgang: LLM-Klassifikation

Für die restlichen Seiten reicht ein lokales Modell. Es erhält nur URL, Titel, die ersten 200 Wörter und die Überschriftenstruktur. Als Orientierung eignet sich das Diátaxis-Framework mit Kategorien wie Conceptual, Tutorial, How-to, Examples und Structural.

Intelligentes Embedding

Nach der Filterung werden die relevanten Seiten eingebettet. Lange Seiten einfach abzuschneiden, zerstört oft den Kontext. Besser ist es, am Überschriften zu splitten und die Embeddings anschließend zu mitteln. So bleibt die semantische Struktur erhalten.

Ein lokales Sentence-Transformer-Modell reicht hier völlig aus.

Hybrider Knowledge Graph

Zusätzlich zu den expliziten Links der Autoren lassen sich semantische Verbindungen über die Embeddings herstellen. Seiten mit hoher Ähnlichkeit (ab 0.75) werden als Kanten im Graphen gespeichert. Wichtig: Navigation, Legal und Referenzseiten bleiben außen vor.

Pro Seite sollten maximal etwa 20 Nachbarn verknüpft werden, sonst entstehen unübersichtliche Hubs.

SQLite als zentrale Datenbank

Am Ende steht eine einzelne SQLite-Datei mit:

  • Bereinigtem Markdown-Inhalt
  • Klassifikationen
  • Embeddings
  • Graph-Kanten
  • Metadaten

Sie ist portabel, offline nutzbar und lässt sich direkt per SQL abfragen – ideal für KI-Agenten.

Der komplette Workflow

  1. Crawlen der Dokumentation (mit Redirect- und robots.txt-Handling)
  2. HTML zu Markdown umwandeln
  3. Klassifizieren (Regeln + LLM)
  4. Embedden mit lokalen Modellen
  5. Graph aufbauen
  6. In SQLite speichern

Warum sich der Aufwand lohnt

Eine sauber aufbereitete Wissensbasis macht den Unterschied. Die KI arbeitet mit relevanten Inhalten statt mit Rauschen. Antworten werden präziser, Abfragen schneller – und du behältst die volle Kontrolle über deine Daten.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DA ZH-HANS EN