Как да изградите „умна“ база от документация за вашия AI асистент

Май 26, 2026 ai coding documentation management knowledge graphs local llm semantic search technical documentation vector embeddings

Как да подготвите документацията си за AI асистент

Повечето хора просто хвърлят цялата си документация в базата данни на AI агента и се надяват той да се справи. Резултатът обикновено е разочароващ – агентът се лута между безполезни страници и пропуска важната информация.

Не всички страници са еднакво полезни

Всяка документация съдържа страници, които съществуват само заради структурата на сайта. Индексни страници, правни текстове, списъци с промени – всичко това е необходимо за хората, но за AI представлява просто шум.

Когато вкарате тези страници в vector database, забавяте търсенето и обърквате модела. Той започва да цитира грешен контекст или да дава отговори, които нямат връзка с въпроса.

Двустепенен подход за филтриране

Най-добрият начин е да комбинирате прости правила с леко участие на LLM.

Първо ниво – правила

Започвате с проверка на URL адресите и обема на съдържанието:

Правни страници – /privacy, /terms, /legal
Навигационни хъбове – страници с под 200 думи, състоящи се предимно от линкове
Changelogs – обикновено имат предсказуеми URL структури

Това ниво обработва 40–60% от страниците без никакви разходи.

Второ ниво – LLM класификация

За останалите страници изпращате минимален пакет данни към локален модел – URL, заглавие, първите 200 думи и структурата на heading-ите. Моделът класифицира според системата Diátaxis – conceptual, tutorial, how-to, examples или structural.

Правилно embedding на съдържанието

След филтрирането идва embedding-ът. Проблемът е, че много страници са твърде дълги. Вместо да режете на произволни места, разделяте по heading-и и осреднявате получените embeddings. Така запазвате смисъла на отделните секции.

Използвайте локален sentence transformer – по-бързо е и няма API разходи.

Хибриден knowledge graph

Силата идва от комбинацията между два вида връзки:

Explicit links – хипервръзките, които авторите са поставили нарочно
Semantic edges – връзки, открити чрез cosine similarity между embeddings

Съхранявате и двата типа в граф, като ограничавате броя съседи на всяка страница (около 20). Навигационните и правните страници изключвате от semantic графа – те само разводняват сигнала.

Финален продукт – SQLite база

Цялата обработена информация се събира в една SQLite база:

Пречистен markdown
Класификации на страниците
Embeddings
Граф с тегла
Метаданни

Базата е преносима, работи офлайн и позволява на AI агента да пише SQL заявки директно.

Практически workflow

Crawl-вате сайта
Преобразувате HTML в markdown
Класифицирате страниците
Генерирате embeddings
Строите графа
Записвате в SQLite

Защо си заслужава

С добре структурирана база AI асистентът прекарва времето си върху реално съдържание, а не върху шум. Отговорите стават по-точни, заявките – по-бързи, а вие запазвате пълен контрол върху данните си без външни зависимости.

Read in other languages:

RU EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN