Ollama
Ejecutar modelos locales para enriquecimiento, enrutamiento y respaldo del resolvedor de intención.
Ollama
Ollama respalda los pasos locales en AgentFlow: pases de enriquecimiento, el resolvedor de intención cuando intent.resolver.use_ollama_fallback está activo y el enrutamiento consciente del coste orientado a work.default_enricher. No es una integración de producto aparte: es el extremo HTTP y las etiquetas de modelo que define bajo agents.ollama, más las entradas correspondientes en models.
Configuración
Apunte endpoint a su daemon, nombre las etiquetas de chat y de incrustación que haya descargado, y refleje el ID del modelo en un perfil models con provider: ollama y las clases usage que espere usar en local.
agents:
ollama:
endpoint: http://localhost:11434
model: qwen2.5-coder:14b
embedding_model: nomic-embed-text
timeout: 300
models:
ollama_local_qwen:
provider: ollama
class: local
model: qwen2.5-coder:14b
usage: [summarize, classify, pre_review, context_selection]Requisitos previos
Arranque el daemon, descargue los pesos referenciados y deje que doctor confirme que el árbol y la configuración coinciden.
ollama serve
ollama pull qwen2.5-coder:14b
agentflow doctorUso
enrich llama a Ollama directamente cuando pasa --agent ollama; work --prefer-local mantiene en el perfil local los pasos elegibles que describa su enrutamiento.
agentflow enrich billing-v2 --agent ollama
agentflow work "refactor utils" --prefer-localIncrustaciones / RAG
embedding_model está reservado para el trabajo de recuperación que el proyecto aún no ha completado. Hoy, agentflow index persiste fragmentos de texto en SQLite: no debe esperar búsqueda por similitud vectorial en una compilación estándar.