Chat de IA local con Gemini Nano y WebMCP | Caso de uso Fastex

En artículos anteriores explicamos por separado tres tecnologías: WebMCP (para que la web exponga acciones a agentes), WebGPU (para usar la GPU del usuario) y Gemini Nano (el modelo de IA integrado en el navegador). Ahora toca lo divertido: unirlas en un caso de uso real. Este es el asistente que tienes en esta misma web, y aquí te contamos exactamente cómo funciona por dentro.

La idea en una frase

Un asistente conversacional que vive en tu navegador, responde tus dudas usando solo el contenido del blog de Fastex y, cuando no puede responder con seguridad, te ayuda a rellenar el formulario de contacto para que hablemos contigo. Sin enviar tus preguntas a ningún servidor.

Las dos misiones del asistente

El asistente tiene un comportamiento deliberadamente sencillo y predecible, con dos misiones:

Resolver dudas sobre Fastex y nuestras soluciones, exclusivamente con la información publicada en nuestros artículos. Si la respuesta no está en el blog, no se la inventa.
Derivar al contacto. Cuando la pregunta se sale de lo que cubren los artículos, en lugar de inventar, ofrece ayuda para rellenar el formulario de contacto y guía al usuario en el proceso.

Esta frontera clara —responder solo con fuentes propias o derivar— es lo que hace al asistente fiable. Es la diferencia entre un chatbot que "marea" y un asistente que aporta.

La arquitectura, paso a paso

Diagrama del flujo del chat local de Fastex: WebGPU, Gemini Nano y WebMCP

El flujo completo combina las tres tecnologías. Lo puedes seguir en el diagrama de arquitectura que acompaña a este artículo, pero aquí va la versión narrada.

Paso 1 — El usuario pregunta

El usuario escribe su duda en el chat. Todo lo que sigue ocurre dentro de su navegador.

Paso 2 — Búsqueda semántica con WebGPU

Antes de responder, el asistente necesita encontrar el fragmento de blog más relevante para la pregunta. Para ello:

Convierte la pregunta en un embedding (una representación numérica de su significado).
Compara ese embedding con los de los fragmentos de nuestros artículos, previamente calculados.
Selecciona los fragmentos más parecidos.

Este cálculo se acelera con WebGPU, usando la GPU del propio usuario. Es la fase de "recuperación" de un patrón conocido como RAG (Retrieval-Augmented Generation): primero recuperar la información, luego generar la respuesta. Si el dispositivo no soporta WebGPU, el asistente recurre a una búsqueda más sencilla por palabras clave como plan B.

Paso 3 — Respuesta con Gemini Nano

Los fragmentos recuperados se le pasan a Gemini Nano a través de la API de Prompt, junto con una instrucción muy clara: "Responde de forma cercana y útil usando únicamente este contexto. Si no está en el contexto, indícalo."

El modelo razona y redacta la respuesta en local, en español, y la mostramos en streaming para que aparezca de inmediato. El usuario percibe rapidez y naturalidad; nosotros mantenemos el control sobre las fuentes.

Paso 4 — La decisión: ¿responder o derivar?

Aquí está la pieza inteligente. Pedimos a Gemini Nano una respuesta estructurada (un JSON con un esquema fijo) que indica si la duda se ha podido resolver con el contexto o no. Al ser un dato estructurado y no texto libre, la decisión es fiable y fácil de programar.

Si sí se ha resuelto: se muestra la respuesta y listo.
Si no se ha resuelto con seguridad: el asistente pasa a su segunda misión.

Paso 5 — Relleno asistido del formulario con WebMCP

Cuando toca derivar, entra en juego WebMCP. Hemos registrado en la página un conjunto de herramientas que el asistente puede usar, por ejemplo:

rellenar_formulario_contacto({ nombre, email, mensaje })
enviar_formulario_contacto()

El asistente conversa con el usuario para recoger los datos que falten ("¿Cómo te llamas?", "¿En qué correo te contactamos?", "Cuéntame brevemente qué necesitas") y, con esa información, invoca las herramientas de WebMCP para rellenar los campos del formulario. El envío final siempre queda bajo control: se confirma con el usuario antes de mandar nada.

De este modo, el agente no necesita "adivinar" la estructura de la página: usa acciones declaradas explícitamente, lo que lo hace seguro y predecible.

Por qué este diseño nos gusta (y nos define)

Este caso de uso resume bastante bien la filosofía de Fastex:

Privacidad real: las preguntas del usuario no salen del navegador. El modelo y la búsqueda corren en local.
Coste cero por consulta: no hay servidor de inferencia detrás; aprovechamos el dispositivo del usuario.
Fiabilidad: el asistente responde solo con fuentes propias y, cuando no puede, lo reconoce y deriva, en lugar de inventar.
IA acotada: cada tecnología hace lo que mejor sabe hacer —WebGPU calcula, Gemini Nano razona, WebMCP actúa— dentro de un sistema con reglas claras.
Supervisión humana: las acciones sensibles, como enviar el formulario, pasan por la confirmación del usuario.

El resultado

Un asistente cercano que de verdad ayuda: contesta al instante con información veraz de nuestro blog y, si tu necesidad va más allá, te lleva de la mano hasta el formulario de contacto para que hablemos. Tecnología puntera puesta al servicio de algo muy simple: que te resulte fácil resolver tu duda o llegar hasta nosotros.

Este asistente lo hemos construido nosotros, y podemos construir el tuyo. Si quieres un agente de IA en tu web —privado, rápido y con criterio de ingeniería— escríbenos a través del formulario de contacto. Si el asistente no resuelve tu duda, él mismo te ayudará a rellenarlo.

← Back to the blog

Caso de uso: un chat 100% en el navegador que resuelve dudas y rellena tu formulario