Gemini Nano y la API de Prompt | IA integrada en el navegador | Fastex

Una de las novedades que más nos entusiasma en Fastex es la IA integrada en el navegador. Chrome incorpora Gemini Nano, un modelo de lenguaje que se ejecuta directamente en el dispositivo del usuario, gestionado por el propio navegador. Esto abre la puerta a asistentes que responden al instante, sin coste por petición y sin que los datos salgan del equipo. Vamos a ver qué es y cómo se usa.

Qué es la IA integrada y qué es Gemini Nano

"IA integrada" significa que el navegador proporciona y administra los modelos por ti. En Chrome, ese modelo base es Gemini Nano. La gran diferencia con la IA tradicional en la nube es dónde ocurre el cálculo: aquí ocurre en local, en el equipo del usuario.

El navegador se encarga de descargar el modelo, actualizarlo y compartirlo entre los distintos sitios que lo usan, de modo que no tienes que empaquetarlo ni servirlo tú. Una consecuencia importante: una vez descargado el modelo, su uso no requiere conexión a internet y no se envían datos a Google ni a terceros.

La familia de APIs

Sobre Gemini Nano, el navegador expone varias APIs especializadas. Cada una resuelve un tipo de tarea:

API de Prompt: la más flexible; envías instrucciones en lenguaje natural y obtienes una respuesta. Es la que usamos para conversar y razonar.
API de Summarizer: genera resúmenes en distintos formatos y longitudes.
API de Translator y Language Detector: traducción y detección de idioma en el dispositivo.
API de Writer y Rewriter: redactar contenido nuevo o reescribir el existente.
API de Proofreader: mejora la gramática y la legibilidad de un texto.

Para un asistente conversacional que responde preguntas, la pieza central es la API de Prompt.

Cómo se usa la API de Prompt

El flujo de trabajo tiene un patrón muy claro y predecible, que es justo lo que buscamos en ingeniería.

1. Comprobar disponibilidad. Antes de nada, se pregunta al navegador si el modelo está listo. La respuesta puede ser que está disponible, que se puede descargar, que se está descargando o que no está disponible en ese dispositivo.

1const estado = await LanguageModel.availability();
2// 'available' | 'downloadable' | 'downloading' | 'unavailable'

2. Crear una sesión. Si el modelo está disponible (o se puede descargar), se crea una sesión. Aquí podemos darle al modelo un system prompt con su personalidad y sus reglas, e incluso seguir el progreso de descarga para informar al usuario.

1const session = await LanguageModel.create({
2  initialPrompts: [
3    { role: 'system', content: 'Eres el asistente de Fastex, cercano y claro.' }
4  ],
5  expectedInputs:  [{ type: 'text', languages: ['es'] }],
6  expectedOutputs: [{ type: 'text', languages: ['es'] }],
7});

La API de Prompt admite español como idioma de entrada y salida, lo cual es esencial para nosotros.

3. Lanzar la consulta. Para respuestas cortas se usa prompt(); para respuestas largas, promptStreaming(), que va devolviendo el texto poco a poco para mostrarlo en tiempo real.

1const respuesta = await session.prompt('¿Qué servicios ofrece Fastex?');

Respuestas estructuradas: el detalle que lo cambia todo

La API de Prompt permite forzar que la respuesta del modelo siga un esquema JSON concreto, mediante la opción responseConstraint. Esto es oro para construir sistemas fiables: en lugar de interpretar texto libre, obtenemos datos con una forma garantizada.

1const schema = { type: 'boolean' };
2const resultado = await session.prompt(
3  '¿Este texto trata sobre cerámica?\n\n' + texto,
4  { responseConstraint: schema }
5);
6JSON.parse(resultado); // true / false

Nosotros lo aprovechamos para que el modelo decida, de forma estructurada, si puede responder con la información disponible o si conviene derivar al usuario al formulario de contacto. Esa decisión deja de ser una adivinanza y pasa a ser un dato controlado.

Gestión de la sesión y de la ventana de contexto

Cada sesión recuerda la conversación hasta que se llena su ventana de contexto. El modelo es ligero, así que el contexto es limitado: hay que ser cuidadoso con cuánta información se le mete de golpe. Buenas prácticas:

Inyectar solo el fragmento de información relevante para cada pregunta, no documentos enteros.
Vigilar el uso de contexto y, si hace falta, resumir el historial.
Reutilizar la sesión en lugar de recrearla constantemente, porque crearla tiene un coste.

Requisitos a tener en cuenta

Como es un modelo que vive en el dispositivo, hay requisitos: un sistema operativo de escritorio compatible, espacio de almacenamiento libre suficiente para el modelo, una GPU con memoria de vídeo adecuada (o una CPU potente) y una conexión sin límite para la descarga inicial. Por eso, en una implementación seria, siempre se comprueba la disponibilidad y se ofrece una alternativa cuando el dispositivo no cumple los requisitos.

Cómo lo usamos en Fastex

En nuestro asistente web, Gemini Nano es el cerebro que conversa con el usuario en español, de forma cercana, sin enviar sus preguntas a ningún servidor. Lo combinamos con búsqueda semántica en local para que responda únicamente con el contenido de nuestros artículos, y con respuestas estructuradas para decidir cuándo ayudar al usuario a contactar con nosotros. Es IA útil, privada y predecible: nuestra forma de entender la ingeniería de IA.

¿Te imaginas un asistente que responde al instante, en local y sin coste por consulta? En Fastex lo construimos. Cuéntanos tu caso en el formulario de contacto.

← Volver al blog

Gemini Nano en el navegador: IA integrada, local y privada con la API de Prompt