Qué es WebGPU | Aceleración GPU para IA en el navegador | Fastex

Cuando hablamos de "IA en el navegador" mucha gente piensa que detrás hay siempre un servidor potente respondiendo. No siempre es así. Gracias a WebGPU, hoy una página web puede aprovechar la tarjeta gráfica del propio dispositivo del usuario para hacer cálculo pesado, incluida la inferencia de modelos de IA. En Fastex lo usamos para que parte de nuestra inteligencia ocurra en local, sin coste de servidor y con la máxima privacidad.

El punto de partida: el navegador necesitaba más potencia

Durante años, la web aceleró sus gráficos con WebGL, una API pensada principalmente para renderizar imágenes en 3D. Funcionaba, pero arrastraba un diseño antiguo y no estaba pensada para cálculo de propósito general (lo que se conoce como GPGPU), que es justo lo que necesita la IA moderna: multiplicar matrices enormes una y otra vez.

WebGPU es la respuesta a esa limitación. Es la API web de nueva generación para acceder a la GPU, diseñada desde cero para dos cosas: renderizado gráfico de alto rendimiento y, sobre todo, cómputo paralelo.

Qué es WebGPU, en una frase

WebGPU es una interfaz estándar que permite a una página web programar la GPU del dispositivo —tanto para gráficos como para cálculo general— de forma eficiente, moderna y segura, sin depender de plugins ni de tecnologías nativas del sistema operativo.

Por qué es tan importante para la IA

Los modelos de lenguaje y de visión hacen, en el fondo, una cantidad gigantesca de operaciones matemáticas en paralelo. Las CPU son buenas resolviendo tareas secuenciales; las GPU brillan resolviendo miles de operaciones simultáneas. Sin acceso a la GPU, ejecutar un modelo dentro del navegador sería demasiado lento para una experiencia real.

Con WebGPU, librerías de IA en el cliente como Transformers.js, MediaPipe o LiteRT pueden apoyarse en la GPU del usuario para:

generar embeddings (representaciones numéricas de un texto) para hacer búsquedas semánticas,
ejecutar modelos de clasificación o de visión,
y, en general, mover cargas de IA que antes solo eran viables en un servidor.

De hecho, los modelos de IA integrados en el navegador, como Gemini Nano, se apoyan en la aceleración por hardware del dispositivo para funcionar con una latencia razonable.

Pruébalo aquí: IA de imagen ejecutándose en tu GPU

Esto no es teoría. La siguiente demo ejecuta modelos de IA directamente sobre tu tarjeta gráfica con WebGPU, sin enviar la imagen a ningún servidor. Puedes elegir entre dos funcionalidades: distancia a cámara (un mapa de profundidad que estima cómo de lejos está cada píxel, con Depth Anything V2) y quitar el fondo (recorta el primer plano con MODNet). Verás el nombre de tu GPU y el tiempo de cálculo, para que quede claro que el trabajo ocurre en tu dispositivo. Primero descargas el modelo de cada función (una vez, queda en caché) y luego cada imagen se procesa en tu propia GPU en milisegundos.

Demo · WebGPU

IA en tu navegador, sobre tu GPU

Las ventajas de calcular en el cliente

Llevar el cómputo al navegador del usuario, apoyándose en WebGPU, aporta beneficios muy concretos:

Latencia baja: no hay viaje de ida y vuelta al servidor; la respuesta empieza casi al instante.
Coste de servidor reducido: si el cálculo ocurre en el dispositivo del usuario, no pagas infraestructura por cada petición.
Privacidad: los datos pueden procesarse sin salir del navegador.
Disponibilidad offline: una vez cargado lo necesario, parte de la funcionalidad puede seguir operando sin conexión.

Qué hace falta para usar WebGPU

WebGPU está disponible en los navegadores modernos basados en Chromium y se sigue extendiendo al resto. Como toda tecnología que depende del hardware, conviene detectar su disponibilidad antes de usarla y tener un plan B. Una buena práctica de ingeniería es comprobar si el navegador y el dispositivo soportan WebGPU y, si no es así, ofrecer una experiencia alternativa (por ejemplo, una versión más ligera basada en CPU, o derivar la consulta a un flujo distinto). Comprobarlo es tan sencillo como verificar si existe navigator.gpu en el navegador.

Cómo encaja WebGPU en lo que hacemos en Fastex

En nuestro asistente web, WebGPU es el motor silencioso que permite la búsqueda semántica en local: cuando un usuario hace una pregunta, generamos embeddings de su consulta y de nuestros artículos directamente en el navegador para encontrar el fragmento más relevante. Ese fragmento es el que después usa el modelo de lenguaje para responder. Todo ello, sin enviar la consulta a ningún servidor.

Es un ejemplo de nuestra filosofía: tratar la IA como un componente de ingeniería bien acotado, eligiendo para cada tarea la herramienta correcta —aquí, la GPU del propio usuario— en lugar de tirar de servidor por defecto.

En Fastex diseñamos arquitecturas de IA que equilibran rendimiento, coste y privacidad. Si quieres explorar IA en el cliente para tu producto, hablemos a través del formulario de contacto.

← Back to the blog

Qué es WebGPU: la GPU del usuario al servicio de la IA en el navegador