Claude Computer Use: automatiza cualquier interfaz con MCP y agentes
Descubre cómo Claude puede controlar tu escritorio, navegador y apps mediante el Model Context Protocol. Te cuento cómo lo he probado y por qué cambia las reglas del juego para automatizar procesos visuales.
01 01. Computer Use: el fin de los scripts frágiles
Hasta ahora, automatizar una web con login, drag & drop o menús desplegables era una pesadilla: selectors CSS que se rompen, tiempos de espera, captchas. Claude Computer Use cambia eso. Anthropic lanzó una versión de Claude que puede ver la pantalla y usar el ratón y teclado como un humano. No necesitas APIs ni selectores: solo le pides que haga algo y él lo ejecuta en tu escritorio.
Lo probé para un flujo tedioso: rellenar un formulario de incidencias con datos de una hoja de cálculo, adjuntar capturas y enviarlo. Con Computer Use, le dije: «Abre la hoja, lee la fila 5, ve al formulario, rellena los campos, sube la imagen y envía». Lo hizo sin un solo error. La clave: no parsea el DOM, sino que interpreta píxeles como nosotros.
02 02. MCP: el pegamento entre Claude y tus herramientas
Pero Computer Use solo es la punta del iceberg. El Model Context Protocol (MCP) es un estándar abierto que permite a Claude conectarse directamente con bases de datos, APIs locales, sistemas de archivos o cualquier servicio que exponga un servidor MCP. Piensa en él como un USB-C para agentes: conectas tu base de PostgreSQL, tu calendario, tu Slack, y Claude puede leer, escribir y actuar.
Monté un servidor MCP para mi base de clientes y pedí a Claude: «Busca clientes que no hayan pagado en marzo, envíales un recordatorio por email y actualiza el estado». Claude ejecutó la consulta SQL, redactó el correo con tono profesional y marcó la columna. Todo desde una petición en lenguaje natural. Impresionante y aterrador a partes iguales.
03 03. Agentes autónomos: de la receta al orquestador
Lo más sorprendente llega cuando combinas Computer Use con MCP en un agente persistente. Creé un workflow en n8n que lanza un agente Claude cada hora. El agente revisa mi bandeja de entrada, prioriza correos, responde los urgentes y programa reuniones. Usa MCP para conectarse a Google Calendar y Computer Use para interactuar con la web de mi CRM cuando no hay API.
¿Magia? No, solo integración inteligente. La latencia es de unos segundos por acción, pero para tareas que antes me llevaban 20 minutos, vale la pena. El coste de API es menor de lo que pensaba si limitas los contextos. Y todo corre en un VPS con Docker, self-hosted.
04 04. Requisitos y límites reales
Computer Use necesita que Claude tenga acceso visual a la pantalla. En local usé el contenedor oficial de Anthropic con X11 forwarding. Para servidores remoto, hay soluciones como VNC o navegadores headless controlados por Puppeteer que emulan la pantalla. No es plug-and-play, pero con Docker Compose lo tuve listo en una tarde.
Limitaciones: Claude puede equivocarse si la interfaz cambia drásticamente (igual que un humano), y cada acción consume tokens. Para procesos largos, recomiendo partir la tarea en pasos más pequeños y validar con un humano al final. Además, ten cuidado con permisos: el agente puede borrar archivos o enviar emails sin querer. Dale siempre un sandbox.
services:
claude-agent:
image: anthropics/claude-desktop:latest
environment:
- CLAUDE_API_KEY=${CLAUDE_API_KEY}
- DISPLAY=${DISPLAY}
volumes:
- /tmp/.X11-unix:/tmp/.X11-unix
- ./mcp-servers:/home/user/.claude/mcp-servers
network_mode: host¿Ya has probado Computer Use o algún MCP personalizado? Cuéntame qué automatización te gustaría delegar a Claude y si te atreves con el setup. ¡Te leo en comentarios!