Latencia < 500ms en tiempo real

Traduce en tiempo real.
Suena como tú.

Habla en tu idioma, entiende cualquier idioma. VoxTwin traduce tu voz al instante durante videollamadas y la reproduce con tu propio timbre — sin acento artificial. Con asistente IA en tiempo real integrado.

Zoom, Meet, Teams Múltiples idiomas Cancela en cualquier momento
VoxTwin — Sesión activa ● En vivo
Latencia: 340ms Frases: 12 Sesión: 00:08:42 🤖 Asistente ON
Original:
"Tengo experiencia en microservicios con Docker y Kubernetes."
Traducción:
"I have experience in microservices with Docker and Kubernetes."
STT: 280ms · Trad: 60ms · SPEC HIT
VISITANTE
Original:
"Can you describe a time you solved a race condition?"
Traducción:
"¿Puedes describir una vez que resolviste una condición de carrera?"
STT: 310ms · Trad: 55ms
🤖 ASISTENTE IA [10:23:41]
Escuchando: "Can you describe a time you solved a race condition?"
Una race condition ocurre cuando dos hilos acceden al mismo recurso sin sincronización. La resolví usando un mutex (threading.Lock en Python) para serializar el acceso a la caché compartida. También consideré usar una cola (queue.Queue) que es thread-safe por diseño...

¿Cómo funciona?

Tres componentes trabajando juntos en menos de 500ms

01

Captura de audio

Tu micrófono y el audio del sistema se capturan simultáneamente. WASAPI loopback detecta la voz del visitante sin drivers adicionales.

02

STT + Traducción

Deepgram convierte voz a texto en <300ms. El motor de traducción procesa con contexto de conversación. La traducción especulativa reduce la latencia percibida.

03

TTS + Enrutado

ElevenLabs genera audio con tu voz clonada. VB-Cable enruta el audio directamente a tu videollamada. El visitante escucha tu voz, no una voz genérica.

Todo lo que necesitas

Construido específicamente para videollamadas en Windows

Traducción bidireccional

Dos pipelines independientes en paralelo — tu voz y la del visitante — con latencia <500ms cada uno. Soporta múltiples pares de idiomas.

🎙️

Clonación de voz

ElevenLabs replica tu timbre de voz. El interlocutor no percibe que estás usando un traductor — suenas exactamente como tú.

🤖

Asistente IA en tiempo real

Claude Sonnet analiza la conversación en vivo y te proporciona contexto, sugerencias y respuestas en tu idioma mientras la llamada sucede.

🧠

Memoria contextual

La traducción mejora con el contexto de la conversación. Glosario automático de términos para mantener consistencia durante toda la sesión.

📋

Resumen post-llamada

Al terminar la sesión, la IA genera un resumen ejecutivo, puntos clave y glosario bilingüe automáticamente. Exportable a texto.

🔧

Configurable sin código

Elige entre DeepL, Claude o GPT para traducción. ElevenLabs u OpenAI TTS. Configura idiomas y proveedores directamente desde la interfaz.

Compatible con: 📹 Zoom 📹 Google Meet 📹 Microsoft Teams 📹 Discord 📹 Skype Windows 10/11

Planes simples y transparentes

Cancela en cualquier momento. Sin compromisos.

Básico
Gratis
Para siempre
  • Traducción en tiempo real
  • STT con Deepgram Nova-3
  • Captura audio del sistema (loopback)
  • Asistente IA en tiempo real
  • Resumen post-llamada con IA
  • Clonación de voz
Crear cuenta gratis →
Completo
$49
/mes
~$1.63 USD por día
  • Todo lo del plan Intermedio
  • Clonación de tu voz (ElevenLabs)
  • El visitante escucha tu timbre real
  • Configuración de voz personalizada
  • Todos los modelos de IA disponibles
  • Soporte prioritario

🔒 Pago seguro con Stripe · Cancela en cualquier momento desde tu panel

Preguntas frecuentes

Sí. El audio se enruta a través de VB-Cable (incluido en las instrucciones de instalación), que actúa como micrófono virtual. Cualquier aplicación de videollamada que permita seleccionar el micrófono de entrada funciona.
VoxTwin soporta todos los idiomas disponibles en los proveedores configurados. Deepgram soporta más de 30 idiomas para STT, y DeepL/Claude/OpenAI cubren los principales idiomas del mundo. El par de idiomas se configura en la app antes de cada sesión.
Sí, el STT, la traducción y el TTS son servicios en la nube. Una conexión estable de al menos 5 Mbps es suficiente. El consumo de datos es mínimo — principalmente audio comprimido en tiempo real.
Con el plan Completo, configuras tu voz clonada en ElevenLabs (necesitas su cuenta y unos minutos de grabación). La app usa ese voice ID para que la traducción suene con tu timbre. El proceso de clonación es externo — en VoxTwin solo ingresas el ID de tu voz.
Desde tu panel de usuario → "Mi plan" → "Cancelar suscripción". La cancelación es inmediata y conservas el acceso hasta el fin del período pagado. Sin penalizaciones ni preguntas.
Sí. VoxTwin usa tus propias API keys de Deepgram (STT), DeepL o Anthropic/OpenAI (traducción) y ElevenLabs (TTS). Esto te da control total sobre el uso y costos. La mayoría ofrece niveles gratuitos suficientes para sesiones normales.