Transcripción de audio en Chino gratis en tu navegador
VoxScriber Nano entiende Chino (中文) y procesa localmente en tu dispositivo. Límite de 10 min en modo gratuito.
Ejecuta VoxScriber Nano (open-source) en tu navegador — IA local, hasta 10 min por archivo, precisión básica (~85%). Para uso profesional, conoce Premium.
La transcripción se ejecuta localmente en tu navegador. Puedes compartir el resultado con nosotros de forma opcional (con consentimiento) para mejorar el servicio. Límite: 10 min por archivo, precisión ~85%.
Gratis vs Premium — las diferencias
| Gratis (navegador) | Premium (nube) | |
|---|---|---|
| Límite por archivo | 10 min | 10 horas |
| Precisión | ~85% | >95% |
| Diarización (quién habla) | ❌ | ✅ |
| Marcas de tiempo por palabra | ❌ | ✅ |
| Soporte de vídeo (MP4/MOV) | ❌ | ✅ |
| Formatos de exportación | TXT, SRT, VTT | DOCX, PDF, JSON… |
| Velocidad (1h de audio) | ~2 min / 1h | ~2 min / 1h |
| Privacidad | 100% local | ☁️ + 🔒 |
IA local
La transcripción se ejecuta en tu navegador. El envío a nuestros servidores es opcional (requiere consentimiento).
Rápido y local
Procesamiento directo en el navegador, sin colas de espera.
99 idiomas
Detecta automáticamente el idioma del audio.
Sin registro
Empieza de inmediato, sin crear cuenta.
Cómo funciona
Sube o graba el audio
Arrastra un archivo MP3, WAV, M4A, OGG o usa el micrófono directamente.
La IA corre en tu dispositivo
Whisper AI se descarga una vez y queda en caché. Sin espera la próxima vez.
Copia o descarga el texto
Resultado en pantalla en segundos. Descarga en .txt o copia con un clic.
¿Qué tan bien maneja Whisper el Chino?
Whisper genera caracteres chinos simplificados por defecto y maneja el mandarín de manera confiable, resolviendo homófonos dependientes del tono según el contexto. La salida en caracteres tradicionales es inconsistente (puede mezclar escrituras) y el cantonés es notablemente más débil que el mandarín. No se añaden espacios entre palabras, lo cual es correcto para el chino.
De dónde suele provenir el audio en Chino
Mensajes de voz de WeChat, reuniones de negocios, conferencias universitarias y contenido de podcasts o videos.
¿Qué tan precisa es la transcripción en el navegador?
La transcripción en el navegador ejecuta el modelo Whisper de OpenAI directamente en tu dispositivo usando WebAssembly. Ofrecemos tres tamaños de modelo, y la precisión depende del que elijas:
- Nano (~40MB) — El predeterminado. Alrededor del 85% de precisión en voz clara. Ideal para notas rápidas, mensajes de voz y borradores. El único modelo que funciona en iOS.
- Mini (~150MB) — Aproximadamente 90% de precisión. Un buen punto intermedio si tu dispositivo tiene 4GB+ de RAM y necesitas una salida más limpia.
- Plus (~500MB) — La opción local más precisa, acercándose al 93% en audio claro. Más lento de descargar y ejecutar; ideal en equipos de escritorio con 8GB+ de RAM.
Lo que reduce la precisión de cualquier modelo local: ruido de fondo, varias personas hablando al mismo tiempo, acentos fuertes y grabaciones de baja tasa de bits como notas de voz comprimidas. Si necesitas precisión profesional superior al 95%, marcas de tiempo a nivel de palabra o etiquetas de hablante, eso requiere modelos en la nube — consulta la comparación anterior.
Transcripción en el navegador vs en la nube: ¿cuál necesitas?
La transcripción en el navegador es la herramienta adecuada cuando la privacidad es lo más importante o el audio es corto: no se sube nada, no hay nada que eliminar después y no cuesta nada. La compensación es velocidad y precisión: tu CPU procesa aproximadamente una hora de audio en veinte minutos, y el modelo local omite las etiquetas de hablante y el tiempo a nivel de palabra.
La transcripción en la nube es la herramienta adecuada cuando estás trabajando: reuniones, entrevistas, conferencias, grabaciones legales. GPU dedicadas convierten una hora de audio en texto en aproximadamente dos minutos con más del 95% de precisión, etiquetan hasta 30 hablantes diferentes, aceptan archivos de hasta 10 horas de duración y exportan a DOCX, PDF y JSON además de los formatos de subtítulos.
Una regla práctica: si te sentirías cómodo leyendo la grabación en voz alta en una cafetería, la velocidad y precisión de la nube ganan. Si el audio es sensible — una consulta médica, una reunión confidencial, una nota de voz privada — la herramienta del navegador mantiene todo en tu máquina y aún te da una transcripción útil en minutos. Muchos de nuestros usuarios combinan ambas: notas privadas rápidas en el navegador, trabajo profesional en la nube.
Ver planes Premium →Formatos de audio compatibles
Sube MP3, WAV, M4A, OGG, OPUS, FLAC o WEBM — cualquier cosa que tu navegador pueda decodificar. Las fuentes comunes funcionan de inmediato: notas de voz de WhatsApp (OPUS), notas de voz de iPhone (M4A), archivos de grabadora de Android, grabaciones de Zoom (M4A/MP4), mensajes de voz de Telegram (OGG) y archivos de podcast (MP3). Los contenedores de video como MP4 y MOV se decodifican para su pista de audio cuando el navegador admite el códec. Si un archivo no se carga, la causa habitual es un códec inusual dentro de un contenedor común: convertirlo a MP3 primero lo soluciona en casi todos los casos.
¿Necesitas un formato diferente primero? Usa nuestros convertidores gratuitos: convertidor gratuito de audio MP3 / WAV / OGG / AAC
¿Necesitas más? Conoce el Premium
Para uso profesional — diarización, archivos largos, análisis por IA y exportación en todos los formatos.
Diarización de hablantes
Identifica automáticamente quién habla en cada segmento. Perfecto para reuniones, entrevistas y podcasts.
Archivos de hasta 10 horas
El modelo local soporta 10 min. Premium procesa archivos de hasta 10 horas.
Resumen, sentimiento y temas
La IA analiza el contenido y genera resumen ejecutivo, análisis de sentimiento y extracción de temas.
Exportación completa
Exporta en SRT, VTT, DOCX, JSON y PDF — ideal para subtítulos, documentos y automatizaciones.