Whispering Tiger

Name: Whispering Tiger — Descargar gratis. Transcripción, Traducción y Síntesis de voz
Availability: InStock
Rating: 5 (1 reviews)
Author: Sharrnah

Whispering Tiger es una aplicación integral para conversión de voz a texto, procesamiento de texto, extracción de texto de imágenes y otras tareas. Incluye transcripción y traducción en tiempo casi real. El proyecto es de código abierto y cuenta con un amplio repositorio de complementos. Ofrece soporte especializado para funciones de VRChat, aunque funciona con otros juegos y software. Admite numerosos modelos de IA que incluyen varios motores de conversión de voz a texto, múltiples modelos de traducción de texto y numerosos sistemas de síntesis de voz que abarcan desde opciones rápidas hasta otras de alta calidad. Incluye también varios modelos de reconocimiento óptico de caracteres.

★★★★★

5.0(1 valoraciones)

Descargar Whispering Tiger (Enlaces oficiales)

Tamaño del archivo: 13.2 MB

La última versión de Whispering Tiger es: 1.3.9.8

Sistema operativo: Windows

Idiomas: Spanish, English

Desarrollador: Sharrnah

Precio: $0.00 USD

Producto de código abierto (MIT) y gratuito.

Procesamiento local. Todas las operaciones de transcripción, traducción y síntesis se ejecutan directamente en el dispositivo del usuario. Este enfoque garantiza la privacidad de los datos de audio y texto, ya que no se transmiten a servidores externos. El procesamiento local también reduce la latencia en comparación con soluciones basadas en la nube, proporcionando una respuesta más inmediata durante el uso interactivo.
Configuración detallada. La aplicación ofrece un conjunto extenso de opciones de configuración que permiten ajustar el rendimiento y el comportamiento de cada módulo. Los usuarios pueden seleccionar modelos específicos de IA para cada tarea, ajustar parámetros de sensibilidad del audio, gestionar el uso de recursos del sistema y personalizar atajos de teclado. Esta granularidad posibilita optimizar la aplicación para diferentes hardware y casos de uso específicos.
Traducción en tiempo real. La función convierte el habla de un idioma a otro con una latencia reducida. Captura el audio mediante el micrófono, lo transcribe a texto, traduce el texto resultante al idioma de destino y finalmente lo sintetiza en voz. Este proceso ocurre en una cadena continua, permitiendo diálogos fluidos entre usuarios que hablan idiomas diferentes durante partidas o comunicaciones por voz.
Conversión de voz a texto. El módulo transcribe el audio en tiempo real a texto escrito con alta precisión. Soporta múltiples motores y modelos de reconocimiento de voz, desde opciones ligeras y rápidas hasta otras más complejas y precisas. El texto transcrito puede mostrarse como subtítulos, guardarse en archivos o enviarse como entrada a otros módulos como el de traducción o síntesis de voz.
Traducción de texto. Traduce cadenas de texto automáticamente entre una amplia gama de idiomas, superando los doscientos soportados. Funciona tanto con texto introducido manualmente como con el texto generado por el módulo de voz a texto o el de reconocimiento óptico de caracteres. Permite definir perfiles de traducción con idiomas de origen y destino específicos para diferentes contextos o interlocutores.
Síntesis de voz. Convierte texto escrito en audio hablado utilizando múltiples motores y voces. Incluye soporte para tecnologías de conversión de voz y clonación de voz. Los usuarios pueden seleccionar entre voces preconfiguradas o entrenar modelos personalizados. Esta función se emplea para leer en voz alta traducciones, subtítulos o respuestas de chat, con control sobre parámetros como la velocidad, el tono y la entonación.
Reconocimiento óptico de caracteres (OCR). Extrae texto de imágenes capturadas de la pantalla o archivos gráficos. Un complemento específico permite definir una región de monitor para capturar texto en tiempo real desde interfaces de juegos, aplicaciones o ventanas. El texto detectado se puede transcribir, traducir y sintetizar posteriormente, siendo útil para traducir menús, diálogos o elementos de interfaz en software que no proporciona acceso directo a su texto.
Sistema de complementos. La funcionalidad base se extiende mediante un sistema de complementos instalables desde un repositorio integrado en la aplicación. Estos complementos añaden capacidades como visualización de subtítulos en pantalla, generación de archivos de subtítulos, emulación de escritura por teclado, tableros de sonidos para chats de voz y monitores de OCR. La arquitectura modular permite a los desarrolladores crear y distribuir nuevas extensiones.
Perfiles múltiples. Permite crear y gestionar configuraciones independientes para diferentes escenarios o usuarios. Cada perfil puede contener configuraciones específicas de modelos de IA, idiomas de traducción, voces de síntesis y complementos activos. Esto facilita cambiar rápidamente entre configuraciones optimizadas para traducir a un jugador específico, para el propio usuario o para diferentes entornos de software.
Conversión de voz en tiempo real (RVC y Tiger Voice Pro). Modifica la voz de entrada del micrófono o la salida de síntesis de voz en tiempo real. RVC emplea modelos de conversión de voz para transformar características vocales. Tiger Voice Pro utiliza técnicas de clonación de voz a partir de una muestra de audio corta para imitar una voz objetivo. Estas funciones se aplican para cambiar el timbre de la voz en chats o para hacer que las voces sintetizadas suenen como una persona específica.
Visualización de subtítulos. Muestra el texto transcrito o traducido como una superposición en pantalla. La apariencia de los subtítulos es configurable, incluyendo tamaño de fuente, color, posición, fondo y duración en pantalla. Esta visualización ayuda a seguir conversaciones en entornos ruidosos o a comprender el habla en un idioma extranjero mientras se juega o se trabaja con otras aplicaciones en pantalla completa.
Integración con VRChat. Incluye funciones diseñadas específicamente para el entorno de VRChat, como la traducción automática del chat de texto del juego, la síntesis de voz para avatares y la gestión de la comunicación entre mundos. Aunque tiene un foco especial en esta plataforma, sus componentes genéricos de audio y texto mantienen compatibilidad con otras aplicaciones que utilizan entrada de micrófono y salida de audio.

El desarrollo de Whispering Tiger comenzó en el año 2025. El software está escrito principalmente en el lenguaje de programación Python. Es un proyecto de código abierto alojado en GitHub, donde varios desarrolladores contribuyen al código base, documentación y creación de complementos. La aplicación se distribuye públicamente y su desarrollo continúa con la adición de nuevos modelos de IA, optimizaciones de rendimiento y expansión de su ecosistema de complementos.

Alternativas a Whispering Tiger:

Claritykey

Claritykey es un programa de asistencia a la escritura diseñado para personas con dislexia, dificultades de lectoescritura o cualquier condición que complique la redacción digital.

Precio: Gratis Tamaño: 42 MB Versión: 1.0 SO: Windows

Glimp

Glimp es un copiloto de entrevistas impulsado por inteligencia artificial que ofrece asistencia en tiempo real durante entrevistas virtuales.

Precio: Gratis Tamaño: 25 MB Versión: 0.1.7 SO: Windows

PicoClaw

PicoClaw es un asistente personal de inteligencia artificial extremadamente ligero, reescrito desde cero en el lenguaje Go mediante un proceso de auto-arranque donde el propio agente IA dirigió la migración arquitectónica y la optimización del código.

Precio: Gratis Tamaño: 13.4 MB Versión: 0.2.0 SO: Windows, Linux, MacOS, Android