04. Cómo convertir audio en texto para posicionar en Google

Os explico todas las formas posibles de transcribir audio a texto, desde lo más artesanal a las últimas aplicaciones basadas en inteligencia artificial 🤖

📹 Descript: https://eliasgomez.pro/descript

Intro

Buenas a todos y bienvenidos a Una Cosa Menos, el videopódcast en el que hablamos de herramientas y productividad para tu negocio. Hoy vamos a hablar de transcripciones para podcasting.

Bueno, como ya sabrás si me sigues desde hace tiempo o si has consumido contenidos míos como los pódcast de Negocios y WordPress, a mí me encanta el audio. He hecho radio, he hecho locuciones. Hago, pódcasts supuesto, y como me gusta la tecnología, siempre me ha interesado esto de las transcripciones, que haya una tecnología que permita transformar el audio en texto.

Ya desde hace años existen algoritmos, herramientas, como lo queráis llamar, para hacer esta tarea, para convertir cualquier tipo de mensaje de voz o de audio grabado con la voz, decir de un mensaje hablado, que nos lo transforme en texto escrito. Y ya ahora, con la llegada entre comillas, el hype que hay con el tema de la inteligencia artificial, están saliendo herramientas como setas. Así que, bueno, voy a contar un poquito las distintas estrategias que podemos utilizar para realizar esta tarea.

Y de hecho es que llevo tiempo recopilando distintas herramientas, servicios, etcétera, porque en realidad hay un montón y os voy a ir contando como las distintos tipos o métodos que existen para poder realizar esto.

Dictado

Bueno, la forma más artesanal de hacerlo es hablándole directamente al ordenador, dictándole, podríamos decir, ¿no? Por ejemplo, el propio Google Docs tiene

un apartado para escribir con la voz. Bueno, igual que el teclado de nuestro móvil… Es que esto existe desde hace mucho, y entonces se me hace raro decirlo, ¿No?

Pero bueno, esto lo tenemos desde hace mucho tiempo en herramientas como digo, como Google Docs o DictaNote. E incluso recuerdo que IBM tenía un motor llamado Watson en el que podías ponerte a hablar y te reconocí al texto. Creo que también admitía un mp3, pero lo que hacía era reproducirlo como en segundo plano y lo iba transcribiendo en tiempo real, ¿vale? No, no era como los motores de ahora que te lo procesan ahí a toda velocidad.

Aquí lo que podemos hacer es instalar una tarjeta de sonido virtual y decirle que la reproducción, por ejemplo, de VLC voy a decir el reproductor multimedia con el fichero que queremos transcribir, lo saque por esa tarjeta virtual y que la herramienta de dictado, su dispositivo de entrada sea esa tarjeta virtual.

Entonces, directamente el audio se va a transmitir de una aplicación a otra y se hará la transcripción. Pero claro, tenemos que instalar un software adicional, tenemos que esperar a que se reproduzca en tiempo real ese fichero.

Además, por ejemplo, Google Docss, si cambias de pestaña, deja de funcionar porque ya detecta que no le estás hablando a esa pestaña. En el caso de Watson de IBM necesitas elegir el idioma cada vez. Bueno, es un poco lío, todo este tipo de herramientas y además, hoy en día están totalmente obsoletas.

YouTube

Otra forma que también se puede utilizar desde hace mucho tiempo es con YouTube porque YouTube desde hace años hace transcripciones de forma automática de todos sus vídeos, los subtítulos automáticos de, de YouTube. Y lo que podemos hacer es, o bien generar un vídeo con nuestro audio que también hay formas de hacerlo de forma muy rápida, también tengo pensado hacer un episodio sobre esto, y si no, pues, un vídeo grabar un vídeo como tal, si ya tenemos un vídeo o si nos podemos plantear la opción de generar ese contenido en vídeo, como yo estoy haciendo ahora que esto podría ser perfectamente un pocas de audio, pero también quiero que tenga vídeo para que me veáis y a veces pongo contenido accesorio para que se entienda mejor la explicación. Pues bueno, Youtube os va a dar de forma gratuita y automática una transcripción. Claro, hay que esperar a que se transcriba, etcétera, etc. Y puede ser un proceso un pelín engorroso, pero bueno, es gratis y sobre todo si ya vais a generar ese contenido en vídeo, pues creo que es una opción muy buena.

Transcriber Bot

Vamos con otra opción que yo creo que sería casi casi casi mi favorita hoy en día, y son los bots de Telegram. Hasta hace poco, yo utilizaba un bot que se llamaba Voicy, pero parece que el desarrollador está metido en muchos proyectos y lo ha vendido, lo ha puesto a la venta. Bueno, tienes que pagar si quieres acceder a él, creo que vale $6, y entonces ya tienes acceso a consumir los recursos del servidor de este desarrollador. Pero bueno, la verdad es que funcionaba muy bien y me dio pena que tuviera que dejar de utilizarlo. Así que busqué una alternativa.

Se llama Transcriber Bot, o «transcraiber» bot, y admite tanto ficheros de audio como mensajes de voz, o sea lo que es audio, como imágenes, también permite extraer texto de imágenes. Yo creo que esto se puede hacer de muchas maneras, pero bueno, está bien también tenerlo en el mismo bot. Lo bueno de esto es que es super fácil de utilizar, flexible porque podemos reenviar audio que nos hayan mandado. Yo, a veces selecciono audios de WhatsApp, le doy a compartir y lo mando al bot, y entonces lo puedo leer. Bueno, es genial. Se puede añadir, por supuesto, también en grupos de chat, en grupos de Telegram, vamos. Y si alguien manda un mensaje de audio, se transcribe automáticamente.

Así que, es genial. Ya os digo, no sé que limitaciones tendrá, pero funciona bastante bien. No sé si se puede configurar. Por ejemplo, Voicy permitía elegir el motor de transcripción. Pero la verdad es que yo no tengo pegas, y la verdad es que suele entender bastante bien todo lo que se dice, sobre todo si es un audio, pues como en un pódcast que se trata de hablar de forma que se entienda, etcétera, etcétera.

Quizás un mensajito de audio a tu colega, pues no lo transcribe tan bien, pero vamos funciona de maravilla, gratis, fácil, en el Telegram. Así que perfecto.

FreeSubtitles

Y nos vamos ya con los servicios dedicados servicios online que podemos utilizar desde nuestro navegador normalmente, aunque quizás algunos tienen aplicaciones, para transcribir directamente un vídeo para transcribir directamente un audio o un vídeo, porque esto también se está poniendo muy de moda, el hecho de transcribir el vídeo directamente que en lugar de darle un audio, le demos un vídeo.

Hace poco he descubierto una que se llama FreeSubtitles.ai. Y me pareció genial porque era muy fácil de utilizar. Era en una web, era gratis, admitía bastante duración o peso del archivo, pero yo lo he probado y no funciona. Además gratis, sólo tenemos hasta 300 megas o una hora de duración que para la mayoría de casos de uso, yo creo que nos sirve de sobra. Quizás para los pódcasts de Negocios y WordPress no porque siempre nos pasamos un poquito de la hora. Pero también tenemos planes de pago, un plan de pago donde podemos subir archivos de hasta 10 horas o 10 gigas de tamaño de archivo.

Y además, permite pegar un enlace, por ejemplo, un enlace de YouTube o un enlace a un mp3. Además, es multilenguaje, incluso le puedes decir que transcriba a varios lenguajes o idiomas a la vez seleccionando una opción. Esto es de pago, por supuesto. Pero es que yo lo he probado y no me funcionó. Le subí un archivo de Una Cosa Menos de seis minutos o siete minutos, lo dejaba horas funcionando y no me funcionaba.

Así que, bueno, no se parecía bastante buena, pero quizás es que esté saturado. Os recomiendo que le echéis un vistazo a ver si a vosotros os funciona, porque yo le he visto recomendada en varios sitios y la vez que tiene buena pinta.

Bueno, por cierto, os estoy comentando ahora los servicios que son gratis o que tienen una parte gratuita generosa.

Auphonic

La siguiente es Auphonic. Es una herramienta que utilizo más que para procesar el audio para distribuir, pero es principalmente conocida porque permite procesar el audio de forma automática, incluso puedes hacer automatizaciones con ella y demás. Se suele utilizar en podcasting para quitar ruido, para nivelar volúmenes. Yo, bueno, como lo hago muy rápido en Audacity, no le sacaría partido en eso. Y lo bueno es que tiene compatibilidad con un motor, o con varios en realidad, de transcripción dentro del propio servicio.

Eliges que, además de procesar el audio, te lo transcriba, te lo pro para darte un archivo de subtítulos.

No tienes que pagar por utilizar los modelos de transcripción, aunque la aplicación solo te permite transcribir dos horas al mes. Bueno, procesar dos horas de audio al mes.

Tiene varios planes de pago y el más barato es de nueve horas al mes por 10 euros al mes. Yo creo que es de las opciones de pago más baratas, así que es una opción a tener muy en cuenta.

Transcribo

Y nos vamos ahora con las opciones de pago. Igual os voy diciendo algunas que me llamen la atención por algo. Por ejemplo, la más barata se llama Transcribo. Te da 30 minutos gratis que tampoco está nada mal. Y si luego quieres añadir más horas de transcripción, cuesta $5 la hora. Ya estamos viendo que directamente nos costaría mucho menos hacerlo con Auphonic, pero bueno, esta es una aplicación dedicada a tema de transcripción y es posible que lo haga mejor, porque en Auphonic son nueve horas por 10 euros, nos sale casi a euro la hora mucho más barato.

HappyScribe y Otter

Luego tenemos AmberScript desde 10 euros la hora, HappyScribe, que es muy conocida, porque además ha tenido oferta lifetime en AppSumo, desde 12 euros la hora. Luego tenemos también, por ejemplo, Otter, que funciona muy bien para temas de reuniones online. Hay muchos servicios de estos que funcionan, o bien solo para reuniones de video conferencia en Google Meet, Microsoft Teams, etc.

Y algunas que hacen transcripciones normales y también este tema de las videoconferencias.

Por ejemplo, en Otter puedes importar archivos y que te los transcribe directamente en el servicio. Si no me equivoco, te deja hacer tres importaciones de archivos al mes con la cuenta de pago, eso sí.

ConvertSpech

También tenemos ConvertSpeech, que es una que yo utilizaba antes bastante. Al principio era gratis, ilimitado y ahora solo te regalan, digamos, cinco minutos gratis. Es decir, los primeros cinco minutos de cada audio. Que bueno para algunos casos puede servir. Y el caso es que yo he ido conociendo muchos servicios que poco a poco han ido limitando, que es que es lógico también, y eso hace que tengas que ir buscando alternativas o pagar por uno de estos servicios, digamos premium, que simplemente pagando no tienes límite porque pagas por hora porque te incluye muchas horas al mes.

Descript

Como es el caso de Descript, que es una herramienta que me está encantando, es donde estoy grabando ahora mismo este vídeo, y es que es para flipar. Porque ya solo el software como editor de vídeo es la leche. Hace transcripción, se maneja de una forma muy sencilla, tiene muchas posibilidades, puedes extraer vídeos para redes sociales, generar subtítulos, es en la nube, se hacen las copias de seguridad automáticamente. Yo ahora que estoy trabajando en varios ordenadores a la vez, esto que estoy grabando se está subiendo automáticamente a la nube a los servidores de Descript y cuando llegue a casa, puedo seguir editando, abriendo la aplicación y accediendo el proyecto, se descargan los recursos automáticamente. Bueno, es genial, pero vamos a centrarnos en la parte de las transcripciones.

En el plan gratuito tenemos una hora al mes que ya es más de lo que te dan algunos otros programas, pero si pagamos a partir de $15 al mes tendremos con este plan, que es el primero de los planes premium, 10 horas al mes. Hemos visto que quizás a nivel de transcripción no sea la más barata, pero la gran mayoría de servicios son más caros que Descript y además con Descript tenemos toda la funcionalidad de edición de vídeo y de audio, por cierto, porque para audio también está genial.

Tengo que hacer un episodio también de Descript, porque podemos marcar capítulos en pódcast, podemos exportar directamente en un montón de formatos, podemos exportar también la transcripción que nos genera, evidentemente, en formato texto. Bueno, es genial.

Como veis, me gusta mucho Descript, me encanta, le estoy cogiendo mucho el gustillo. Y además, hay una oferta, por cierto, en Secret con la que puedes obtener seis meses por $50. Aunque yo, como lo cogí en black Friday, me costó 25. Pero bueno, tenéis un código descuento en Negocios y WordPress si queréis. Y la verdad es que, bueno, me encanta y seguro que haré algún episodio.

Pero no me quiero ir sin mencionaros dos herramientas más. Una es MacWhisper y es que una de las cosas que quería comentar en este episodio es que me iba a animar a hacer un directo o algo así intentando instalar el local Whisper, porque OpenAI lo pasó a código abierto y la gente se lo puede instalar en su ordenador o tenerlo en una instancia en la nube o lo que sea.

Yo dije, esto para tener transcripciones gratis sería genial. Bueno, pues resulta que un tío lo ha empaquetado en una aplicación de mac gratuita, aunque tiene opción de pago que se llama MacWhisper, que funciona de la leche, que le está metiendo un montón de funcionalidades y que entonces ya no me hace falta hacer ese directo.

Así que totalmente recomendado, macWhisper, la descubrí, por cierto, en el pódcast Weekly de Emilcar.

SwellAI y MacWhisper

Y también, gracias Emilcar he descubierto la otra aplicación que te quería explicar hoy. Se llama Swell.ai y es un servicio online que está dedicado o está pensado justamente para esto, para hacer transcripciones de podcasting, pero es que te permite subir los episodios con con Dropbox con Drive con por supuesto directamente subiendo el archivo. Vamos que puedes hacerlo atrás de una URL o con un fichero de tu ordenador. Y automáticamente te da la transcripción, pero no sólo eso te genera como los puntos clave de tiempo , como si fuesen los capitulitos del pódcast para ponerlos en la descripción, por ejemplo, en YouTube y que se pueda ir directamente. Te genera resúmenes como un par de párrafos o tres de lo que habla el episodio.

E incluso te genera posibles títulos para tu episodio que sean llamativos o que sean un poco diferentes, ¿no? Tiene un apartado también para hacer una petición específica. Pero bueno, yo creo que, con estos textos que ya nos genera la herramienta, pues está genial.

Lo otro que nos genera es una adaptación de la transcripción en forma de artículo. Nos reescribe el contenido, pero en lugar de tal como lo hemos dicho, pues he escrito para ponerlo, por ejemplo, en un artículo de un blog.

Lo malo que sólo nos permite subir en el plan gratuito, un archivo al mes. No pone limitaciones, pero bueno, solo nos permite procesar un episodio. Si que nos procesar más, tenemos que pagar un mínimo de $29 al mes, qué nos permite subir cinco episodios. Si es para un pódcast pues yo creo que puede ser suficiente para un, por ejemplo, semanal. Pero si quieres transcribir muchos contenidos, vídeos, etcétera, pues no nos serviría y nos tendríamos que ir al siguiente plan, qué vale $49 al mes. También está la opción de pagar $9 por cada fichero.

Yo creo que si funciona como parece que funciona, porque yo he subido un episodio y ha funcionado, lo ha hecho todo bastante bien. Aunque me respondía en inglés todo. Entonces, no sé si en el futuro le meterán algo de forzarlo en inglés.

Según parece, Emilio, Emilcar ha estado probando, y dándole a generar otra resumen, sea, puedes forzar que te genere nuevas versiones de cada uno de los textos, y se los generaba al parecer ya en castellano. Entonces, igual esto lo tienen que ir puliendo, pero el servicio me parece genial. $30 al mes para según que pódcast me parece demasiado, pero bueno, si no ya tenéis el resto de opciones como Descript, como el bot de Telegram, etcétera, etcétera.

FreePodcastTranscription

Bueno, bueno, y antes de acabar, vamos con una última herramienta que desde que grabé hasta que estoy editando, como se suele decir, soy el Elías del futuro, ha aparecido de manos de spreaker.

Se llama free post transcripción y como su nombre indica, nos permite transcribir de forma gratuita nuestro pódcast.

Es una especie de asistente en el que elegimos primero el idioma, luego el fichero, luego le damos a transcribir, a mí me ha tardado unos minutos en trascribir, un episodio de unos seis minutos de duración. Nos aparece un paso en el que nos permite editar la transcripción, salen como las frases independientes de la transcripción. Podemos evitarlas y guardarlas.

Y el último paso es darle a publicar. Nos obliga entre comillas, a pesar de ser algo teóricamente privado a subirlo a sus servidores para poder copiar la u incrustaron nuestro feed en la etiqueta podcast:transcript y también nos ofrece un botón para descargarlo en formato .srt.

Lo más interesante de todo es que se supone que todo se produce directamente nuestro dispositivo en nuestro navegador, con lo cual el archivo no se envía ningún servidor ni nada.

Despedida

Así que nada, ya te he contado esto de las transcripciones de audio para podcasting o lo que quieras. Una cosa menos.

Recuerda que puedes escuchar todos los episodios en EliasGomez.pro/podcast, y me puedes encontrar en Twitter como @EliasNS.

Hasta la próxima.