Muchos usuarios creen que Shazam, la aplicación más famosa del mundo a la hora de reconocer qué música estamos oyendo, escucha directamente las canciones de la misma forma que lo hace nuestro oído. La realidad es muy diferente, y está apoyada en algoritmos y una explicación más técnica de lo que nos gustaría. La clave de este misterio ha sido desvelada por Candela, estudiante de Ingeniería en Tecnologías de Telecomunicación, en una reciente intervención en el podcast de @clau_qsi en TikTok. Según explica la experta en este espacio dedicado a dar visibilidad a mujeres ingenieras, Shazam se basa en el concepto de Transformada de Fourier.
Cómo funciona Shazam Para entender por qué Shazam es capaz de identificar una canción incluso en un bar lleno de gente gritando, hay que comprender que la aplicación no analiza la onda sonora completa. Según revela la ingeniera Candela, el proceso comienza recogiendo el audio de forma digital, pero inmediatamente aplica una operación matemática denominada Transformada de Fourier. Esta fórmula es capaz de descomponer una señal compleja, como puede ser una canción mezclada con ruido de fondo, y convertirla del dominio del tiempo al dominio de la frecuencia. En lugar de ver una línea que sube y baja con el volumen, Shazam interpreta un gráfico de las frecuencias que componen ese sonido.
Por hacer una analogía más palable para el humano, es como si la app reconociese una tarta, pero en lugar de por su aspecto externo, por los ingredientes que lleva. @clau_qsi Cómo funciona Shazam de verdad 😮 Shazam no «escucha» canciones como tú y yo. 👉🏼Recoge el audio de forma digital. Aplica una Transformada de Fourier, que convierte la canción del dominio del tiempo al dominio de la frecuencia. 👉🏼Genera una huella digital de esa canción con los picos de frecuencia más relevantes. Compara esa huella con su base de datos hasta encontrar el patrón exacto. Por eso no le afecta el ruido de fondo ni que haya gente hablando.
Porque no analiza la onda sonora entera, solo las frecuencias clave que identifican esa canción. La Transformada de Fourier es lo que más hacen los telecos del mundo. Y ahora ya sabes para qué sirve ☺️🤘🏼 El programa completo de Candela, estudiante de INGENIERÍA EN TECNOLOGÍAS DE TELECOMUNICACIÓN en YouTube y Spotify 🎧 #Shazam #transformadaDeFourier #curiosidades #divulgaciontech #STEMTok @candela ríos 👩🏻💻 Crea una huella digital Una vez que la aplicación tiene ese mapa de frecuencias, el sistema realiza un filtrado. No guarda todo el espectro sonoro, sino que selecciona exclusivamente los picos de frecuencia más relevantes.
Estos picos son los puntos de mayor energía en momentos específicos de la canción, lo que permite generar una huella digital de la música en cuestión. Eso sí, es clave diferenciar que esta huella es única para cada grabación. Al reducir la canción a una serie de puntos clave, el archivo resultante es minúsculo, lo que permite que Shazam pueda comparar ese patrón con su base de datos de millones de canciones en cuestión de milisegundos. El ruido no molesta Una de las preguntas más recurrentes entre los usuarios es cómo puede la aplicación funcionar en una discoteca o mientras alguien habla por encima de la música.
Gracias a la explicación técnica de Candela en el vídeo de TikTok que hemos insertado más arriba, la respuesta es clara: al centrarse solo en los picos de frecuencia característicos de la grabación original, el algoritmo es capaz de ignorar las frecuencias sucias o el ruido aleatorio que aparece por el resto del espectro sonoro. El ruido de fondo, como las voces o el tráfico, suele ocupar rangos de frecuencia que el algoritmo sabe descartar al no coincidir con el patrón rítmico y melódico de la huella digital almacenada en los servidores de la compañía. La intervención de Candela no solo sirve para entender una aplicación móvil que todos hemos usado alguna vez, sino para reivindicar el papel de la Ingeniería en Tecnologías de Telecomunicación. La Transformada de Fourier, que a menudo se estudia como una teoría abstracta en las universidades, es la tecnología que permite que podamos identificar una canción, pero es que no solo eso, ya que es la que hace que el WiFi funcione de manera estable o que las resonancias que nos hacen los médicos sean legibles.