Audio Bluetooth y códecs comparados: todo lo que necesita saber

Puntos de vista: 217
0 0
Tiempo de lectura:14 Minutos, 35 Segundos

Si bien tanto los audiófilos como la gente pobre lamentaron la muerte del amado conector para auriculares en los teléfonos inteligentes, esta fue una fuente de ganancias inesperadas para el Grupo de Interés Especial (SIG) de Bluetooth. La búsqueda vulgar de Apple del minimalismo en el diseño de teléfonos inteligentes había reemplazado efectivamente el cable de cobre barato y confiable entre los auriculares y los teléfonos inteligentes con hardware inalámbrico Bluetooth costoso y quisquilloso.

Te guste o no, Bluetooth es el presente desagradable y el futuro potencialmente aún menos agradable del audio portátil. Familiarizarse con el complicado funcionamiento del audio Bluetooth es esencial para navegar por el lío plagado de jerga de comprar un par de auriculares inalámbricos en estos días. Afortunadamente, destilaremos el audio de Bluetooth hasta sus conceptos básicos para ayudarlo a tomar decisiones de compra informadas.

El audio inalámbrico Bluetooth es complicado

Nada supera la simplicidad y la eficiencia de conectar auriculares a teléfonos inteligentes con cables. El libre flujo de electrones a través de los hilos de cobre no limita la calidad del sonido, el alcance y el consumo de energía de los dispositivos conectados a cualquiera de los extremos del cable. Además de ser baratas y sencillas, las conexiones de audio por cable están libres de interferencias y problemas de latencia que afectan a sus contrapartes inalámbricas.

Sin embargo, la transmisión de audio de forma inalámbrica es un asunto engañosamente caro y complicado. Hacerlo requiere la conversión de señales de audio en ondas de radio y viceversa, lo que implica un costoso hardware de radio que suele ser uno de los componentes más caros en los auriculares inalámbricos típicos. El gasto se duplica porque se requiere hardware de radio tanto en el extremo de la fuente (teléfono inteligente) como en el receptor (auricular) de la ecuación de audio inalámbrico.

Está muy equivocado si considera que el altavoz es el componente más caro de un auricular porque ese lugar está reservado para el hardware DSP (procesamiento de señal digital) necesario para hacer que la señal de audio sea lo suficientemente ligera como para ser bombeada a las ondas de radio.

Se necesita un hardware tan costoso porque el medio más confiable de transmisión inalámbrica para el consumidor, el espectro de radio de 2,4 GHz, está lleno de señales competidoras que emanan de dispositivos que van desde enrutadores Wi-Fi y dispositivos domésticos inteligentes hasta monitores para bebés y hornos de microondas. La transmisión de audio de forma inalámbrica en su forma sin comprimir no solo obstruiría las ondas de radio, sino que el alto requisito de ancho de banda también las haría más vulnerables a las interferencias y la pérdida de señal.

Por lo tanto, cada protocolo de audio inalámbrico, como el audio Bluetooth, debe comprimir la señal de audio al máximo posible antes de transmitirla a través del saturado espectro de 2,4 GHz. Los niveles de compresión de datos más altos requieren un hardware de procesamiento más potente, al tiempo que agregan una cantidad significativa de latencia a la señal de audio.

Esta es precisamente la razón por la que ver películas con el audio enrutado de forma inalámbrica a través de auriculares o altavoces Bluetooth a menudo genera problemas de sincronización de labios.

En pocas palabras, es difícil transmitir de forma fiable audio de gran ancho de banda en el espectro de radio de 2,4 GHz, pero la compresión de audio puede mitigar este problema. Sin embargo, el procesamiento adicional requerido para comprimir y descomprimir señales de audio no solo es costoso sino que también causa problemas de latencia y sincronización de labios. Saber cómo funcionan estos atributos mutuamente excluyentes es esencial para comprender los pros y los contras de varios formatos de audio Bluetooth.

¿Cómo se convierte la música en audio digital?

En el nivel más simple, el sentido del oído humano se reduce a que los tímpanos detectan las diferencias de presión creadas por las ondas sonoras que se propagan por el aire. En otras palabras, la música que se reproduce desde el altavoz es esencialmente un patrón específico de diferenciales de presión de aire que interpretamos como una composición musical familiar.

Oímos notas de alta frecuencia cuando el cono del altavoz vibra a un ritmo alto, mientras que la misma vibración a un ritmo más bajo se percibe como notas graves (baja frecuencia).

Esta información se transmite a los altavoces o auriculares como una serie de formas de onda sinusoidales. Estas formas de onda, a su vez, representan el patrón de impulsos eléctricos necesarios para impulsar el cono del altavoz a la combinación correcta de frecuencias y amplitudes para crear las notas sonoras deseadas. Sin embargo, los dispositivos modernos, como las computadoras personales y los teléfonos inteligentes, no pueden procesar el sonido en el dominio analógico.

Estas formas de onda analógicas deben transformarse en señales digitales mediante un convertidor de analógico a digital (ADC) antes de que puedan ser procesadas por su PC o dispositivo móvil. Una vez procesadas, estas señales digitales se vuelven a convertir en formas de onda analógicas mediante un convertidor de digital a analógico (DAC).

Pero debido a que las computadoras no son competentes para dibujar curvas, estas formas de onda sinusoidales se dividen en una serie de segmentos. A continuación, el ADC codifica cada segmento en datos digitales que el reproductor de música puede procesar antes de que el DAC los reconstruya en formas de onda analógicas y los transmita a los altavoces o auriculares como impulsos eléctricos.

La forma de onda en cada segmento está representada por puntos de datos mapeados en términos de tiempo y amplitud en los ejes X e Y, respectivamente. Los espacios en la información entre estos puntos de datos se aproximan para recrear la forma de onda lo más cerca posible del original. Cuanto mayor sea el número de puntos de datos, mejor será la precisión de la forma de onda recreada. Esto, a su vez, se traduce en una mejor calidad de audio.

Comprender la jerga de audio de Bluetooth

Saber cómo se representa la información de audio en el dominio digital es clave para dar sentido a la jerga de audio de Bluetooth. La diferencia práctica entre los formatos de audio de Bluetooth se reduce al grado de compresión logrado, ya sea que los algoritmos de compresión descarten datos (con pérdida) o no (sin pérdida) y, finalmente, el ancho de banda máximo de datos de audio transmitidos de forma inalámbrica.

Echemos un vistazo más de cerca a las especificaciones clave del formato de audio Bluetooth, como la profundidad de bits, la velocidad de bits y la frecuencia de muestreo, mientras aprendemos cómo afectan la calidad del audio y la facilidad de transmisión inalámbrica.

¿Qué es la frecuencia de muestreo?

La muestra o frecuencia de muestreo de un formato de audio se mide en hercios (Hz) y representa el número de puntos de datos presentes por segundo de la señal de audio. Dado que estos puntos de datos grabados se utilizan para recrear la forma de onda analógica original que se transmite a los altavoces, un archivo de audio digital codificado a una frecuencia de muestreo alta suena más parecido a la grabación de audio original cuando se reproduce a través de su sistema de música.

¿Vale la pena una alta tasa de muestreo?

Una tasa de muestreo más alta aumenta significativamente la densidad de datos. El consiguiente aumento del tamaño del archivo dificulta la transmisión de la grabación de audio a través de una conexión Bluetooth. Afortunadamente, hay un punto más allá del cual los humanos no pueden percibir la mejora en la calidad obtenida al aumentar la frecuencia de muestreo.

Este límite es una consecuencia de un método de codificación de audio digital llamado modulación de código de pulso (PCM), que requiere que la frecuencia de muestreo sea aproximadamente el doble de la frecuencia de audio más alta destinada a codificarse fielmente. Dado que la audición humana tiene un límite de 20 000 Hz (o 20 kHz), la mejora en la calidad del audio disminuye significativamente después de una frecuencia de muestreo de 40 kHz.

No es sorprendente que los equipos de audio profesionales analógicos más antiguos usaran frecuencias de muestreo en el rango de 40 kHz a 50 kHz. Esa es también la razón por la que el audio de CD y DVD se muestrea a 44,1 kHz y 48 kHz, respectivamente.

Sin embargo, los formatos de audio modernos usan frecuencias de muestreo mucho más altas de 96 kHz e incluso 192 kHz. Algunos sugieren que esto conduce a una mayor fidelidad de audio, mientras que otros argumentan que la codificación de frecuencias ultrasónicas inaudibles para los humanos puede causar distorsión de intermodulación durante la reproducción.

Si eso no fuera lo suficientemente confuso, el enfoque de modulación delta-sigma para la codificación de audio digital emplea modulación de densidad de pulso (PDM) en lugar de PCM. Esto implica velocidades de muestreo del orden de megahercios, pero con una resolución de tan solo 1 bit. Por ejemplo, la codificación delta-sigma de 1 bit que se encuentra en el formato SACD puede reproducir una respuesta de frecuencia de 100 kHz.

Esta es una buena ilustración de cómo las especificaciones pueden variar enormemente según el método de codificación utilizado en el formato de audio.

¿Qué es la profundidad de bits?

Si la parte de 1 bit te intrigó allí, representa otra especificación importante relevante para los formatos de audio digital. La profundidad de bits denota la resolución individual de cada punto de datos capturado en el proceso de muestreo y se mide en términos de la cantidad de bits digitales empleados para representar cada muestra de audio.

Una mayor profundidad de bits aumenta significativamente la precisión de la señal de audio grabada, ya que permite grabar una mayor cantidad de datos por muestra. De hecho, la precisión de la codificación se duplica por cada aumento de 1 bit en la profundidad de bits. Sin entrar demasiado en la maleza de la teoría del audio, la profundidad de bits de un formato de audio tiene un impacto directo en el ruido de la señal y el rango dinámico de la grabación.

¿Cuántos bits necesita para una gran calidad de sonido?

Respuesta corta: 16 bits.

Respuesta larga: una mayor profundidad de bits reduce el ruido de la señal al incorporar información más precisa de la forma de onda de audio, lo que reduce las conjeturas necesarias para recrearla. En consecuencia, esto disminuye el ruido de cuantificación o los errores creados por la aproximación digital.

La recreación digital de una forma de onda analógica requiere aproximación porque es imposible usar coordenadas finitas para representar curvas sinusoidales formadas por infinitos puntos.

Esto tiene un impacto directo en la relación señal-ruido (SNR), que se mide en decibelios (dB). Lo ideal es que la SNR sea más alta que el rango dinámico total de la fuente de audio, o escuchará distorsión durante la reproducción de audio. La mayoría de los géneros musicales modernos exhiben un rango dinámico de 60dB, mientras que las grabaciones de música clásica occidental necesitan un rango mucho más alto de 70dB.

Es por eso que una grabación de audio de 8 bits, con una SNR de 48dB, suena con una calidad perceptiblemente inferior en comparación con una de 16 bits, que registra 96dB.

Debe tenerse en cuenta que la SNR de un formato de audio también es aproximadamente igual a su rango dinámico. La mayoría de los formatos de audio modernos están codificados en 24 bits, lo que equivale a un rango dinámico de 144 dB. Sin embargo, el límite teórico de la sensibilidad humana a los sonidos alcanza un máximo de 120 dB, que equivale aproximadamente a 20 bits.

En realidad, la capacidad práctica del oído humano para percibir el rango dinámico es mucho menor, por lo que una profundidad de bits de 16 bits es más que suficiente para reproducir con precisión música de todos los géneros.

¿Qué es la tasa de bits? ¿Qué lo separa de la profundidad de bits?

La tasa de bits máxima posible de un formato de audio es una medida de la cantidad de datos que se pueden transferir por segundo. Es el producto multiplicativo de la frecuencia de muestreo y la profundidad de bits expresado en kilobytes o megabytes por segundo (kbps/Mbps). Una grabación de audio de mayor calidad codificada con una tasa de muestreo grande y una tasa de bits alta equivaldrá a una tasa de bits significativamente más alta.

¿Qué son los códecs de audio?

La mayoría de los formatos de audio digital utilizados en medios físicos heredados, como CD, SACD, DVD y Blu-ray, son del tipo sin comprimir. Dichos formatos de audio obtienen los beneficios de transmitir audio sin pérdida de calidad, sobrecarga de procesamiento o latencia asociada con la compresión de audio. Sin embargo, esto tiene el costo de requisitos de espacio excesivos.

Si bien esto puede no ser una preocupación para los medios físicos, no desea transferir grandes cantidades de datos de forma inalámbrica a través de Bluetooth si puede evitarlo. Aquí es donde entra en juego la compresión de audio. En el ámbito del audio, esto se logra utilizando códecs como MP3, AAC, Ogg Vorbis, WMA y FLAC.

La palabra códec es un acrónimo de codificador/decodificador, que también representa su caso de uso de codificación y decodificación de audio digital.

Audio sin comprimir Compresión sin perdidas Compresión con pérdida
ventajas • Sin pérdida de datos debido a la compresión
• Compatibilidad universal
• Retención de datos de audio
• Tiempo de procesamiento reducido
• Tamaño de archivo más pequeño
• Ideal para transmisión inalámbrica
Contras • Requiere un alto ancho de banda de datos
• No es factible para la transmisión inalámbrica
• Pobre relación de compresión • No conserva toda la señal de audio original
Formatos de audio WAV, AIFF, LPCM FLAC, ALAC MP3, AAC, WMA

¿Cómo funciona la compresión de audio?

Los códecs de audio utilizan una combinación de algoritmos sofisticados y matemáticas avanzadas para encontrar formas inteligentes de reducir los datos sin comprimir. Esto generalmente implica aprovechar fórmulas matemáticas para identificar patrones de datos y usar la magia de modelos matemáticos avanzados para representar lo mismo en un espacio de almacenamiento de datos más pequeño.

Los códecs que reducen los datos sin descartar ninguna información se denominan códecs sin pérdidas. Dichos algoritmos de compresión pueden recrear el audio original sin pérdida de calidad perceptible. FLAC es uno de los ejemplos más reconocibles. Aunque la compresión sin pérdidas es excelente para la calidad del sonido, no hace maravillas para mantener el tamaño del archivo y la tasa de bits lo suficientemente bajos para la transmisión inalámbrica Bluetooth.

Aquí es donde los códecs con pérdida como MP3 y AAC se defienden.

Además de emplear algoritmos inteligentes y matemáticas avanzadas para comprimir datos, estos códecs también aprovechan la forma única en que los humanos perciben el audio. Debido a las idiosincrasias del oído humano y la forma en que nuestro cerebro procesa el sonido, nuestra percepción del espectro de frecuencias de audio no es uniforme.

De hecho, existe toda una rama de la ciencia llamada psicoacústica para estudiar este fenómeno. Los códecs con pérdida emplean los principios de la psicoacústica para descartar información de audio que no es perceptible para la mayoría de los humanos. Dichos formatos logran un grado significativo de compresión al eliminar frecuencias que de otro modo serían inaudibles.

La precisión de tales algoritmos psicoacústicos es sorprendentemente buena, y la mayoría de los oyentes no notan la diferencia entre la música codificada en códecs sin pérdida y códecs con pérdida como MP3/AAC.

Esta es la razón por la que Bluetooth necesita códecs en tiempo real

Tanto los códecs con pérdida como sin pérdida, como WMA, MP3, Ogg Vorbis y FLAC, se originaron en una era en la que la música se descargaba o transfería a través de medios físicos, como unidades flash y discos compactos. Estos códecs con pérdida no tenían motivos para contener algoritmos de compresión complejos a pesar de sus altos gastos generales de procesamiento y tiempo de codificación/descodificación.

Desafortunadamente, estos son lujos de la era cableada pasada que los códecs de audio Bluetooth inalámbricos no pueden permitirse.

Para empezar, el audio Bluetooth implica la compresión sobre la marcha del audio desde el dispositivo de origen antes de que se transmita a un par de auriculares o altavoces inalámbricos True Wireless Stereo (TWS). El empleo de algoritmos de compresión computacionalmente costosos aumenta la latencia de procesamiento general, lo que provoca problemas de sincronización de labios. Los altos costos de procesamiento asociados con estos algoritmos de compresión también tienen un impacto negativo en la duración de la batería de los dispositivos inalámbricos.

Bluetooth emplea códecs optimizados para las necesidades de transmisión en tiempo real, como SBC, aptX y LDAC, para lograr un equilibrio entre la eficiencia de compresión y los gastos generales de codificación/descodificación. Estos códecs logran esta hazaña recurriendo a algoritmos de compresión de modelado de ruido más simples en lugar de utilizar alternativas psicoacústicas más lentas y costosas desde el punto de vista computacional.

Los algoritmos de modelado de ruido pueden no ser tan eficientes en el espacio, pero los códecs de Bluetooth en tiempo real solucionan este problema al comprometer la calidad del audio o al aumentar la tasa de bits de la transmisión de audio. No es sorprendente que los códecs de Bluetooth no puedan igualar la calidad de sonido de sus contrapartes fuera de línea para tasas de bits similares.

 

 

Happy
Happy
0 %
Sad
Sad
0 %
Excited
Excited
0 %
Sleepy
Sleepy
0 %
Angry
Angry
0 %
Surprise
Surprise
0 %

Average Rating

5 Star
0%
4 Star
0%
3 Star
0%
2 Star
0%
1 Star
0%

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *