21. marzo 2026

Telefonía IP: Codecs

¿Qué es un Codec?

Un codec (Coder-Decoder) es un algoritmo o conjunto de procesos que permite:

Codificar (encode): convertir una señal analógica (voz humana) en datos digitales.
Decodificar (decode): reconstruir esa señal digital nuevamente a forma analógica.

En VoIP, el codec es el corazón de la transmisión de voz, ya que define:

Calidad de audio
Consumo de ancho de banda
Latencia
Uso de CPU (DSP)
Tolerancia a pérdida de paquetes

Naturaleza de la voz: Analógico vs Digital

Señal Analógica (voz humana)

La voz viaja como ondas continuas.
Tiene variaciones infinitas de amplitud y frecuencia.
Es susceptible a ruido y degradación.

Señal Digital (red IP)

Representada como bits (0 y 1).
Puede regenerarse sin degradación acumulativa.
Es más resistente al ruido.

Diferencia clave:

En redes modernas, todo debe convertirse a digital antes de transmitirse.

Proceso de Conversión: Analógico → Digital (PCM)

El proceso fundamental es PCM (Pulse Code Modulation), base del codec G.711.

Flujo completo:

Voz → Muestreo → Cuantización → Codificación → (Compresión opcional)

Etapas del Proceso PCM

Sampling (Muestreo)

Es el proceso de tomar muestras periódicas de la señal analógica.

Principio clave: Teorema de Nyquist

La frecuencia de muestreo debe ser al menos el doble de la frecuencia máxima de la señal.

Ejemplo en telefonía:

Voz humana útil: 300 Hz – 3400 Hz
Frecuencia máxima: ~4 kHz
Frecuencia de muestreo:

8 kHz (8000 muestras/segundo)

Tipos de banda de audio

Ejemplo:

G.711 → Narrowband
G.722 → Wideband
Opus → adaptable hasta fullband

Quantization (Cuantificación)

La cuantificación es el proceso mediante el cual los valores continuos de amplitud de una señal analógica muestreada se convierten en valores discretos (niveles finitos).

¿Qué ocurre realmente?

Después del muestreo, tienes puntos en el tiempo con valores reales (continuos), por ejemplo:

2.13 V, 2.87 V, 3.02 V, 2.65 V

Pero un sistema digital no puede manejar infinitos valores.

Entonces:

Se define una escala (niveles discretos)
Cada valor se aproxima al nivel más cercano

Esto introduce un error llamado:

Ruido de cuantificación

Es inherente al proceso
No se puede eliminar completamente
Se percibe como una ligera distorsión

Tipos de cuantificación

Cuantificación uniforme

Todos los niveles están igualmente espaciados
Más simple
Menos eficiente para voz

Cuantificación no uniforme (companding)

Companding = Compressing + Expanding

Es una técnica no lineal que comprime el rango dinámico de la señal en el transmisor y lo expande en el receptor, con el objetivo de mejorar la relación señal-ruido (SNR) cuando se usan pocos bits (p. ej., 8 bits en G.711).

Usada en telefonía:

μ-law (Norteamérica)
A-law (Europa/internacional)

¿Por qué existe?

La voz humana tiene gran rango dinámico:

Sonidos muy débiles (susurros)
Sonidos fuertes (voz elevada)

Si cuantizas uniformemente:

Los valores pequeños quedan mal representados → ruido perceptible
Se desperdician niveles en amplitudes altas

Companding reasigna los niveles:

Más resolución en señales pequeñas
Menos resolución en señales grandes

Para mejorar la calidad:

Se comprimen los niveles altos y se expanden los bajos.
Mejora la percepción auditiva.

Impacto en VoIP

La cuantificación impacta directamente la calidad de la voz, porque es el punto donde la señal pierde precisión al convertirse de analógica a digital.

Por eso:

Más bits → mejor calidad → más ancho de banda
Menos bits → peor calidad → menor consumo

Todo codec es un balance entre estos dos extremos.

Relación con el codec

Cada codec maneja la cuantización de forma distinta:

Encoding (Codificación)

Convierte los valores cuantizados en binario.

En G.711:

Cada muestra = 8 bits
Estructura:
- 1 bit → signo
- 3 bits → segmento
- 4 bits → intervalo

Bit de signo (1 bit)

0 = negativo

1 = positivo

Indica si la onda está:

arriba del eje (positiva)
abajo del eje (negativa)

Segmento (3 bits)

000 → segmento 0

001 → segmento 1

111 → segmento 7

Define en qué rango de amplitud está la señal

Los segmentos no son lineales, crecen exponencialmente:

Segmento 0 → señales pequeñas
Segmento 7 → señales grandes

Intervalo (4 bits)

0000 → inicio del segmento

1111 → final del segmento

Resultado:

8000 muestras/seg × 8 bits = 64 kbps

Compresión de Codecs

Los codecs pueden ser:

Sin compresión

Alta calidad
Mayor consumo de ancho de banda

Con compresión

Menor ancho de banda
Mayor uso de CPU (DSP)
Posible pérdida de calidad

Comparativa de Codecs

G.711

¿Qué es?

G.711 es un codec de voz de la ITU-T basado en PCM (Pulse Code Modulation).

Es el codec clásico de la telefonía digital tradicional y uno de los más usados en:

PSTN
SIP trunks
CUCM
CUBE
PBX IP
gateways de voz

Es considerado el codec de referencia para voz de alta compatibilidad.

¿Cómo funciona?

G.711 trabaja así:

Frecuencia de muestreo: 8 kHz
Bits por muestra: 8 bits
Bitrate: 64 kbps

La voz analógica se:

Muestrea 8000 veces por segundo
Cuantiza
Codifica en 8 bits por muestra
Aplica companding con:

μ-law
A-law

No usa compresión fuerte como G.729; por eso conserva muy buena calidad.

Calidad de audio

G.711 ofrece calidad tipo telefonía tradicional muy buena.

MOS típico: ~4.1 a 4.3
Calidad percibida: alta
Audio natural: sí
Latencia por codificación: muy baja

Nota: MOS (Mean Opinion Score) es una métrica que mide la calidad percibida de la voz, basada en cómo los usuarios evalúan una llamada.

Escala MOS

Variantes de G.711

G.711 μ-law

Se usa principalmente en:

Estados Unidos
Japón

Características

Companding más agresivo
Muy usado en Norteamérica
En representaciones internas, invierte ciertos bits según el esquema μ-law

G.711 A-law

Se usa en:

Europa
Latinoamérica
gran parte del resto del mundo en interconexión internacional

Características

Companding algo menos agresivo
Estándar típico fuera de Norteamérica

Ancho de banda real en red

Aunque el payload es 64 kbps, en IP real consume más:

aprox. 80 a 100 kbps por sentido
aprox. 160 a 200 kbps por llamada completa, según headers y paquetización

Ventajas de G.711

Muy alta compatibilidad
Excelente calidad para narrowband
Muy baja carga de CPU
Muy baja latencia de codificación
Ideal para integración con PSTN y SIP trunks
Muy estable en entornos empresariales

Desventajas de G.711

Consume bastante ancho de banda
No es ideal para WAN pequeñas
No es HD Voice
No reproduce música muy bien comparado con codecs más modernos

G.722

¿Qué es?

G.722 es un codec ITU-T de wideband audio, diseñado para dar mejor calidad de voz que G.711.

Se conoce comúnmente como codec de:

HD Voice
voz de banda ancha

¿Cómo funciona?

G.722 usa:

Frecuencia de muestreo: 16 kHz
Rango útil de audio: aprox. 50 Hz a 7 kHz
Bitrates típicos: 48, 56 y 64 kbps

Aunque muchas implementaciones lo manejan como 64 kbps, la gran diferencia no es solo el bitrate, sino que captura un rango de voz más amplio.

Calidad de audio

Es claramente mejor que G.711 para voz.

MOS típico: ~4.2 a 4.5
Mejor claridad
Mejor inteligibilidad
Mejor percepción de consonantes
Menor sensación de voz “telefónica”

¿Por qué suena mejor?

Porque G.711 es narrowband:

útil aprox. 300 Hz a 3400 Hz

Mientras G.722 es wideband:

aprox. 50 Hz a 7000 Hz

Eso permite que la voz se escuche:

más abierta
más natural
más definida

Variantes de G.722

Las variantes principales son por bitrate:

G.722 a 64 kbps

la más común
mejor calidad dentro de la familia
ampliamente usada en telefonía IP empresarial

G.722 a 56 kbps

menor ancho de banda
leve reducción de calidad

G.722 a 48 kbps

aún menor consumo
menos común en despliegues empresariales típicos

Importante: familia relacionada, pero no igual

Hay codecs relacionados por nombre, pero distintos, como:

G.722.1
G.722.2

No son simplemente “variantes menores” del mismo codec operativo. Son codecs diferentes dentro de la familia G.722 extendida.

G.722.1

basado en otra técnica
bitrates más bajos
usado en algunos sistemas de conferencia

G.722.2

también conocido como AMR-WB
muy usado en telefonía móvil

En VoIP empresarial clásica, cuando alguien dice “G.722”, normalmente se refiere a G.722 base wideband.

Ancho de banda real

En muchas implementaciones IP, G.722 a 64 kbps consume en red real algo muy parecido a G.711:

aprox. 80 a 100 kbps por sentido
aprox. 160 a 200 kbps por llamada completa

Ventajas de G.722

Voz HD
Mejor experiencia del usuario
Excelente para voz interna corporativa
Baja latencia de codificación
Compatible con muchos teléfonos IP modernos

Desventajas de G.722

Más ancho de banda que codecs comprimidos
No siempre se mantiene de extremo a extremo
puede degradarse a G.711 o G.729 si hay transcoding
algunos carriers/PSTN no lo sostienen extremo a extremo

G.729

¿Qué es?

G.729 es un codec ITU-T de compresión de voz de baja tasa de bits.
Fue diseñado para transportar voz con mucho menor ancho de banda que G.711.

Es uno de los codecs históricos más usados en:

enlaces WAN
sedes remotas
enlaces con ancho de banda restringido

¿Cómo funciona?

G.729 no usa PCM simple como G.711.
Usa un modelo de compresión más complejo basado en análisis de la voz.

Parámetros típicos

Frecuencia de muestreo: 8 kHz
Bitrate: 8 kbps
voz narrowband

En lugar de transmitir la forma de onda “casi directa”, transmite una representación comprimida del habla.

Calidad de audio

MOS típico: ~3.7 a 4.0
calidad buena, pero menor que G.711/G.722
voz menos natural
puede sentirse más sintético o “procesado”

¿Por qué se usa?

Porque reduce radicalmente el ancho de banda.

Comparación simple:

G.711 = 64 kbps payload
G.729 = 8 kbps payload

Ese ahorro fue muy valioso en redes WAN limitadas.

Variantes de G.729

Aquí es importante separar bien.

G.729

Versión base a 8 kbps.

G.729ª

Versión de complejidad reducida.

Características

misma tasa de 8 kbps
menor carga computacional
calidad prácticamente similar para muchos usos
muy común en implementaciones históricas

G.729B

Agrega VAD (Voice Activity Detection) y funciones relacionadas con silencios.

¿Qué hace?

detecta cuando no hay voz
reduce envío durante silencios
puede ahorrar más ancho de banda en ciertos escenarios

Consideración

No siempre es deseable, porque el manejo de silencios puede alterar la percepción natural del audio si está mal implementado.

G.729AB

Combina:

complejidad reducida
detección de actividad de voz

G.729 Anexos

Existen varios anexos y extensiones históricas dentro de la familia, pero en operación práctica los más citados son:

G.729
G.729A
G.729B
G.729AB

Ancho de banda real

Aunque el payload es 8 kbps, en IP real no consume 8 kbps totales:

aprox. 24 a 32 kbps por sentido
aprox. 50 a 65 kbps por llamada completa, según paquetización y overhead

Ventajas de G.729

Muy eficiente en ancho de banda
Útil en WAN pequeñas
Históricamente ampliamente soportado
Bueno para sedes remotas

Desventajas de G.729

Menor calidad que G.711 y G.722
Mayor complejidad de codificación
Puede requerir DSP para transcoding
Puede aumentar complejidad operativa
Menos natural para música, tonos y ciertas locuciones
en algunos entornos modernos ya no es la opción preferida

iLBC

¿Qué es?

iLBC significa Internet Low Bitrate Codec.

Fue diseñado específicamente para voz sobre IP en redes donde puede haber:

pérdida de paquetes
jitter
condiciones inestables

Su gran enfoque histórico fue la robustez en Internet.

¿Cómo funciona?

Trabaja con tramas de duración fija y fue diseñado para mantener inteligibilidad incluso cuando algunos paquetes se pierden.

Modos típicos

13.33 kbps con bloques de 30 ms
15.2 kbps con bloques de 20 ms

Calidad de audio

mejor que algunos codecs muy comprimidos en redes con pérdida
menos natural que G.711/G.722
robusto en condiciones difíciles

MOS típico aproximado:

alrededor de 3.8 a 4.1, dependiendo de red y modo

Variantes de iLBC

Las “variantes” prácticas son sus dos modos principales:

iLBC 20 ms

15.2 kbps
menor duración de bloque
mejor respuesta temporal
más paquetes por segundo

iLBC 30 ms

13.33 kbps
algo menos de bitrate
más eficiencia
mayor impacto por pérdida de una trama, aunque sigue siendo robusto

Ventajas de iLBC

Diseñado para Internet
Muy robusto frente a pérdida de paquetes
Bueno en redes inestables
útil donde G.729 o G.711 se degradan por pérdida

Desventajas de iLBC

Menos común hoy que antes
compatibilidad menor en plataformas modernas comparado con Opus/G.711
no es la mejor calidad absoluta
puede no estar soportado en todos los teléfonos o carriers

Opus

¿Qué es?

Opus es un codec moderno, flexible y muy avanzado, desarrollado para Internet en tiempo real.

Es hoy uno de los codecs más completos y potentes para:

WebRTC
videoconferencia
colaboración
softphones modernos
streaming interactivo
plataformas de comunicación en tiempo real

¿Por qué es tan importante?

Porque puede adaptarse a muchos escenarios:

voz narrowband
wideband
super-wideband
fullband

Y además puede cambiar dinámicamente según la red.

¿Cómo funciona?

Opus combina tecnologías orientadas a:

voz
audio de alta fidelidad
baja latencia
adaptación dinámica

Bitrate

Puede trabajar en un rango muy amplio:

aprox. 6 kbps hasta más de 500 kbps

Frecuencias soportadas

narrowband
wideband
super-wideband
fullband

Latencia

Puede operar con latencias muy bajas, adecuadas para tiempo real.

Calidad de audio

Muy alta.

excelente para voz
muy buena para música
puede superar claramente a G.711 y G.729 en muchos escenarios
ideal para colaboración moderna

MOS puede ser muy alto según configuración y red.

Variantes de Opus

Opus no se suele dividir en “anexos clásicos” como G.729. Sus variantes reales son más bien de configuración operativa.

Narrowband

orientado a voz básica
menor bitrate

Wideband

voz más clara
similar a HD voice

Super-wideband

mayor naturalidad

Fullband

hasta calidad muy alta, cercana a audio completo
adecuado para música y multimedia además de voz

CBR / VBR

CBR: bitrate constante
VBR: bitrate variable, más eficiente y adaptable

Mono / Stereo

voz suele ir en mono
multimedia puede usar estéreo

Configuraciones de baja latencia

ideales para interacción en tiempo real

Ventajas de Opus

Muy flexible
Excelente calidad
Muy eficiente
Muy buena resiliencia
Bueno tanto para voz como para música
muy adecuado para redes modernas y WebRTC
soporta adaptación dinámica

Desventajas de Opus

no siempre está soportado en infraestructura VoIP empresarial clásica
algunos PBX/carriers tradicionales no lo manejan de forma nativa
puede requerir transcoding al interoperar con PSTN/SIP trunks clásicos
integración puede ser más compleja en ambientes heredados