21. marzo 2026
Telefonía IP: Codecs
¿Qué es un Codec?
Un codec (Coder-Decoder) es un algoritmo o conjunto de procesos que permite:
- Codificar (encode): convertir una señal analógica (voz humana) en datos digitales.
- Decodificar (decode): reconstruir esa señal digital nuevamente a forma analógica.
En VoIP, el codec es el corazón de la transmisión de voz, ya que define:
- Calidad de audio
- Consumo de ancho de banda
- Latencia
- Uso de CPU (DSP)
- Tolerancia a pérdida de paquetes
Naturaleza de la voz: Analógico vs Digital

Señal Analógica (voz humana)

- La voz viaja como ondas continuas.
- Tiene variaciones infinitas de amplitud y frecuencia.
- Es susceptible a ruido y degradación.
Señal Digital (red IP)

- Representada como bits (0 y 1).
- Puede regenerarse sin degradación acumulativa.
- Es más resistente al ruido.
Diferencia clave:
En redes modernas, todo debe convertirse a digital antes de transmitirse.

Proceso de Conversión: Analógico → Digital (PCM)
El proceso fundamental es PCM (Pulse Code Modulation), base del codec G.711.
Flujo completo:
Voz → Muestreo → Cuantización → Codificación → (Compresión opcional)

Etapas del Proceso PCM
Sampling (Muestreo)

Es el proceso de tomar muestras periódicas de la señal analógica.
Principio clave: Teorema de Nyquist
La frecuencia de muestreo debe ser al menos el doble de la frecuencia máxima de la señal.
Ejemplo en telefonía:
- Voz humana útil: 300 Hz – 3400 Hz
- Frecuencia máxima: ~4 kHz
- Frecuencia de muestreo:
8 kHz (8000 muestras/segundo)
Tipos de banda de audio
Ejemplo:
- G.711 → Narrowband
- G.722 → Wideband
- Opus → adaptable hasta fullband
Quantization (Cuantificación)

La cuantificación es el proceso mediante el cual los valores continuos de amplitud de una señal analógica muestreada se convierten en valores discretos (niveles finitos).
¿Qué ocurre realmente?
Después del muestreo, tienes puntos en el tiempo con valores reales (continuos), por ejemplo:
2.13 V, 2.87 V, 3.02 V, 2.65 V
Pero un sistema digital no puede manejar infinitos valores.
Entonces:
- Se define una escala (niveles discretos)
- Cada valor se aproxima al nivel más cercano
Esto introduce un error llamado:
Ruido de cuantificación
- Es inherente al proceso
- No se puede eliminar completamente
- Se percibe como una ligera distorsión
Tipos de cuantificación
Cuantificación uniforme
- Todos los niveles están igualmente espaciados
- Más simple
- Menos eficiente para voz
Cuantificación no uniforme (companding)
Companding = Compressing + Expanding
Es una técnica no lineal que comprime el rango dinámico de la señal en el transmisor y lo expande en el receptor, con el objetivo de mejorar la relación señal-ruido (SNR) cuando se usan pocos bits (p. ej., 8 bits en G.711).
Usada en telefonía:
- μ-law (Norteamérica)
- A-law (Europa/internacional)
¿Por qué existe?
La voz humana tiene gran rango dinámico:
- Sonidos muy débiles (susurros)
- Sonidos fuertes (voz elevada)
Si cuantizas uniformemente:
- Los valores pequeños quedan mal representados → ruido perceptible
- Se desperdician niveles en amplitudes altas
Companding reasigna los niveles:
- Más resolución en señales pequeñas
- Menos resolución en señales grandes
Para mejorar la calidad:
- Se comprimen los niveles altos y se expanden los bajos.
- Mejora la percepción auditiva.
Impacto en VoIP
La cuantificación impacta directamente la calidad de la voz, porque es el punto donde la señal pierde precisión al convertirse de analógica a digital.
Por eso:
- Más bits → mejor calidad → más ancho de banda
- Menos bits → peor calidad → menor consumo
Todo codec es un balance entre estos dos extremos.
Relación con el codec
Cada codec maneja la cuantización de forma distinta:

Encoding (Codificación)

Convierte los valores cuantizados en binario.
En G.711:
- Cada muestra = 8 bits
- Estructura:
- 1 bit → signo
- 3 bits → segmento
- 4 bits → intervalo

Bit de signo (1 bit)
0 = negativo
1 = positivo
Indica si la onda está:
- arriba del eje (positiva)
- abajo del eje (negativa)
Segmento (3 bits)
000 → segmento 0
001 → segmento 1
111 → segmento 7
Define en qué rango de amplitud está la señal
Los segmentos no son lineales, crecen exponencialmente:
- Segmento 0 → señales pequeñas
- Segmento 7 → señales grandes
Intervalo (4 bits)
0000 → inicio del segmento
1111 → final del segmento
Resultado:
8000 muestras/seg × 8 bits = 64 kbps
Compresión de Codecs
Los codecs pueden ser:
Sin compresión
- Alta calidad
- Mayor consumo de ancho de banda
Con compresión
- Menor ancho de banda
- Mayor uso de CPU (DSP)
- Posible pérdida de calidad
Comparativa de Codecs

G.711
¿Qué es?
G.711 es un codec de voz de la ITU-T basado en PCM (Pulse Code Modulation).
Es el codec clásico de la telefonía digital tradicional y uno de los más usados en:
- PSTN
- SIP trunks
- CUCM
- CUBE
- PBX IP
- gateways de voz
Es considerado el codec de referencia para voz de alta compatibilidad.
¿Cómo funciona?
G.711 trabaja así:
- Frecuencia de muestreo: 8 kHz
- Bits por muestra: 8 bits
- Bitrate: 64 kbps
La voz analógica se:
- Muestrea 8000 veces por segundo
- Cuantiza
- Codifica en 8 bits por muestra
- Aplica companding con:
- μ-law
- A-law
No usa compresión fuerte como G.729; por eso conserva muy buena calidad.
Calidad de audio
G.711 ofrece calidad tipo telefonía tradicional muy buena.
- MOS típico: ~4.1 a 4.3
- Calidad percibida: alta
- Audio natural: sí
- Latencia por codificación: muy baja
Nota: MOS (Mean Opinion Score) es una métrica que mide la calidad percibida de la voz, basada en cómo los usuarios evalúan una llamada.
Escala MOS

Variantes de G.711
G.711 μ-law
Se usa principalmente en:
- Estados Unidos
- Japón
Características
- Companding más agresivo
- Muy usado en Norteamérica
- En representaciones internas, invierte ciertos bits según el esquema μ-law
G.711 A-law
Se usa en:
- Europa
- Latinoamérica
- gran parte del resto del mundo en interconexión internacional
Características
- Companding algo menos agresivo
- Estándar típico fuera de Norteamérica
Ancho de banda real en red
Aunque el payload es 64 kbps, en IP real consume más:
- aprox. 80 a 100 kbps por sentido
- aprox. 160 a 200 kbps por llamada completa, según headers y paquetización
Ventajas de G.711
- Muy alta compatibilidad
- Excelente calidad para narrowband
- Muy baja carga de CPU
- Muy baja latencia de codificación
- Ideal para integración con PSTN y SIP trunks
- Muy estable en entornos empresariales
Desventajas de G.711
- Consume bastante ancho de banda
- No es ideal para WAN pequeñas
- No es HD Voice
- No reproduce música muy bien comparado con codecs más modernos
G.722
¿Qué es?
G.722 es un codec ITU-T de wideband audio, diseñado para dar mejor calidad de voz que G.711.
Se conoce comúnmente como codec de:
- HD Voice
- voz de banda ancha
¿Cómo funciona?
G.722 usa:
- Frecuencia de muestreo: 16 kHz
- Rango útil de audio: aprox. 50 Hz a 7 kHz
- Bitrates típicos: 48, 56 y 64 kbps
Aunque muchas implementaciones lo manejan como 64 kbps, la gran diferencia no es solo el bitrate, sino que captura un rango de voz más amplio.
Calidad de audio
Es claramente mejor que G.711 para voz.
- MOS típico: ~4.2 a 4.5
- Mejor claridad
- Mejor inteligibilidad
- Mejor percepción de consonantes
- Menor sensación de voz “telefónica”
¿Por qué suena mejor?
Porque G.711 es narrowband:
- útil aprox. 300 Hz a 3400 Hz
Mientras G.722 es wideband:
- aprox. 50 Hz a 7000 Hz
Eso permite que la voz se escuche:
- más abierta
- más natural
- más definida
Variantes de G.722
Las variantes principales son por bitrate:
G.722 a 64 kbps
- la más común
- mejor calidad dentro de la familia
- ampliamente usada en telefonía IP empresarial
G.722 a 56 kbps
- menor ancho de banda
- leve reducción de calidad
G.722 a 48 kbps
- aún menor consumo
- menos común en despliegues empresariales típicos
Importante: familia relacionada, pero no igual
Hay codecs relacionados por nombre, pero distintos, como:
- G.722.1
- G.722.2
No son simplemente “variantes menores” del mismo codec operativo. Son codecs diferentes dentro de la familia G.722 extendida.
G.722.1
- basado en otra técnica
- bitrates más bajos
- usado en algunos sistemas de conferencia
G.722.2
- también conocido como AMR-WB
- muy usado en telefonía móvil
En VoIP empresarial clásica, cuando alguien dice “G.722”, normalmente se refiere a G.722 base wideband.
Ancho de banda real
En muchas implementaciones IP, G.722 a 64 kbps consume en red real algo muy parecido a G.711:
- aprox. 80 a 100 kbps por sentido
- aprox. 160 a 200 kbps por llamada completa
Ventajas de G.722
- Voz HD
- Mejor experiencia del usuario
- Excelente para voz interna corporativa
- Baja latencia de codificación
- Compatible con muchos teléfonos IP modernos
Desventajas de G.722
- Más ancho de banda que codecs comprimidos
- No siempre se mantiene de extremo a extremo
- puede degradarse a G.711 o G.729 si hay transcoding
- algunos carriers/PSTN no lo sostienen extremo a extremo
G.729
¿Qué es?
G.729 es un codec ITU-T de compresión de voz de baja tasa de bits.
Fue diseñado para transportar voz con mucho menor ancho de banda que G.711.
Es uno de los codecs históricos más usados en:
- enlaces WAN
- sedes remotas
- enlaces con ancho de banda restringido
¿Cómo funciona?
G.729 no usa PCM simple como G.711.
Usa un modelo de compresión más complejo basado en análisis de la voz.
Parámetros típicos
- Frecuencia de muestreo: 8 kHz
- Bitrate: 8 kbps
- voz narrowband
En lugar de transmitir la forma de onda “casi directa”, transmite una representación comprimida del habla.
Calidad de audio
- MOS típico: ~3.7 a 4.0
- calidad buena, pero menor que G.711/G.722
- voz menos natural
- puede sentirse más sintético o “procesado”
¿Por qué se usa?
Porque reduce radicalmente el ancho de banda.
Comparación simple:
- G.711 = 64 kbps payload
- G.729 = 8 kbps payload
Ese ahorro fue muy valioso en redes WAN limitadas.
Variantes de G.729
Aquí es importante separar bien.
G.729
Versión base a 8 kbps.
G.729ª
Versión de complejidad reducida.
Características
- misma tasa de 8 kbps
- menor carga computacional
- calidad prácticamente similar para muchos usos
- muy común en implementaciones históricas
G.729B
Agrega VAD (Voice Activity Detection) y funciones relacionadas con silencios.
¿Qué hace?
- detecta cuando no hay voz
- reduce envío durante silencios
- puede ahorrar más ancho de banda en ciertos escenarios
Consideración
No siempre es deseable, porque el manejo de silencios puede alterar la percepción natural del audio si está mal implementado.
G.729AB
Combina:
- complejidad reducida
- detección de actividad de voz
G.729 Anexos
Existen varios anexos y extensiones históricas dentro de la familia, pero en operación práctica los más citados son:
- G.729
- G.729A
- G.729B
- G.729AB
Ancho de banda real
Aunque el payload es 8 kbps, en IP real no consume 8 kbps totales:
- aprox. 24 a 32 kbps por sentido
- aprox. 50 a 65 kbps por llamada completa, según paquetización y overhead
Ventajas de G.729
- Muy eficiente en ancho de banda
- Útil en WAN pequeñas
- Históricamente ampliamente soportado
- Bueno para sedes remotas
Desventajas de G.729
- Menor calidad que G.711 y G.722
- Mayor complejidad de codificación
- Puede requerir DSP para transcoding
- Puede aumentar complejidad operativa
- Menos natural para música, tonos y ciertas locuciones
- en algunos entornos modernos ya no es la opción preferida
iLBC
¿Qué es?
iLBC significa Internet Low Bitrate Codec.
Fue diseñado específicamente para voz sobre IP en redes donde puede haber:
- pérdida de paquetes
- jitter
- condiciones inestables
Su gran enfoque histórico fue la robustez en Internet.
¿Cómo funciona?
Trabaja con tramas de duración fija y fue diseñado para mantener inteligibilidad incluso cuando algunos paquetes se pierden.
Modos típicos
- 13.33 kbps con bloques de 30 ms
- 15.2 kbps con bloques de 20 ms
Calidad de audio
- mejor que algunos codecs muy comprimidos en redes con pérdida
- menos natural que G.711/G.722
- robusto en condiciones difíciles
MOS típico aproximado:
- alrededor de 3.8 a 4.1, dependiendo de red y modo
Variantes de iLBC
Las “variantes” prácticas son sus dos modos principales:
iLBC 20 ms
- 15.2 kbps
- menor duración de bloque
- mejor respuesta temporal
- más paquetes por segundo
iLBC 30 ms
- 13.33 kbps
- algo menos de bitrate
- más eficiencia
- mayor impacto por pérdida de una trama, aunque sigue siendo robusto
Ventajas de iLBC
- Diseñado para Internet
- Muy robusto frente a pérdida de paquetes
- Bueno en redes inestables
- útil donde G.729 o G.711 se degradan por pérdida
Desventajas de iLBC
- Menos común hoy que antes
- compatibilidad menor en plataformas modernas comparado con Opus/G.711
- no es la mejor calidad absoluta
- puede no estar soportado en todos los teléfonos o carriers
Opus
¿Qué es?
Opus es un codec moderno, flexible y muy avanzado, desarrollado para Internet en tiempo real.
Es hoy uno de los codecs más completos y potentes para:
- WebRTC
- videoconferencia
- colaboración
- softphones modernos
- streaming interactivo
- plataformas de comunicación en tiempo real
¿Por qué es tan importante?
Porque puede adaptarse a muchos escenarios:
- voz narrowband
- wideband
- super-wideband
- fullband
Y además puede cambiar dinámicamente según la red.
¿Cómo funciona?
Opus combina tecnologías orientadas a:
- voz
- audio de alta fidelidad
- baja latencia
- adaptación dinámica
Bitrate
Puede trabajar en un rango muy amplio:
- aprox. 6 kbps hasta más de 500 kbps
Frecuencias soportadas
- narrowband
- wideband
- super-wideband
- fullband
Latencia
Puede operar con latencias muy bajas, adecuadas para tiempo real.
Calidad de audio
Muy alta.
- excelente para voz
- muy buena para música
- puede superar claramente a G.711 y G.729 en muchos escenarios
- ideal para colaboración moderna
MOS puede ser muy alto según configuración y red.
Variantes de Opus
Opus no se suele dividir en “anexos clásicos” como G.729. Sus variantes reales son más bien de configuración operativa.
Narrowband
- orientado a voz básica
- menor bitrate
Wideband
- voz más clara
- similar a HD voice
Super-wideband
- mayor naturalidad
Fullband
- hasta calidad muy alta, cercana a audio completo
- adecuado para música y multimedia además de voz
CBR / VBR
- CBR: bitrate constante
- VBR: bitrate variable, más eficiente y adaptable
Mono / Stereo
- voz suele ir en mono
- multimedia puede usar estéreo
Configuraciones de baja latencia
- ideales para interacción en tiempo real
Ventajas de Opus
- Muy flexible
- Excelente calidad
- Muy eficiente
- Muy buena resiliencia
- Bueno tanto para voz como para música
- muy adecuado para redes modernas y WebRTC
- soporta adaptación dinámica
Desventajas de Opus
- no siempre está soportado en infraestructura VoIP empresarial clásica
- algunos PBX/carriers tradicionales no lo manejan de forma nativa
- puede requerir transcoding al interoperar con PSTN/SIP trunks clásicos
- integración puede ser más compleja en ambientes heredados
