21. marzo 2026

Telefonía IP: Codecs

¿Qué es un Codec?

Un codec (Coder-Decoder) es un algoritmo o conjunto de procesos que permite:

  • Codificar (encode): convertir una señal analógica (voz humana) en datos digitales.
  • Decodificar (decode): reconstruir esa señal digital nuevamente a forma analógica.

En VoIP, el codec es el corazón de la transmisión de voz, ya que define:

  • Calidad de audio
  • Consumo de ancho de banda
  • Latencia
  • Uso de CPU (DSP)
  • Tolerancia a pérdida de paquetes

Naturaleza de la voz: Analógico vs Digital

Señal Analógica (voz humana)

  • La voz viaja como ondas continuas.
  • Tiene variaciones infinitas de amplitud y frecuencia.
  • Es susceptible a ruido y degradación.

Señal Digital (red IP)

  • Representada como bits (0 y 1).
  • Puede regenerarse sin degradación acumulativa.
  • Es más resistente al ruido.

Diferencia clave:

En redes modernas, todo debe convertirse a digital antes de transmitirse.

Proceso de Conversión: Analógico → Digital (PCM)

El proceso fundamental es PCM (Pulse Code Modulation), base del codec G.711.

Flujo completo:

Voz → Muestreo → Cuantización → Codificación → (Compresión opcional)

Etapas del Proceso PCM

Sampling (Muestreo)

Es el proceso de tomar muestras periódicas de la señal analógica.

Principio clave: Teorema de Nyquist

La frecuencia de muestreo debe ser al menos el doble de la frecuencia máxima de la señal.

Ejemplo en telefonía:

  • Voz humana útil: 300 Hz – 3400 Hz
  • Frecuencia máxima: ~4 kHz
  • Frecuencia de muestreo:

 8 kHz (8000 muestras/segundo)

Tipos de banda de audio

Ejemplo:

  • G.711 → Narrowband
  • G.722 → Wideband
  • Opus → adaptable hasta fullband

Quantization (Cuantificación)

La cuantificación es el proceso mediante el cual los valores continuos de amplitud de una señal analógica muestreada se convierten en valores discretos (niveles finitos).

¿Qué ocurre realmente?

Después del muestreo, tienes puntos en el tiempo con valores reales (continuos), por ejemplo:

2.13 V, 2.87 V, 3.02 V, 2.65 V

Pero un sistema digital no puede manejar infinitos valores.

Entonces:

  • Se define una escala (niveles discretos)
  • Cada valor se aproxima al nivel más cercano

Esto introduce un error llamado:

Ruido de cuantificación

  • Es inherente al proceso
  • No se puede eliminar completamente
  • Se percibe como una ligera distorsión

Tipos de cuantificación

Cuantificación uniforme

  • Todos los niveles están igualmente espaciados
  • Más simple
  • Menos eficiente para voz

Cuantificación no uniforme (companding)

Companding = Compressing + Expanding

Es una técnica no lineal que comprime el rango dinámico de la señal en el transmisor y lo expande en el receptor, con el objetivo de mejorar la relación señal-ruido (SNR) cuando se usan pocos bits (p. ej., 8 bits en G.711).

Usada en telefonía:

  • μ-law (Norteamérica)
  • A-law (Europa/internacional)

¿Por qué existe?

La voz humana tiene gran rango dinámico:

  • Sonidos muy débiles (susurros)
  • Sonidos fuertes (voz elevada)

Si cuantizas uniformemente:

  • Los valores pequeños quedan mal representados → ruido perceptible
  • Se desperdician niveles en amplitudes altas

Companding reasigna los niveles:

  • Más resolución en señales pequeñas
  • Menos resolución en señales grandes

Para mejorar la calidad:

  • Se comprimen los niveles altos y se expanden los bajos.
  • Mejora la percepción auditiva.

Impacto en VoIP

La cuantificación impacta directamente la calidad de la voz, porque es el punto donde la señal pierde precisión al convertirse de analógica a digital.

Por eso:

  • Más bits → mejor calidad → más ancho de banda
  • Menos bits → peor calidad → menor consumo

Todo codec es un balance entre estos dos extremos.

Relación con el codec

Cada codec maneja la cuantización de forma distinta:

Encoding (Codificación)

Convierte los valores cuantizados en binario.

En G.711:

  • Cada muestra = 8 bits
  • Estructura:
    • 1 bit → signo
    • 3 bits → segmento
    • 4 bits → intervalo

Bit de signo (1 bit)

0 = negativo 

1 = positivo

Indica si la onda está:

  • arriba del eje (positiva)
  • abajo del eje (negativa)

Segmento (3 bits)

000 → segmento 0 

001 → segmento 1 

111 → segmento 7

Define en qué rango de amplitud está la señal

Los segmentos no son lineales, crecen exponencialmente:

  • Segmento 0 → señales pequeñas
  • Segmento 7 → señales grandes

Intervalo (4 bits)

0000 → inicio del segmento 

1111 → final del segmento

Resultado:

8000 muestras/seg × 8 bits = 64 kbps

Compresión de Codecs

Los codecs pueden ser:

Sin compresión

  • Alta calidad
  • Mayor consumo de ancho de banda

Con compresión

  • Menor ancho de banda
  • Mayor uso de CPU (DSP)
  • Posible pérdida de calidad

Comparativa de Codecs

G.711

¿Qué es?

G.711 es un codec de voz de la ITU-T basado en PCM (Pulse Code Modulation).


Es el codec clásico de la telefonía digital tradicional y uno de los más usados en:

  • PSTN
  • SIP trunks
  • CUCM
  • CUBE
  • PBX IP
  • gateways de voz

Es considerado el codec de referencia para voz de alta compatibilidad.

¿Cómo funciona?

G.711 trabaja así:

  • Frecuencia de muestreo: 8 kHz
  • Bits por muestra: 8 bits
  • Bitrate: 64 kbps

La voz analógica se:

  1. Muestrea 8000 veces por segundo
  2. Cuantiza
  3. Codifica en 8 bits por muestra
  4. Aplica companding con:
  1. μ-law
  2. A-law

No usa compresión fuerte como G.729; por eso conserva muy buena calidad.

Calidad de audio

G.711 ofrece calidad tipo telefonía tradicional muy buena.

  • MOS típico: ~4.1 a 4.3
  • Calidad percibida: alta
  • Audio natural: sí
  • Latencia por codificación: muy baja

Nota: MOS (Mean Opinion Score) es una métrica que mide la calidad percibida de la voz, basada en cómo los usuarios evalúan una llamada.

Escala MOS

Variantes de G.711

G.711 μ-law

Se usa principalmente en:

  • Estados Unidos
  • Japón

Características

  • Companding más agresivo
  • Muy usado en Norteamérica
  • En representaciones internas, invierte ciertos bits según el esquema μ-law

G.711 A-law

Se usa en:

  • Europa
  • Latinoamérica
  • gran parte del resto del mundo en interconexión internacional

Características

  • Companding algo menos agresivo
  • Estándar típico fuera de Norteamérica

Ancho de banda real en red

Aunque el payload es 64 kbps, en IP real consume más:

  • aprox. 80 a 100 kbps por sentido
  • aprox. 160 a 200 kbps por llamada completa, según headers y paquetización

Ventajas de G.711

  • Muy alta compatibilidad
  • Excelente calidad para narrowband
  • Muy baja carga de CPU
  • Muy baja latencia de codificación
  • Ideal para integración con PSTN y SIP trunks
  • Muy estable en entornos empresariales

Desventajas de G.711

  • Consume bastante ancho de banda
  • No es ideal para WAN pequeñas
  • No es HD Voice
  • No reproduce música muy bien comparado con codecs más modernos

G.722

¿Qué es?

G.722 es un codec ITU-T de wideband audio, diseñado para dar mejor calidad de voz que G.711.

Se conoce comúnmente como codec de:

  • HD Voice
  • voz de banda ancha

¿Cómo funciona?

G.722 usa:

  • Frecuencia de muestreo: 16 kHz
  • Rango útil de audio: aprox. 50 Hz a 7 kHz
  • Bitrates típicos: 48, 56 y 64 kbps

Aunque muchas implementaciones lo manejan como 64 kbps, la gran diferencia no es solo el bitrate, sino que captura un rango de voz más amplio.

Calidad de audio

Es claramente mejor que G.711 para voz.

  • MOS típico: ~4.2 a 4.5
  • Mejor claridad
  • Mejor inteligibilidad
  • Mejor percepción de consonantes
  • Menor sensación de voz “telefónica”

¿Por qué suena mejor?

Porque G.711 es narrowband:

  • útil aprox. 300 Hz a 3400 Hz

Mientras G.722 es wideband:

  • aprox. 50 Hz a 7000 Hz

Eso permite que la voz se escuche:

  • más abierta
  • más natural
  • más definida

Variantes de G.722

Las variantes principales son por bitrate:

G.722 a 64 kbps

  • la más común
  • mejor calidad dentro de la familia
  • ampliamente usada en telefonía IP empresarial

G.722 a 56 kbps

  • menor ancho de banda
  • leve reducción de calidad

G.722 a 48 kbps

  • aún menor consumo
  • menos común en despliegues empresariales típicos

Importante: familia relacionada, pero no igual

Hay codecs relacionados por nombre, pero distintos, como:

  • G.722.1
  • G.722.2

No son simplemente “variantes menores” del mismo codec operativo. Son codecs diferentes dentro de la familia G.722 extendida.

G.722.1

  • basado en otra técnica
  • bitrates más bajos
  • usado en algunos sistemas de conferencia

G.722.2

  • también conocido como AMR-WB
  • muy usado en telefonía móvil

En VoIP empresarial clásica, cuando alguien dice “G.722”, normalmente se refiere a G.722 base wideband.

Ancho de banda real

En muchas implementaciones IP, G.722 a 64 kbps consume en red real algo muy parecido a G.711:

  • aprox. 80 a 100 kbps por sentido
  • aprox. 160 a 200 kbps por llamada completa

Ventajas de G.722

  • Voz HD
  • Mejor experiencia del usuario
  • Excelente para voz interna corporativa
  • Baja latencia de codificación
  • Compatible con muchos teléfonos IP modernos

Desventajas de G.722

  • Más ancho de banda que codecs comprimidos
  • No siempre se mantiene de extremo a extremo
  • puede degradarse a G.711 o G.729 si hay transcoding
  • algunos carriers/PSTN no lo sostienen extremo a extremo

G.729

¿Qué es?

G.729 es un codec ITU-T de compresión de voz de baja tasa de bits.
Fue diseñado para transportar voz con mucho menor ancho de banda que G.711.

Es uno de los codecs históricos más usados en:

  • enlaces WAN
  • sedes remotas
  • enlaces con ancho de banda restringido

¿Cómo funciona?

G.729 no usa PCM simple como G.711.
Usa un modelo de compresión más complejo basado en análisis de la voz.

Parámetros típicos

  • Frecuencia de muestreo: 8 kHz
  • Bitrate: 8 kbps
  • voz narrowband

En lugar de transmitir la forma de onda “casi directa”, transmite una representación comprimida del habla.

Calidad de audio

  • MOS típico: ~3.7 a 4.0
  • calidad buena, pero menor que G.711/G.722
  • voz menos natural
  • puede sentirse más sintético o “procesado”

¿Por qué se usa?

Porque reduce radicalmente el ancho de banda.

Comparación simple:

  • G.711 = 64 kbps payload
  • G.729 = 8 kbps payload

Ese ahorro fue muy valioso en redes WAN limitadas.

Variantes de G.729

Aquí es importante separar bien.

G.729

Versión base a 8 kbps.

G.729ª

Versión de complejidad reducida.

Características

  • misma tasa de 8 kbps
  • menor carga computacional
  • calidad prácticamente similar para muchos usos
  • muy común en implementaciones históricas

G.729B

Agrega VAD (Voice Activity Detection) y funciones relacionadas con silencios.

¿Qué hace?

  • detecta cuando no hay voz
  • reduce envío durante silencios
  • puede ahorrar más ancho de banda en ciertos escenarios

Consideración

No siempre es deseable, porque el manejo de silencios puede alterar la percepción natural del audio si está mal implementado.

G.729AB

Combina:

  • complejidad reducida
  • detección de actividad de voz

G.729 Anexos

Existen varios anexos y extensiones históricas dentro de la familia, pero en operación práctica los más citados son:

  • G.729
  • G.729A
  • G.729B
  • G.729AB

Ancho de banda real

Aunque el payload es 8 kbps, en IP real no consume 8 kbps totales:

  • aprox. 24 a 32 kbps por sentido
  • aprox. 50 a 65 kbps por llamada completa, según paquetización y overhead

Ventajas de G.729

  • Muy eficiente en ancho de banda
  • Útil en WAN pequeñas
  • Históricamente ampliamente soportado
  • Bueno para sedes remotas

Desventajas de G.729

  • Menor calidad que G.711 y G.722
  • Mayor complejidad de codificación
  • Puede requerir DSP para transcoding
  • Puede aumentar complejidad operativa
  • Menos natural para música, tonos y ciertas locuciones
  • en algunos entornos modernos ya no es la opción preferida

iLBC

¿Qué es?

iLBC significa Internet Low Bitrate Codec.

Fue diseñado específicamente para voz sobre IP en redes donde puede haber:

  • pérdida de paquetes
  • jitter
  • condiciones inestables

Su gran enfoque histórico fue la robustez en Internet.

¿Cómo funciona?

Trabaja con tramas de duración fija y fue diseñado para mantener inteligibilidad incluso cuando algunos paquetes se pierden.

Modos típicos

  • 13.33 kbps con bloques de 30 ms
  • 15.2 kbps con bloques de 20 ms

Calidad de audio

  • mejor que algunos codecs muy comprimidos en redes con pérdida
  • menos natural que G.711/G.722
  • robusto en condiciones difíciles

MOS típico aproximado:

  • alrededor de 3.8 a 4.1, dependiendo de red y modo

Variantes de iLBC

Las “variantes” prácticas son sus dos modos principales:

iLBC 20 ms

  • 15.2 kbps
  • menor duración de bloque
  • mejor respuesta temporal
  • más paquetes por segundo

iLBC 30 ms

  • 13.33 kbps
  • algo menos de bitrate
  • más eficiencia
  • mayor impacto por pérdida de una trama, aunque sigue siendo robusto

Ventajas de iLBC

  • Diseñado para Internet
  • Muy robusto frente a pérdida de paquetes
  • Bueno en redes inestables
  • útil donde G.729 o G.711 se degradan por pérdida

Desventajas de iLBC

  • Menos común hoy que antes
  • compatibilidad menor en plataformas modernas comparado con Opus/G.711
  • no es la mejor calidad absoluta
  • puede no estar soportado en todos los teléfonos o carriers

Opus

¿Qué es?

Opus es un codec moderno, flexible y muy avanzado, desarrollado para Internet en tiempo real.

Es hoy uno de los codecs más completos y potentes para:

  • WebRTC
  • videoconferencia
  • colaboración
  • softphones modernos
  • streaming interactivo
  • plataformas de comunicación en tiempo real

¿Por qué es tan importante?

Porque puede adaptarse a muchos escenarios:

  • voz narrowband
  • wideband
  • super-wideband
  • fullband

Y además puede cambiar dinámicamente según la red.

¿Cómo funciona?

Opus combina tecnologías orientadas a:

  • voz
  • audio de alta fidelidad
  • baja latencia
  • adaptación dinámica

Bitrate

Puede trabajar en un rango muy amplio:

  • aprox. 6 kbps hasta más de 500 kbps

Frecuencias soportadas

  • narrowband
  • wideband
  • super-wideband
  • fullband

Latencia

Puede operar con latencias muy bajas, adecuadas para tiempo real.

Calidad de audio

Muy alta.

  • excelente para voz
  • muy buena para música
  • puede superar claramente a G.711 y G.729 en muchos escenarios
  • ideal para colaboración moderna

MOS puede ser muy alto según configuración y red.

Variantes de Opus

Opus no se suele dividir en “anexos clásicos” como G.729. Sus variantes reales son más bien de configuración operativa.

Narrowband

  • orientado a voz básica
  • menor bitrate

Wideband

  • voz más clara
  • similar a HD voice

Super-wideband

  • mayor naturalidad

Fullband

  • hasta calidad muy alta, cercana a audio completo
  • adecuado para música y multimedia además de voz

CBR / VBR

  • CBR: bitrate constante
  • VBR: bitrate variable, más eficiente y adaptable

Mono / Stereo

  • voz suele ir en mono
  • multimedia puede usar estéreo

Configuraciones de baja latencia

  • ideales para interacción en tiempo real

Ventajas de Opus

  • Muy flexible
  • Excelente calidad
  • Muy eficiente
  • Muy buena resiliencia
  • Bueno tanto para voz como para música
  • muy adecuado para redes modernas y WebRTC
  • soporta adaptación dinámica

Desventajas de Opus

  • no siempre está soportado en infraestructura VoIP empresarial clásica
  • algunos PBX/carriers tradicionales no lo manejan de forma nativa
  • puede requerir transcoding al interoperar con PSTN/SIP trunks clásicos
  • integración puede ser más compleja en ambientes heredados

Volver

©INREDSIS. Todos los derechos reservados.

Necesitamos su consentimiento para cargar las traducciones

Utilizamos un servicio de terceros para traducir el contenido del sitio web que puede recopilar datos sobre su actividad. Por favor revise los detalles en la política de privacidad y acepte el servicio para ver las traducciones.