Compresión PDF explicada: técnicas, métodos y buenas prácticas
La compresión PDF es el conjunto de técnicas utilizadas para reducir el tamaño de un archivo PDF sin comprometer excesivamente su calidad. Ya sea que desee enviar un documento por correo electrónico, alojarlo en un sitio web o simplemente ahorrar espacio de almacenamiento, comprender los métodos de compresión le permite tomar las decisiones correctas. Esta guía detalla las técnicas disponibles y sus compromisos.
La compresión sin pérdida reduce el tamaño del archivo sin ninguna degradación de calidad. El algoritmo Flate (deflate/ZIP) es el más común en los PDF: comprime los flujos de datos textuales y las imágenes sin pérdida. El JBIG2 es particularmente eficaz para las imágenes en blanco y negro (documentos escaneados). La compresión con pérdida sacrifica parte de la calidad para obtener reducciones de tamaño más importantes. JPEG es el método con pérdida más utilizado para las imágenes fotográficas en los PDF. JPEG 2000 ofrece mejor calidad a igual tamaño pero tiene un soporte menos universal. La elección entre estos métodos depende del contenido de su documento y del uso previsto.
Estrategias de compresión según el uso
1
Para visualización en pantalla
Reduzca las imágenes a 150 DPI y utilice compresión JPEG con una calidad del 60-80 %. Esto produce archivos muy ligeros adecuados para web y correo electrónico.
2
Para impresión de oficina
Conserve una resolución de 200-300 DPI y una calidad JPEG del 80-90 %. Este compromiso ofrece buena calidad de impresión mientras reduce significativamente el tamaño.
3
Para impresión profesional
Mantenga 300 DPI como mínimo y utilice compresión JPEG de alta calidad (90-100 %) o compresión sin pérdida para los elementos gráficos críticos.
Optimizaciones complementarias
Subconjunte las fuentes para conservar únicamente los glifos utilizados en el documento.
Elimine los objetos no utilizados, las miniaturas de vista previa y los metadatos superfluos.
Aplane las capas y las transparencias que ya no sean necesarias.
Linealice el PDF para una visualización web progresiva más rápida (fast web view).
Algoritmos de compresion utilizados en documentos PDF
Los archivos PDF emplean diversos algoritmos de compresion, cada uno optimizado para tipos especificos de datos. Flate (basado en Deflate/zlib) es el mas utilizado para texto y graficos vectoriales, ofreciendo compresion sin perdida con ratios tipicos del 50 al 70 por ciento. LZW es un algoritmo sin perdida mas antiguo que aparece en PDFs legacy. JPEG se utiliza para imagenes fotograficas, con compresion con perdida que puede reducir el tamano a una decima parte o menos del original. JPEG2000 ofrece mejor calidad que JPEG al mismo tamano de archivo y soporta compresion sin perdida, pero su decodificacion es mas lenta. CCITT Group 4 esta optimizado para imagenes monocromas como documentos escaneados en blanco y negro, logrando ratios de compresion muy elevados. JBIG2 es el algoritmo mas eficiente para documentos escaneados, ya que identifica patrones repetidos como caracteres similares y los almacena una sola vez.
Escenarios practicos de compresion de PDF
Los requisitos de compresion varian segun el caso de uso. Para envio por correo electronico, donde los limites tipicos son de 10 a 25 MB, la compresion agresiva de imagenes a 150 DPI con calidad JPEG del 75 por ciento suele reducir un documento de 50 MB a menos de 5 MB con una calidad aceptable para visualizacion en pantalla. Para archivado digital, la compresion sin perdida es preferible para preservar la integridad del documento, aunque el ahorro de espacio es menor. Para publicacion web, se busca el menor tamano posible sin degradacion visible, combinando compresion de imagenes con eliminacion de metadatos y fuentes no utilizadas. Para impresion profesional, se recomienda compresion minima o nula de las imagenes para preservar la maxima calidad. UnblockPDF ofrece perfiles de compresion predefinidos para cada uno de estos escenarios.
Cuando no se debe comprimir un PDF
Aunque la compresion reduce el tamano del archivo, existen situaciones en las que debe evitarse o limitarse. Los documentos destinados a impresion profesional no deben comprimirse con algoritmos con perdida, ya que los artefactos de compresion pueden hacerse visibles al imprimir a gran tamano. Los documentos legales o probatorios deben mantener su integridad binaria exacta, por lo que cualquier recompresion podria invalidar firmas digitales existentes. Los archivos PDF/A pueden perder su conformidad si se aplican metodos de compresion no permitidos por el estandar. Los PDFs con formularios interactivos pueden perder funcionalidad si la compresion altera los flujos de datos de JavaScript o las definiciones de campo. Antes de comprimir, considere siempre la finalidad del documento y verifique que el resultado cumple los requisitos de calidad y funcionalidad.
Que elementos se comprimen dentro de un PDF
Dentro de un archivo PDF, practicamente todos los flujos de datos pueden comprimirse individualmente. Los flujos de contenido de pagina, que describen el texto y los graficos vectoriales, se comprimen tipicamente con Flate. Las imagenes rasterizadas pueden utilizar JPEG, JPEG2000 o Flate segun su naturaleza. Los datos de fuentes incrustadas se comprimen con Flate para reducir su peso. Los metadatos XMP pueden comprimirse, aunque PDF/A exige que permanezcan legibles sin descompresion. Los datos de formularios, las anotaciones y los marcadores tienen sus propios flujos que tambien admiten compresion. La estructura de referencia cruzada (xref) en PDF 1.5 y posterior puede almacenarse como un flujo comprimido, reduciendo la sobrecarga estructural. Una optimizacion completa del PDF revisa y recomprime cada uno de estos elementos con el algoritmo mas adecuado para su tipo de datos.