Skip to content

Primer hito. Extracción de tablas

andrescg2sj edited this page Feb 16, 2020 · 2 revisions

Ya es posible extraer tablas del documento de un CEPI utilizando PDFTableToHTML.

Se puede ejecutar el ejemplo con el siguiente comando:

java -cp target/crminer-app-1.0-SNAPSHOT-jar-with-dependencies.jar org.sj.punidos.crminer.PDFTableToHTML res/CEPI-1-1.pdf 0,190,583,381

El comando indica que el fichero de entrada es el documento res/CEPI-1-1.pdf, y a continuación se indican las coordenadas y dimensiones del área de recorte, en el formato x,y,anchura,altura.

Hay que tener en cuenta que las coordenadas tienen su origen en la esquina inferior izquierda del documento, y aumentan hacia la derecha y hacia arriba (como habitualmente en unos ejes cartesianos). Las medidas son en puntos (72 puntos por pulgada, típicamente).

En el directorio out/ se generará un documento HTML (con la marca de tiempo de la ejecución) con la tabla extraída, y otro documento SVG que sirve para depuración.

Clone this wiki locally