-
Notifications
You must be signed in to change notification settings - Fork 0
Primer hito. Extracción de tablas
andrescg2sj edited this page Feb 16, 2020
·
2 revisions
Ya es posible extraer tablas del documento de un CEPI utilizando PDFTableToHTML
.
Se puede ejecutar el ejemplo con el siguiente comando:
java -cp target/crminer-app-1.0-SNAPSHOT-jar-with-dependencies.jar org.sj.punidos.crminer.PDFTableToHTML res/CEPI-1-1.pdf 0,190,583,381
El comando indica que el fichero de entrada es el documento res/CEPI-1-1.pdf
, y a continuación se indican las coordenadas y dimensiones del área de recorte, en el formato x,y,anchura,altura
.
Hay que tener en cuenta que las coordenadas tienen su origen en la esquina inferior izquierda del documento, y aumentan hacia la derecha y hacia arriba (como habitualmente en unos ejes cartesianos). Las medidas son en puntos (72 puntos por pulgada, típicamente).
En el directorio out/
se generará un documento HTML (con la marca de tiempo de la ejecución) con la tabla extraída, y otro documento SVG que sirve para depuración.