Estado actual

Actualmente, el programa es capaz de procesar las tablas de ejemplo mediante el comando siguiente:

java -cp target/crminer-app-1.0-SNAPSHOT-jar-with-dependencies.jar org.sj.punidos.crminer.PDFTableToHTML [filename]

Los ficheros de prueba que se pueden leer con éxito actualmente son:

res/test01-1cell.pdf
res/test02-2cell.pdf
res/test03-4cell.pdf
res/test04.pdf
res/test05.pdf
res/test06.pdf

Como resultado se generan un fichero .htm y otro .svg en el directorio out/.

Actualmente, además, también es posible extraer tablas del documento de un CEPI. Más información.

El próximo paso será mejorar esa extracción (eliminar filas vacías sobrantes, etc) y desarrollar la funcionalidad de extraer varias tablas a la vez.

Provide feedback