The objective of this project is to gather information about formation courses contained in documents made by different entities in Madrid, Spain.
The main functionality of this project is formatting course information in a convenient way (i.e. a table with a specific format).
PDF information extraction functionality is being migrated to PDFJuice project.
Courseminer and PDFJuice are possible thanks to Apache PDFBox.
Compile with dependencies:
mvn compile package assembly:single
Generate examples (available in repository, will be overwritten):
java -cp target/crminer-app-1.0-SNAPSHOT-jar-with-dependencies.jar:lib/PDFJuice-1.2-SNAPSHOT.jar org.sj.punidos.crminer.ExampleGenerator
Este proyecto surge con la intención de apoyar el servicio prestado por Pueblos Unidos en la Comunidad de Madrid para facilitar la búsquedad de cursos de formación, como ayuda a la búsqueda de empleo.
Hasta ahora, la única forma de actualizar los datos en este buscador es introducirlos manualmente en un documento de hoja de cálculo, a partir de los documentos publicados por distintas entidades que ofrecen los cursos de formación.
El objetivo de Courseminer es facilitar esta tarea, procesando automáticamente los documentos que emiten las principales entidades (por ejemplo, los CEPI de la Comunidad de Madrid), y rellenar la hoja de cálculo con los datos obtenidos.
El propódito de este programa es generar tablas con la información de los cursos organizada.
La funcionalidad de extraer información de documentos PDF está siendo transferida al proyecto PDFJuice.
Courseminer y PDFJuice son posibles gracias a Apache PDFBox.
Este proyecto usa Maven como gestor de construcción.
Compilar el código:
mvn package
Compilar con dependencias:
mvn compile package assembly:single
Para descargar los documentos publicados por los CEPIs y generar versiones en HTML
java -cp target/crminer-app-1.0-SNAPSHOT-jar-with-dependencies.jar:lib/PDFJuice-1.2-SNAPSHOT.jar org.sj.punidos.crminer.cepi.CepiList
Este comando genera las correspondientes versiones HTML en el directorio out/cepi-demo/html/
.
Si se ejecuta este mismo comando con los argumentos -csv [FICHERO]
, se genera el fichero indicado, que contiene la información de todos los cursos (en formato CSV).
Si se dan como argumentos los nombres de varios CEPI, se procesan sólo esos. Si no, por defecto se procesan todos los de la lista contenida en res/cepi-list.txt
.
...
Fases del proyecto.
- Extraer datos de los documentos procedentes de un CEPI y exportarlos a un documento Excel.
- Extraer datos de los documentos de una OMIO y exportarlos a un docuemnto Excel.
- Desarrollar web scrappers para distintas fuentes de cursos en la web.