Skip to content

Latest commit

 

History

History
75 lines (47 loc) · 7.61 KB

README.md

File metadata and controls

75 lines (47 loc) · 7.61 KB

Information Retrieval: REIN

EPSEVG RECUPERACIÓ DE LA INFORMACIÓ Curs 2023-24

En aquest repositori, trobareu tots els fitxers necessaris utilitzats i creats per l'assignatura de Recuperació de la Informació al Curs 2023-24 a la Universitat UPC a EPSEVG.

Fitxers

A continuació, es detallen els fitxers i projectes penjats en aquest repositori:

Laboratori 1: Configuració d'ElasticSearch i Anàlisi de Text

L'Activitat 1 del laboratori implica la configuració d'ElasticSearch i la creació d'un índex per a la col·lecció de documents 20_newsgroups. Realitzant consultes dins d'aquest índex, compten la freqüència de les paraules, i analitzen les dades segons les Lleis de Zipf i Heaps per comprendre la distribució de les paraules i l'expansió del vocabulari.

Codis importants del laboratori:

Laboratori 2: Tokenització i Filtres en ElasticSearch

A l'Activitat 2 de REIN, es configura l'ElasticSearch i modifiquen la tokenització i els filtres per observar com aquests canvis afecten la indexació d'un corpus de textos. Experimentant amb diferents tokens i filtres per a analitzar les variacions en el recompte i tipus de paraules indexades. També es calcula la similitud cosinus entre documents usant vectors tf-idf per a determinar la semblança entre textos.

Codis importants del laboratori:

Laboratori 3: Rastreig Web i Anàlisi de Tendències en Moda

A l'Activitat 3, desenvolupem "Vogue Inspector", un rastrejador web destinat a la pàgina de Vogue Espanya. Aquest rastrejador extreu dades d'articles de moda, com ara títols, contingut i enllaços relacionats, per analitzar tendències actuals. L'extensió del rastrejador permet navegar a través de sub-pàgines per recopilar informació més detallada, la qual s'emmagatzema en un fitxer JSON. Aquestes dades s'integren després amb ElasticSearch per a realitzar consultes.

Codis importants del laboratori:

  • Carpeta del rastrejador: vogue

Laboratori 4: Anàlisi de Xarxes amb PageRank

A l'Activitat 4, utilitzem fitxers de text per construir una xarxa d’aeroports i vols, sobre la qual calculen el Page Rank, amb els fitxers airports.txt i routes.txt, creem un graf on els nodes són els aeroports (utilitzant codis IATA) i les arestes són les rutes, amb pesos que representen el nombre de rutes entre cada parella d’aeroports. A continuació, apliquen l'algorisme de PageRank per determinar la importància relativa de cada aeroport dins de la xarxa. Els resultats es presenten en una llista ordenada decreixent segons el valor de PageRank de cada aeroport. Utilitzen el codi proporcionat PageRank.py com a base per aquest càlcul.

Codis importants del laboratori:

Laboratori 5: MapReduce i Anàlisi del SuperMercat

En l'Activitat 5 del laboratori de REIN, es realitzen experiments per determinar l'impacte del nombre de nuclis de processament en l'eficiència de l'execució d'scripts de MapReduce. Utilitzen la biblioteca mrjob de Python per processar dades i analitzar la relació entre els nuclis utilitzats i el temps d'execució, observant que no necessàriament més nuclis resulten en una major eficiència. En aquesta activitat amb la implementació correcta del script MRMarketBasketAnalysis.py de la lectura de parelles de dades i el càlcul de suport i confiança per a regles d'associació, utilitzant el fitxer groceries.csv . Com a resultat dels experiments, determinen que l'ús de 2 nuclis és el més òptim per a les seves proves.

Codis importants del laboratori:

Laboratori 6: Presentació de Temes Avançats

A l'Activitat 6 del laboratori de REIN, haviem de fer una presentació relacionada amb el temari de l'assignatura, el tema triat és l'estudi de la indexació en galeries de dispositius mòbils. La presentació aborda com la proliferació de fotos digitals ha creat la necessitat d'una organització més eficient. S'explora la transició de la indexació tradicional a mètodes avançats com el reconeixement facial i l'ús de la intel·ligència artificial (IA) i l'aprenentatge automàtic per millorar la cerca i organització de fotos. També es discuteixen les implicacions de la privacitat i seguretat que comporta l'emmagatzematge de dades personals i com les noves tecnologies poden afectar aquests aspectes. Conclou destacant els beneficis d'aquests avanços alhora que manté la consciència de la importància de la protecció de dades.

Autors

Aquest repositori ha estat creat per Mariona Farré i els laboratoris han estat creats amb la col·laboració de Marc Pérez

Gràcies per visitar aquest repositori :)