Optimisation du temps de génération du fichier daily (#72)

yguenneugues · web-flow · commit 887a7357d1bd · 2021-05-25T11:13:39.000+02:00
Ajout d'un script python

Co-authored-by: guenneuguesy &lt;yann.guenneugues@sib.fr&gt;
diff --git a/scripts/get_new_data.sh b/scripts/get_new_data.sh
@@ -26,57 +26,16 @@ diff -u --suppress-common-lines oldMarchesNoDuplicates newMarchesNoDuplicates |
 
 nbNewMarches=`cat todayMarches | wc -l`
 
-# Bizarrement,la différence de nombre de ligne entre oldMarchesNoDuplicates et newMarchesNoDuplicates n'est pas équivalente au nombre de marchés dans todaysMarches
-# nbNewMarches=$(( $nbMarchesUniqueNew-$nbMarchesUniqueOld))
-
 echo -e "\
 Ancien fichier :        $nbMarchesUniqueOld marchés uniques (via uid)\n
 Nouveau fichier :       $nbMarchesUniqueNew marchés uniques\n
                         $nbNewMarches nouveaux marchés uniques\n"
 
-# Si le nombre de nouveaux marchés uniques est trop important par rapport au précédent fichier decp.json (previous_decp.json) le temps de traitement devient trop important et le CI peut time out (5h pour extraire 8500 nouveaux marchés https://circleci.com/gh/etalab/decp-rama/234).
-# Pour éviter cela, si le nombre de marchés est important, on utilise une méthode jq (différence d'array) qui est un peu longue (30 min ?), mais don't le temps d'exécution ne devrait pas être lié au nombre de nouveaux marchés.
-
-if [[ $nbNewMarches -lt 2000 ]]
-
-# Méthode classique si peu de nouveaux marchés
-then
-
-    echo '{"marches":[' > temp.json
-
-    echo "Pour chaque nouvelle UID, export de l'objet marché correspondant vers un nouveau fichier..."
-    echo ""
-
-    i=1
-
-    for uid in `cat todayMarches`
-    do
-        uid=`echo $uid | sed 's/xSPACEx/ /g'`
-        echo "$i   $uid"
-        if [[ $i -lt $nbNewMarches ]]
-        then
-         object=`jq --arg uid "$uid" '.marches[] | select(.uid == $uid)' $newFile | sed 's/^\}/},/'`
-         ((i++));
-        else
-         object=`jq --arg uid "$uid" '.marches[] | select(.uid == $uid)' $newFile`
-        fi
-        echo "${object}" >> temp.json
-
-    done
-
-    echo ']}' >> temp.json
-
-else
-    # Méthode si nombreux nouveaux marchés
-    echo "L'ancien array est soustrait du nouveau, les objets identiques sont supprimés..."
-
-    time jq --slurpfile previous $oldFile '{"marches": (.marches - $previous[0].marches)} ' $newFile > temp.json
-fi
+#generation du fichier du jour dans le fichier temp.json
+python3.7 scripts/python/generateDailyDecp.py $newFile
 
 echo "Nombre de marchés dans le fichier des nouveaux marchés :"
 jq '.marches | length' temp.json
 
 date=`date "+%F"`
 jq . temp.json > results/decp_$date.json
-
-# rm oldMarchesNoDuplicates newMarchesNoDuplicates oldMarchesRaw newMarchesRaw todayMarches temp.json
diff --git a/scripts/python/generateDailyDecp.py b/scripts/python/generateDailyDecp.py
@@ -0,0 +1,26 @@
+import json
+import sys
+import time
+
+# Nouveau fichier decp.json (du jour)
+newFile = sys.argv[1]
+print('nouveau decp.json:', newFile)
+
+debut = time.time()
+
+listIdFile = open('todayMarches', encoding='utf8')
+content = listIdFile.read().splitlines()
+f = open(newFile, encoding='utf8')
+marches = json.load(f)
+outF = open("temp.json", "w", encoding='utf8')
+
+newMarches = {"marches" :[]}
+for marche in marches['marches']:
+    if str(marche['uid']) in content:
+        newMarches['marches'].append(marche)
+
+outF.write(json.dumps(newMarches,ensure_ascii=False, indent=4, sort_keys=True))
+temps_ecoule = time.time() - debut
+print("Temps de traitement en secondes", int(temps_ecoule))
+outF.close()
+f.close()