From 35aef4c13c48bf8a2a65c023199921c4638f05c9 Mon Sep 17 00:00:00 2001
From: mdmujtabaraza <45493966+mdmujtabaraza@users.noreply.github.com>
Date: Sat, 2 Apr 2022 15:32:17 +0530
Subject: [PATCH] Fixed generate_cloze. Improved app and many fixes.

---
 .idea/vcs.xml                                 |   1 +
 run_cli.py                                    |   9 +-
 src/__pycache__/app.cpython-38.pyc            | Bin 12066 -> 12802 bytes
 src/app.kv                                    |   2 +-
 src/app.py                                    |  53 +++-
 src/dict_scraper/spiders/cambridge.py         | 249 +++++++++++-------
 .../__pycache__/json_to_apkg.cpython-38.pyc   | Bin 3771 -> 3783 bytes
 src/lib/json_to_apkg.py                       |  14 +-
 8 files changed, 212 insertions(+), 116 deletions(-)
diff --git a/.idea/vcs.xml b/.idea/vcs.xml
index 94a25f7..8d7912f 100644
--- a/.idea/vcs.xml
+++ b/.idea/vcs.xml
@@ -2,5 +2,6 @@
 <project version="4">
   <component name="VcsDirectoryMappings">
     <mapping directory="$PROJECT_DIR$" vcs="Git" />
+    <mapping directory="$PROJECT_DIR$/dist/main" vcs="Git" />
   </component>
 </project>
\ No newline at end of file
diff --git a/run_cli.py b/run_cli.py
index 0430540..94198c7 100644
--- a/run_cli.py
+++ b/run_cli.py
@@ -8,7 +8,7 @@
 
 from src.app_cli import run_spider
 from src.dict_scraper.spiders import cambridge
-
+from src.lib.json_to_apkg import generate_cloze
 
 if __name__ == '__main__':
     word_url = "https://dictionary.cambridge.org/dictionary/english/sit"
@@ -18,13 +18,14 @@
         'User-Agent': 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
         'Referer': 'https://www.google.com'
     }
+    # phrase = generate_cloze("an eye for an eye")
     # # response = requests.get(gcurl, headers=headers)
     # # print(response.content)
     # CONTAINER['url'] = gcurl
 
-    http = urllib3.PoolManager(timeout=urllib3.Timeout(connect=1.0, read=2.0))
-    response = http.request('GET', word_url, headers=headers, retries=urllib3.Retry(5, redirect=2))
-    print(response.status)
+    # http = urllib3.PoolManager(timeout=urllib3.Timeout(connect=1.0, read=2.0))
+    # response = http.request('GET', word_url, headers=headers, retries=urllib3.Retry(5, redirect=2))
+    # print(response.status)
     # print(response.data)
     # print(response["headers"])
 
diff --git a/src/__pycache__/app.cpython-38.pyc b/src/__pycache__/app.cpython-38.pyc
index b36fdcdad7d987772ddbd852669ca7828a4f65f7..ce8b09d6e7858645111c33cd1bbb3131962a7f5a 100644
GIT binary patch
delta 4843
zcma)AeQX@X72nz2yW9Kp#c^z(6MrPmhtElD=hKPnB$&j;PJ%;iCxjz#Ip3`9v(I<u
z*)=xqUXI`tqC(U(1EN)eI8&evA8n|qL|gi${)GgUKox(iMEM7`Lao|L{i9VV(D!B?
zn?wo3r~S>F+4tVOdGqGYTR;Ecqcn6h81zZ-cgoj2$d7$5w2IKzH+tj(-AtR#NU=WJ
zMw@BN84~NiOQKuo)-w{_s@Kjcu>t6BquZgsUEc`(qtM?$cS3)s=pTcAE8PYCU3xjZ
zzgIs_caO>EWp<L1ekuBmPjK4aD6ut~Fm*FEt^@7w9vHZ%gC^#mlRqP56Ms?NOv?F3
zYQ>t`ah<VLVtn(IK4_RaYf5Ivn`tU(rm~p?d$@UKD{paaBUL=-daFP{wF{p8@E9!s
zlvvW3o0VHqQKIr3p-M!`OH>u3n@m!asf)TTX->&YmIUT`dTn*YG;=d@bMq&tE~ZRP
zP0gqPO>7<Xql)b^a_N+5%S?|c#^fNFuS~M^Wr>j;{F0};P{Q=_>_d7S^~6C?SR=em
zG!haIYXwzF)PL>I1B4$Q!TbRbCKxnJ@`Orx*(8)iqyy3eYx9alEQQJuX-sBirc9Mt
zLL?YbVPP_nCfX(nWtMEbZz`iIbwwoVrk+c3UY)5kU88QQS(2rio>7f@sgL^4$uw|I
z&AaZEGTVuSKN_^83Mubi;CA1P+j8g0eNsj~E?KToFPJAo>qA43I$ZS6f#uK<Ru=<c
zu{;FM2RmhOaj2JVfb}t4z3uACPG%_E0`yhiQA1~&JBIa)$(mpwDzn}EV|Oc^*@><+
z+M1go2$G59h~6}u%?_vaNf1b8GbTugxG?ktOOEWD*dv(QqCw$j+q?fr??6XSZ)czF
z%CS_&v^|Dy7!X0M9WB8~;q9L4Ld<QL33Jkj`G$3KL{Cti8MZr-%jp>!_1M}}meDxu
zHQNpnwwuLGecEJqpbk_N)0l4LvKd2<xrUR-w*y}Z*a?*F2eolnLoP9_AA$j+0YHL?
zP~`v#kaZf6ZlaQ~B9l6xG_s2Lp!Jb}tCX-VU``UAF0U-~0clA_co^b@l6DC0e(<*w
zF*qWkWm8^8-(%22wA4YgsA6Bl`=VlrJ%KF;*@-&pg1vD&dov(5hwXw%x}qxE1Fi5R
z+Y1z|TkpdFk1Ff{zCmX=PPk#Y!DJdXB+m4SN!>70z-E*INV1Ach6fkz90}HaVM7_;
zQ}5+1+J|Hd4|xk^OMcVZ(~0pxn%Mg|pYy&*4)MEun@R?7T68PBAHd>|`si+?>|i{e
zOeYK@si)KN_?PxzXi=gEsBghz$N(B)JqxqXxBC_1k0D<g;eLKFa7WF9NS;Ix8W!ym
z6F)is<G^cV9d5{F!UXFQ!%-Oh2nCM;%rx?j<(2$GsLp>J$L>Rj^7l%bH%E~)5GD~G
zLbzVb$2f#qSR+a_G$Q$x5}0V&F`g^gUH_GQ|8V%;`8vLTJA4h{mX=;1A?<mGQW+Y@
zLvc&9A)}xXXTw{!pwMMv`-D)6rn2L=lyW&ze+zGEKq)qZa4XOF9OeVdcHIVZiNpND
zvex#m*IXu;VeU^<fT$94Cll#3+(##PMd^;UQ#eT2!%ky4P2OovVdG)rJXgBAK?KF4
zFyic~*xjAbwS!s6EOE-RIhviye8Ar;onP<xmYqTNr8rm$hG}?FL-@<f6E%Bp#e<=}
znn%m}`h+&c_CeAaWZ5ammuwbZ+JOT-`v-cC^mg?1boN7{MH6EsOZRF#lYom?%(^tS
z2~2DGyJhFeasJ?nRe;}Gv8G<EP6YIK;Qfs<8jLma->ta2O_(CH3^F|eurRBwWCurY
zkg@~Gbk@-0G?hqahg<kv<u8y~{`c~pZDO(~K{^&p<i>{ML#ecW6H{%k@GP=y<0BP+
z9J&`oY}fw7NBTQ2!wqhxOxQ;>I_4RiG)>6aV9wLf7lTo4$xIf)(F+JcgmVaZQwvAJ
z9t)EkQGTg%bM^I3vjff|;<;>YGPjTarSi<aEJ#CIML}CjW#G=qBy~nnC%(GT86mjv
zl4FC}X-I3S<k$&*Ir287NTaHi^zv7#s_MUqLQAoNp~a2@&};EK)67d&Rdd(M<!*EY
z<Gg0&LGlz&t*l-z*0Z=NUs{>lS(%Ok3I6KJHIeTlDV8TD6Z6~yV<+eTx^guseFn&A
zK->}Hs$zS1Rdp@N^0w;ciXY%hmlJ2opqXJpZzq4Gy2?rPLa$JH30NoiPpa=PJOv9l
zD~(E{WK=FHlt2Lol@CygLoHNCYSCrEJEQHaRCH4nD-FEOOixjp!>XzBgq&CMs-;>4
ziorWAMN~>BChoN4^Mp-X#Pm{kyJY$-0u`6b^cMqW&~nj&XBMu=VrUNPA<JzP%@SlF
zU=mEDU7H3B3>TMC?;Oc{EH_N|W?r*2>VtyJ3#}hoAG85z{m=%X4Ol)Js*o%{R9ZpH
zYXzNgz><hGq~=3Fg(FhI^5S|U(s^PuSsw61X>qw(2JC^0k`)>vk4r;@E~BMqyma|F
z@Cnp^R~GqJnB`|BOPiI=3R(vIzKaqKS^kUCv#RKWj%Q`M0!qO0bD|QMxMEfoBXd%*
zY7WwNCUiD>-8yN7vlVffRzj%|>AgzoMV)Y!?Bix_gIa`r<ImL9HrplRdLom`3>$GH
z$#gx#4#F#2#hW4~4^Oef(7j6P*xk^wL;O#*o1D~r1pBv&=0AvN<_&dC4R~<vkfB5E
zN8uyDDZ}tOol)!H500|PN0<4jy2wFMwhu&CveUp2^NAWRmB~$-4%1fD<$EZRPQmv`
zmKjbtgK3LBhHwHwR6t$))4H1RIqY`>#607P3>0$A#%gh4rFQA!(y=g2q%x3kA3zcO
z0AQ5}SbVSu0v7%3c>p_@97$w`^#v`_66fq4;HOvDl1@Iix-$F{@+J@l5q`wqUR_ss
z4oPv6u0NKx*BHr8#bHH>Q{XlOQ;kGwpy=|!PhA!k1(=(-S76CmCW<i_SFjwr_6xvx
zDfDFcsU-B7`h{D=9zJ2>`&|88<tNu{Dm)IVqjFbQbQv2#b5aPS2w06d7uhsYcq=iy
zLzwWcNIW91Vs2m;5ipxDJpb&c2xAChWdfG!H!RMcfXAqkxWB%dq@DV0x>;N@3KJFF
z6_ge>Fr;o$yM4qzuK&FgdSZe}<Xf6=F_Hckd<a#{yK5h~4d$y3bKkm_+hG3GVSaht
zj@w}VpTq1~-?95?uoSM4)6m2exEh=ot3dljZoYmIwwBGr;hJIQKl$nPZJjsUr`J*T
zmJUZ>{u!n>uo8m8J<P6L*zg{Cn!mr{$Xbjp_;hlP`VBL?1}9T#s>-~xVQN2wx%eWO
zN>Mm6hOHWAHs>6!pMefrVUwAg+V6o6D>OeW^Di1+D#5d0yI5*?#DqKL4gN-SZLKIi
zZnAdv8ZcML{6EoF{-IxUix2EOcza`Q!GepW=%Oyj+{7ZI?on}Jz~uq|5f~+LFLnMS
zAQA{$4{F%25Ppe(Ca_-sM19Tz-oSxhBm4$InDYu!xJT?&gr6h41>lrEO$%DC_Za&j
zFsy;^5+eYFBx~Zx!j}?%r!i8vVdv(7gT0A>s}!PNieI5v1TlJ7L7jN=;D84-kLG8>
z=UO~I4rwYLkCNW#ee68yaU*;e;oArxD6t%XU8>?gY+~xD0pHHsaJYlBjfct0{I?rh
z$P@Gb+PGJ)7RmB4cp39_cXk};?CXzt`WL>p_whqbRrj=@WGg}!LN|iQig>OW#+tCr
v$tO$hSzM2;wU1}%WLn<~At@Qt{FSDW<(gLGD-DOk1*sq%4X+C~`pW+gU~e@b

delta 4138
zcma)9eQXrR72nz0`~L9x+XomseERsXF`wbv2Ai)21GWk6C9qoGtnD-B-Sg}o4s@?a
zFeOAS2pB3gB~&&FG)PU;1gVvxrfDlhRilckQlzw7^^bliQWU9;+9s;<N89&i!43#0
zw)Qt~X5O25Z|2Q=?@rNcM-m6)@rVR}l?QhY+&FMCF^BZNu{0>}-zm}MwDq(^TlJ<1
zU#1uOZFB|nSLjQj-v|A6x)S;;MZX{VtLSRzuh#2e{-FLeU2{~vAhRAy`lR&QTbJco
za(MNyZ5ON!ZEgH@WqEww-QM{4cq{*-QXgM>&&a1rb9~D^BX#~&@kRHH?D7Ak><9fr
z@NI|BItf6f60s#pQc{<6cuq-nBuA!lN;(=~F`#@Ym?zTMlChXWEXO7zGF4I%_0z!1
za>-}=Mid$Z8K3PR3D6J?)5tlQM$aiF#Zg9ruyzRA@C2-ZyF8JSCL_R32IVOja?svb
z4_ge1Faq!qxfH4=?YtqhuAGj#;qCi+`a5^`boaVJOSi0?X|UD6<|=5I8)W)eQMYV2
zSY-KpZeSHt#3a>h&Gi>p&ag89%hv3o<p#7uK{sgH?}o-rMpck-15CB`=WO;QZjb9`
zLQJ;`reWzfC7EsIX9Bz0qC>i^j_U&jZAcfV)&PtWQREnjk&ql93Q3YVBtRnmD#AMX
z;mGG?1^;riT(cFI?Er8?oATP|0M)h(^N*v~Nf*BuTUN36?lkKM>M;LxjFNud9<N>~
z1O=$mJllYJ7CuV`2obgoHfp?eChjBAK4j7n`uXKV$J|3meg#2@i-kJGG{ESse<WTb
z&0hlYCSihghM@;We+D1h$KOeAjvhd=7a`5xscdUWBbi4q5KM%7h2O=Yef&t}`uUIK
zd(Y#0t8#tIBl&(K_z;$%2Cd7Ge5AztcO_iq5Kq=M@C#K{8+XEBnz-S?oIzE*{)Zay
zr)lxP{$ZwBI^SBoxE<wh5;r2`b2Mj;K6HT(#R7ayb$bg+F$>{g$Mvzte7^e0$6)@%
zWByz9x=sIo<xd4Oz(@Eb(!NX}tL5`LV+Xlbvt~g72MJ?dQ}mi+UNeqOkPY&;YSy<1
z2l*<Dco!|MyaT#!+=S<(Qf3yYId1%z&#t|-$UA0MLiQQwnDLM?nE0>6|5dBa-S{vb
z8zy9K)%8LcMaA6+yuATtj$5F-14C}CYxnm4-TQhvdv|yDrDfs6nF^ZA+7KQzc3d^I
zQQcE_X6sRq^z-`q3*-QQwSErZyY=(t3+sfJPr&^BG8iYLJkqdtgHT0gL&$U-;LfhD
z&m0)JPs)vD^QNV%G^gdwp-O(S;T7WWwW-~!#AaUy=}cTJ934^zb9wy%s=8ruvdB`y
z-%Q;m`}y;;Y7U^5nczUtwjn&h{^wB_988C1^kNAd{RToD;S53)0Z$GtRp{V}@(*V%
zZxjbKeM)Z3(^@T<g<_$Zub6#$>o5u`LeLH642Y&iR%eHCO`N*l`b2hE&mJ8xpHs8>
zT=wW@{?FOJf^hiuoOSCx?{KSzbVFyFt*e81%^J>X@EZ5vN;4kQf!!W}ZpaA`PL?;W
z3GBzQZ}Q>BJzeL3Oov^?K3>pWzg;YVUkk%$Y@WWUFIXS&tUrPaW%y@}^HLX)6xL7s
zHQNniowwTOK0#Jqz<pv&xN0Y|u0dD;kg3=X@to!8klt6wQSeO6t8AE`ZfdK)1Z3Lp
zxutKwHkjCP3xBU^mX{Ky&zpS<SbO=uo1Q6Cu=K1nB8@<TEfGk{vhABx95O|$MQ5c+
zKLv_NRPK}Pz+`X=lXb(hkbp7GIs}q+tK%!lkf?W!wL0<z!ge{3dZ}-dWQQFxK}vo*
zG8wgFj-M(Mkb5WNQ&K4aJ0>P8sDG+VN<k+8i~gt-azZo!Sw9SI5ZVZ|A!wt}hM|o)
z5gMtNoM^pNiaTK^?u`RRQ_`SPN&pp0Nluu?Q&LK@{^JC}tmI^+T?M?cE0U8KBriyV
zgeGXk=`c;6^G%U5Xnty%vD&UVD><PF*{-FPAP~7C(TEehB3)HP9~QYP(<&%5s?Ui!
zV(gS%H(5U=O*TwPL^2ZM#A@!I7_IeAR+VWT)Eo6ZCz=lSKGkfPcJrWFG-zw{ejc4y
zxA7&o4Yy)c*NmJoWT{q`>AJx%=er6fjf^}r&bp!dIca7)pk-YMaB~uOqAh8L9?o_l
zJj|i5c@F){d95w@cHM-fXHA1*)Do2lCfgHAGyK65M-Dd08|SC^!g)>IY$5df(<ycW
z+Dt@LF*&19v<0IZIi}@vQ2Ch5%J`tVVHmzx8Q~y;aNbUSa{k=C-@yffqnZIF4a-EZ
z!10XDR83nCYS~&2UMhPUrLpj3Sott4L|6(Th;W5}GQTz;;>u<oUC>nC0;8EKEUUDv
ztyA^xitH+~XAqu2_%8BAhKlffL`u#i3L3Ljb5OMkx}F_o-$pL+cJ6(mZrB<&$5kxy
zR5(rx^^@cXRAdnnA@h}Fl7yfr3y?r<2&ftb%CzbK7^xvi{{DhJ<&z+lmUrw(S27Jq
zHh_>tz;et>Vq-{QMq-#hyb~2MRfJf4=<G5A1`Y9;*(*p<1fjG56}ue>IsjHL)+~u%
zUD!x;EaLd@7Mg7$IQp0<<*p;EP~s?3LR>7=ad+aU{Me$OdnJRIFmOUpGkh37Kk(d5
zU3~a4n1Amv|8?<-$6$6n=1nbY9)tN09`j2ro$JqoR*+7F3;Q5Vc-~cy`p?AwX(QZ_
zX{eBLn0=d9r#EzK$amjG-N3Pjo;aT6+pxW*01+awB)iTprGHD#bGl^T0(4vWh2TB(
zd(Y4H4-|8G`WM1KSTasBeBaXA<>Co_4`f^)D;f_}7=Drneg97Q#ichY(C1x0%MA_N
zkP>e49m^IpiBjVM#<FX`{2AddE?buXjU^v^7<{Z2etTI{nfe{b4yvC@5W@mJA{wwo
zFwb5`_yNLe0O^4D)NkUz8whVAh+Th()PuHu877DfdtuO!<Pbch2su%;_jqTa&}x~3
zwpzYpSPxVY_g%xQxa#*2&;o{QeZd*0FO%WP{Tc59H-RS^3k5?_G3tg?brhnFs-_RI
z7g0Wda2DZf2r^_6iRFNVw4WQ*Gs=i%8X1}CY(4L4eTq!+i>)ij>07^O-6A)NdnyBS
zCb+A+v#YzeFB9y$^Yd{nZ)~5nV;wHqiLea;-z5{z4t4bGn{kI}3*dL$s7Z@?eGA@?
YW%C!>hbvOaWU?%krM~3CWJ{#(e<IGN@c;k-

diff --git a/src/app.kv b/src/app.kv
index 11698b8..45fd6b9 100644
--- a/src/app.kv
+++ b/src/app.kv
@@ -81,7 +81,7 @@ ScreenManager:
             MDRectangleFlatButton:
                 text: 'Generate Anki Flashcard'
                 font_style: 'Button'
-                pos_hint: {'center_x': 0.5, 'center_y': 0.2}
+                pos_hint: {'center_x': 0.5, 'center_y': 0.25}
                 on_release: root.show_data()
 
 
diff --git a/src/app.py b/src/app.py
index bf791f8..4f0279c 100644
--- a/src/app.py
+++ b/src/app.py
@@ -44,11 +44,11 @@
 
 CONTAINER = {'current_url': '', 'requests': []}
 DICTIONARIES = {
-    "Cambridge": "https://dictionary.cambridge.org/dictionary/english/",
-    "Dictionary.com": "https://www.dictionary.com/browse/",
-    "Merriam-Webster": "https://www.merriam-webster.com/dictionary/",
-    "Oxford": "https://www.oxfordlearnersdictionaries.com/definition/english/",
-    "Vocabulary.com": "https://www.vocabulary.com/dictionary/",
+    "Cambridge": "dictionary.cambridge.org/dictionary/english/",
+    "Dictionary.com": "dictionary.com/browse/",
+    "Merriam-Webster": "merriam-webster.com/dictionary/",
+    "Oxford": "oxfordlearnersdictionaries.com/definition/english/",
+    "Vocabulary.com": "vocabulary.com/dictionary/",
 }
 HEADERS = {
     'Referer': 'https://www.google.com'
@@ -64,13 +64,22 @@
 http = urllib3.PoolManager(timeout=urllib3.Timeout(connect=1.0, read=2.0))
 
 
+def remove_http_www(url):
+    if 'http' in url:
+        url = url.split('//')[1]
+    if 'www' in url:
+        url = re.sub('www.', '', url)
+    return url
+
+
 def get_webpage(word_url):
+    url = remove_http_www(word_url)
     r_text = None
     global CONTAINER
     for request in CONTAINER['requests']:
-        if word_url in request[0]:
+        if url == request[0]:
+            print("Found")
             r_text = request[1]
-            # print("Found")
             break
     if not r_text:
         headers = {'User-Agent': session.headers['User-Agent'], 'Referer': 'https://www.google.com'}
@@ -81,15 +90,31 @@ def get_webpage(word_url):
         except:
             gcurl = "https://webcache.googleusercontent.com/search?q=cache:" + word_url
             response = http.request('GET', gcurl, headers=headers, retries=urllib3.Retry(5, redirect=2))
+            url = gcurl
         r_text = response.data
         print(response.status)
+        print(response.getheaders())
 
         # print(session.headers['User-Agent'], session.headers['Referer'])
         # r_text = session.get(word_url, verify=False).text
 
-        CONTAINER['requests'].append((word_url, r_text))
+        CONTAINER['requests'].append((url, r_text))
     return r_text
 
+
+def clear_request(word_url=None):
+    global CONTAINER
+    if not word_url:
+        CONTAINER['requests'] = []
+        return True
+    url = remove_http_www(word_url)
+    for request in CONTAINER['requests']:
+        if url == request[0]:
+            print("Found")
+            CONTAINER['requests'].remove(request)
+            return True
+    return False
+
 # ----------------------------------- KIVY -------------------------------------
 
 # Window.size = (500, 400)
@@ -355,13 +380,12 @@ def generate_flashcard(self, btn, section_tuple):
         )
 
     def show_data(self):
-        # word_url = self.word_url.text
-        word_url = self.ids.word_input.text
+        word_url = self.ids.word_input.text.split('#')[0].split('?')[0]
         dict_name = None
-
         if not validators.url(word_url):
             self.toast("URL not found. Please try again")
             return False
+        # word_url = self.word_url.text
         # todo: extract word from word_url
         # url_list = word_url.split('/')
         # word = url_list[-2] if not url_list[-1] else url_list[-1]
@@ -405,8 +429,11 @@ def show_data(self):
             CONTAINER['current_url'] = word_url
             r_text = get_webpage(word_url)
             extracted_meanings = cambridge.MeaningsSpider(BeautifulSoup(r_text, "html.parser")).parse()
+            if not extracted_meanings:
+                clear_request(word_url)
+                self.toast("Invalid URL. Please try again")
+                return False
             # CONTAINER['meanings'] = extracted_meanings
-
             # self.dialog_popup("Processing...", "Please wait. Generating Flashcard..")
             meanings_screen = self.manager.get_screen("meanings_screen")
             for meaning in extracted_meanings:
@@ -521,6 +548,8 @@ def soft_restart(self):
         CONTAINER['current_url'] = ''
         self.root.transition.direction = 'right'
         self.root.transition.duration = 0.5  # 0.5 second
+        meanings_screen = self.root.get_screen("meanings_screen")
+        meanings_screen.ids.meanings_container.clear_widgets()
         self.root.current = 'menu_screen'
 
 
diff --git a/src/dict_scraper/spiders/cambridge.py b/src/dict_scraper/spiders/cambridge.py
index d4de465..ba2ed8b 100644
--- a/src/dict_scraper/spiders/cambridge.py
+++ b/src/dict_scraper/spiders/cambridge.py
@@ -12,6 +12,26 @@
 start_urls = ['https://dictionary.cambridge.org/']
 
 
+class SuspiciousOperation(Exception):
+    """The user did something suspicious"""
+
+
+def get_valid_filename(name):
+    """
+    Return the given string converted to a string that can be used for a clean
+    filename. Remove leading and trailing spaces; convert other spaces to
+    underscores; and remove anything that is not an alphanumeric, dash,
+    underscore, or dot.
+    >>> get_valid_filename("john's portrait in 2004.jpg")
+    'johns_portrait_in_2004.jpg'
+    """
+    s = str(name).strip().replace(" ", "-")
+    s = re.sub(r"(?u)[^-\w.]", "", s)
+    if s in {"", ".", ".."}:
+        raise SuspiciousOperation("Could not derive file name from '%s'" % name)
+    return s
+
+
 def get_tree(branch, seen, *args, **kwargs):
     out = []
     for d in branch.find_all("div", class_="cid"):
@@ -50,73 +70,88 @@ def parse(self):
         count = 0
 
         sections = self.soup.select(".dsense")
-        print(len(sections))
+        for section in sections:
+            section_id = get_tree(section, set())
+            print(section_id)
+        idiom_block = self.soup.select(".idiom-block")
         last_true_section_id = None
         for section in sections:
             section_id = get_tree(section, set())
-            more_words = {section_id[0]: {}}
 
+            more_words = {section_id[0]: {}}
             # dphrase_block = section.css(".dphrase-block").extract()
             parts_of_speech = section.select(".dsense_pos")
             if not parts_of_speech:
                 in_dsense = False
                 print('not in_dsense:', section_id)
-                word = extract_text(section.select_one(".dphrase-title b"))
-                guide_word = ''
-                part_of_speech = self.soup.select_one(f"#{section_id[0]} ~ .dpos-h .dpos")
-                if not part_of_speech:
-                    # print("pos None")
-                    if last_true_section_id.split('-')[0] == section_id[0].split('-')[0]:
-                        part_of_speech = extract_text(self.soup.select_one(f"#{last_true_section_id} ~ .dsense_h .dsense_pos"))
-                        # print("last")
-                    else:
-                        cid = '-'.join(section_id[0].split('-', 2)[:2])
-                        part_of_speech = extract_text(self.soup.select_one(f"#{cid} ~ .dpos-h .dpos"))
-                        # print("last not correct")
-                # combinators = ['', '>', '+', '~']
-                # for combinator in combinators:
-                #     part_of_speech = response.css(f"#{cid}{combinator} .dpos-h .dpos").css("::text").extract_first()
-                #     print(f"#{cid}{combinator} .dpos-h .dpos")
-                #     if part_of_speech is not None:
-                #         print("correct")
-                #         break
-                # slice_number = 0
-                # while bool(re.findall('[0-9]+', section_id[0].rsplit('-', slice_number)[0])) and part_of_speech is None:
-                #     combinators = ['', '>', '+', '~']
-                #     for combinator in combinators:
-                #         part_of_speech = response.css(f"#{section_id[0].rsplit('-', slice_number)[0]}{combinator} "
-                #                                       f".dpos-h .dpos").css("::text").extract_first()
-                #         # print(f"#{section_id[0][:slice_number]}{combinator} .dpos-h .dpos")
-                #         if part_of_speech is not None:
-                #             # print("correct")
-                #             break
-                #     if slice_number is None:
-                #         slice_number = 0
-                #     slice_number += 1
-                if not word:
-                    word = extract_text(self.soup.select_one(".hw.dhw"))
-                    domain = extract_text(section.select(".ddomain"), join_char='/')
-                    word_meaning = extract_text(section.select(".ddef_d"))
-                    dlu = extract_text(section.select(".dlu"), join_char='/')
-                    cl = extract_text(section.select(".cl"), join_char=' ')
-                    if domain:
-                        word += f" ({domain})"
-                        if dlu:
-                            word += f" ({dlu})"
-                        if cl:
-                            word += f" ({cl})"
-                    elif dlu:
-                        word = f"{dlu}"
-                        if cl:
-                            word += f" ({cl})"
-                    elif cl:
-                        word = f"{cl}"
-                    else:
-                        word += f" ({word_meaning.split(':')[0]})"
+                if idiom_block:
+                    # cid = '-'.join(section_ids[0].split('-', 2)[:2])
+                    # word = extract_text(self.soup.select(f"#{cid} ~ .idiom-block b"))
+                    word = extract_text(self.soup.select_one(f".idiom-block b"))
+                    guide_word = '(' + extract_text(section.select(f".dsense_b .ddef_d .query"), join_char=' ') + ')'
+                    part_of_speech = 'idiom'
+                else:
+                    word = extract_text(section.select_one(".dphrase-title b"))
+                    guide_word = ''
+                    part_of_speech = self.soup.select_one(f"#{section_id[0]} ~ .dpos-h .dpos")
+                    # print("before not pos")
+                    if not part_of_speech:
+                        # print("pos None")
+                        if last_true_section_id is not None:
+                            if last_true_section_id.split('-')[0] == section_id[0].split('-')[0]:
+                                part_of_speech = extract_text(self.soup.select_one(f"#{last_true_section_id} ~ .dsense_h .dsense_pos"))
+                                # print("last")
+                            else:
+                                cid = '-'.join(section_id[0].split('-', 2)[:2])
+                                part_of_speech = extract_text(self.soup.select_one(f"#{cid} ~ .dpos-h .dpos"))
+                                # print("last not correct")
+                        else:
+                            cid = '-'.join(section_id[0].split('-', 2)[:2])
+                            part_of_speech = extract_text(self.soup.select_one(f"#{cid} ~ .dpos-h .dpos"))
+                            # print("last not correct")
+                    # combinators = ['', '>', '+', '~']
+                    # for combinator in combinators:
+                    #     part_of_speech = response.css(f"#{cid}{combinator} .dpos-h .dpos").css("::text").extract_first()
+                    #     print(f"#{cid}{combinator} .dpos-h .dpos")
+                    #     if part_of_speech is not None:
+                    #         print("correct")
+                    #         break
+                    # slice_number = 0
+                    # while bool(re.findall('[0-9]+', section_id[0].rsplit('-', slice_number)[0])) and part_of_speech is None:
+                    #     combinators = ['', '>', '+', '~']
+                    #     for combinator in combinators:
+                    #         part_of_speech = response.css(f"#{section_id[0].rsplit('-', slice_number)[0]}{combinator} "
+                    #                                       f".dpos-h .dpos").css("::text").extract_first()
+                    #         # print(f"#{section_id[0][:slice_number]}{combinator} .dpos-h .dpos")
+                    #         if part_of_speech is not None:
+                    #             # print("correct")
+                    #             break
+                    #     if slice_number is None:
+                    #         slice_number = 0
+                    #     slice_number += 1
+                    if not word:
+                        word = extract_text(self.soup.select_one(".hw.dhw"))
+                        domain = extract_text(section.select(".ddomain"), join_char='/')
+                        word_meaning = extract_text(section.select(".ddef_d"))
+                        dlu = extract_text(section.select(".dlu"), join_char='/')
+                        cl = extract_text(section.select(".cl"), join_char=' ')
+                        if domain:
+                            word += f" ({domain})"
+                            if dlu:
+                                word += f" ({dlu})"
+                            if cl:
+                                word += f" ({cl})"
+                        elif dlu:
+                            word = f"{dlu}"
+                            if cl:
+                                word += f" ({cl})"
+                        elif cl:
+                            word = f"{cl}"
+                        else:
+                            word += f" ({word_meaning.split(':')[0]})"
             else:
                 in_dsense = True
                 print('in_dsense:', section_id)
-
                 last_true_section_id = section_id[0]
 
                 # if len(section_id) > 1:
@@ -131,38 +166,45 @@ def parse(self):
                 #     ignore this word
                 #   else meaning found then:
                 #     keep this word
-
-                extracted_meanings = extract_text(section.select(".dsense_b > .ddef_block .ddef_d"))
-                meanings_list = extracted_meanings.split(':')[:-1]
-
-                if len(section_id) <= 1:
-                    if len(meanings_list) > 1:
-                        for i in range(len(meanings_list)):
-                            more_words[section_id[0]][i + 1] = meanings_list[i]
+                if idiom_block:
+                    # print("IDIOM")
+                    # cid = '-'.join(section_ids[0].split('-', 2)[:2])
+                    # word = extract_text(self.soup.select(f"#{cid} ~ .idiom-block b"))
+                    word = extract_text(self.soup.select_one(f".idiom-block b"))
+                    guide_word = ''
+                    part_of_speech = 'idiom'
                 else:
-                    if meanings_list:
-                        for i in range(len(meanings_list)):
-                            more_words[section_id[0]][i + 1] = meanings_list[i]
-                    for bid in section_id[1:]:
-                        blue_block_title = extract_text(section.select(f"#{bid} ~ .dphrase_h b"))
-                        if not blue_block_title:
-                            blue_block_meaning = extract_text(section.select(f"#{bid} ~ .dphrase_b .ddef_d"))[:-1]
-                            more_words[section_id[0]][bid] = blue_block_meaning
-                        else:
-                            more_words[section_id[0]][bid] = blue_block_title
-                # if word has multiple meanings:
-                #   create another instances of those meanings
-                word = extract_text(section.select_one(".dsense_hw"))
-                guide_word = '(' + extract_text(section.select_one(".dsense_gw span")) + ')'
-                # b = section.css("b").css("::text").extract()
-                # if b:
-                #     if guide_word:
-                #         guide_word += f" ({' '.join(b)})"
-                #     else:
-                #         guide_word = f" ({' '.join(b)})"
-                part_of_speech = extract_text(section.select_one(".dsense_pos"))
-                # definitions = section.css(".ddef_d").css("::text").extract()
-                # sentences = section.css(".deg").css("::text").extract()
+                    extracted_meanings = extract_text(section.select(".dsense_b > .ddef_block .ddef_d"))
+                    meanings_list = extracted_meanings.split(':')[:-1]
+
+                    if len(section_id) <= 1:
+                        if len(meanings_list) > 1:
+                            for i in range(len(meanings_list)):
+                                more_words[section_id[0]][i + 1] = meanings_list[i]
+                    else:
+                        if meanings_list:
+                            for i in range(len(meanings_list)):
+                                more_words[section_id[0]][i + 1] = meanings_list[i]
+                        for bid in section_id[1:]:
+                            blue_block_title = extract_text(section.select(f"#{bid} ~ .dphrase_h b"))
+                            if not blue_block_title:
+                                blue_block_meaning = extract_text(section.select(f"#{bid} ~ .dphrase_b .ddef_d"))[:-1]
+                                more_words[section_id[0]][bid] = blue_block_meaning
+                            else:
+                                more_words[section_id[0]][bid] = blue_block_title
+                    # if word has multiple meanings:
+                    #   create another instances of those meanings
+                    word = extract_text(section.select_one(".dsense_hw"))
+                    guide_word = '(' + extract_text(section.select_one(".dsense_gw span")) + ')'
+                    # b = section.css("b").css("::text").extract()
+                    # if b:
+                    #     if guide_word:
+                    #         guide_word += f" ({' '.join(b)})"
+                    #     else:
+                    #         guide_word = f" ({' '.join(b)})"
+                    part_of_speech = extract_text(section.select_one(".dsense_pos"))
+                    # definitions = section.css(".ddef_d").css("::text").extract()
+                    # sentences = section.css(".deg").css("::text").extract()
             if word:
                 word = re.sub("\s\s+", " ", word)
             if guide_word:
@@ -172,6 +214,7 @@ def parse(self):
             count += 1
 
         # print(count)
+        print(meanings)
         return meanings
 
 
@@ -237,6 +280,7 @@ def parse(self):
         # = #cid~ .dsense_b .ddef_d  (cbed-1-1, ..., cbed-1-8, )
 
         word = extract_text(self.soup.select_one(f".hw.dhw"))
+
         if in_dsense is True:
             # word = response.css(f"#{cid}~ .dsense_h .dsense_hw").css("::text").extract_first()
             if type(meaning) is tuple:
@@ -253,16 +297,23 @@ def parse(self):
                 meaning_text = extract_text(self.soup.select(f"#{cid} ~ .dsense_b .ddef_d"))
                 sentences = self.soup.select(f"#{cid} ~ .dsense_b .dexamp")
         else:  # in_dsense is False:
-            if len(section_ids) > 1:
-                cid = section_ids[1]
-                meaning_text = extract_text(self.soup.select(f"#{cid} ~ .dphrase_b .ddef_d"))
-                sentences = self.soup.select(f"#{cid} ~ .dphrase_b .dexamp")
+            if part_of_speech == 'idiom':
+                word = extract_text(self.soup.select_one(f".idiom-block b"))
+                # cid = '-'.join(section_ids[0].split('-', 2)[:2])
+                # word = extract_text(self.soup.select(f"#{cid} ~ .idiom-block b"))
+                meaning_text = extract_text(self.soup.select(f"#{section_ids[0]} ~ .dsense_b .ddef_d"))
+                sentences = self.soup.select(f"#{section_ids[0]} ~ .dsense_b .dexamp")
             else:
-                cid = section_ids[0]
-                meaning_text = extract_text(self.soup.select(f"#{cid} ~ .dsense_b .ddef_d"))
-                sentences = self.soup.select(f"#{cid} ~ .dsense_b .dexamp")
+                if len(section_ids) > 1:
+                    cid = section_ids[1]
+                    meaning_text = extract_text(self.soup.select(f"#{cid} ~ .dphrase_b .ddef_d"))
+                    sentences = self.soup.select(f"#{cid} ~ .dphrase_b .dexamp")
+                else:
+                    cid = section_ids[0]
+                    meaning_text = extract_text(self.soup.select(f"#{cid} ~ .dsense_b .ddef_d"))
+                    sentences = self.soup.select(f"#{cid} ~ .dsense_b .dexamp")
         # print("MeaningText:", meaning_text)
-        print("Sentences:", type(sentences), len(sentences), type(sentences[0]))
+        # print("Sentences:", type(sentences), len(sentences), type(sentences[0]))
 
         if tld == "co.uk":
             accent_tld = "uk"
@@ -314,8 +365,8 @@ def parse(self):
         # us_pronunciation = response.css(".us #ampaudio2 source::attr(src)").extract_first()  # amp-audio
 
         def download_audio() -> str:
-            filename = word + '_' + accent_tld + '.mp3'
-
+            filename = get_valid_filename(word + '_' + accent_tld + '.mp3')
+            # print(filename)
             tts = gTTS(word, lang='en', tld=tld)
             if not os.path.exists('media'):
                 os.makedirs('media')
@@ -358,14 +409,16 @@ def download_audio() -> str:
             'part_of_speech': part_of_speech,
             'meaning': meaning_text.split(':')[0],
             'sentences': ''.join(sentences_list),
-            'phonemic_script': '/' + phonemic_script + '/',
+            'phonemic_script': '' if not phonemic_script else '/' + phonemic_script + '/',
             'pronunciation_word': download_audio(),
-            'synonyms': f"<a href='https://www.thesaurus.com/browse/{word}'>Synonyms</a>"
+            'synonyms': f"<a href='https://www.thesaurus.com/browse/{re.sub(' ', '%20', word)}'>Synonyms</a>"
         }
         # dictionary_item['sentences'] = ''.join(sentences).split('.')[:2]  # ''.join(sentences)
         # dictionary_item['sentences'] = re.findall('.*?[.!?]', ''.join(sentences))[:2]
         # dictionary_item['us_phonemic_script'] = '/' + us_phonemic_script + '/'
         # dictionary_item['us_pronunciation'] = download_audio('us', us_pronunciation)
         jta = JsonToApkg(dictionary_item)
+        # print(dictionary_item)
         jta.generate_apkg()
+        # print("Generated.")
         return dictionary_item
diff --git a/src/lib/__pycache__/json_to_apkg.cpython-38.pyc b/src/lib/__pycache__/json_to_apkg.cpython-38.pyc
index d87b2fe1fd004578da39d2a9117d2d18343038ec..977263be3dc565339408e4af10063848a3129d75 100644
GIT binary patch
delta 148
zcmdljdt8<;l$V!_0SFAGJ(6asPUM@yC^d0$7^A?%Uz<2;n2Wtqm}{9fuVKt$WU~S(
zW1cL-Y{bgN#KOcj*`IkOW60*8%o8}d!+}!82@nNSc=dIaco>l(6C=-e7Csh6CPt=z
eY^)HPg@ucSi&2V&g=z8!-ZaLb$>Ds-j0ON}1RWFr

delta 135
zcmX>uyIYnol$V!_0SFfScS|~=Jdtk-qtL{~VT>FTe{I^lg)xhf%?u>VI9Y|+h>>S<
zH1kSEzs;;H6F9j8fx^WJAW5dl3wZT)6?qtuArm9dcNSh2MkYq4e{8G}nuVE*nTt`1
Tg@tkQAKo-ZpUKI5$&6Y6Sppkv

diff --git a/src/lib/json_to_apkg.py b/src/lib/json_to_apkg.py
index 2039687..52aed3c 100644
--- a/src/lib/json_to_apkg.py
+++ b/src/lib/json_to_apkg.py
@@ -32,6 +32,8 @@
 
 
 def generate_cloze(phrase: str):
+    # print("Starting generate_cloze..")
+    # print(phrase)
     n = len(phrase) - phrase.count(' ')
     if (n % 2) == 0:
         u_count = int(n/2)
@@ -68,8 +70,12 @@ def generate_cloze(phrase: str):
         cloze_list[temp_index] = cloze_text
         phrase_list.remove(temp_word)
         # print(phrase_list)
+        if not phrase_list:
+            # print("Avoiding error")
+            u_count = 0
         # print(cloze_list)
         # print("end of loop:", temp_len, u_count)
+    # print("No Problem in generate_cloze")
     return ' '.join(cloze_list)
 
 
@@ -80,6 +86,7 @@ def __init__(self, j_dict):
 
     def generate_apkg(self):
         # create/initialize model
+        # print('before my_model')
         my_model = genanki.Model(
             1646879431108,  # todo: change id and also create new customized structure
             name='English Vocab',
@@ -112,6 +119,7 @@ def generate_apkg(self):
         # just do these steps
         # automatic fill
         # todo: cloze, picture, synonyms, arrange in order, if sound not there then?
+        # print('before list_of_fields')
         list_of_fields = [
             self.j_dict.get("word", ""),
             self.j_dict.get("part_of_speech", ""),
@@ -125,23 +133,27 @@ def generate_apkg(self):
         ]
         # list_of_fields = [x for x in self.j_dict.values()]
 
+        # print('Before my_note')
         my_note = genanki.Note(
             model=my_model,
             fields=list_of_fields
         )
-
+        # print('Before my_deck')
         my_deck = genanki.Deck(
             1646145285163,  # todo: change id and name
             "English Vocabulary (British Accent)")
+        # print('before adding a note to deck')
         my_deck.add_note(my_note)
 
         # add media
+        # print('before my_package')
         my_package = genanki.Package(my_deck)
         my_package.media_files = ['media/' + self.j_dict["pronunciation_word"][7:-1:]]
         # generate apkg
         # my_package.write_to_file('output-' + self.j_dict["word"] + '.apkg')
         # apkg_filename = 'output-' + dt.now().strftime("%Y%m%d%H%M%S") + '.apkg'
         apkg_filename = 'output' + '.apkg'
+        # print('before writing')
         my_package.write_to_file(apkg_filename)
         return apkg_filename