-
Notifications
You must be signed in to change notification settings - Fork 35
/
converter.py
executable file
·52 lines (39 loc) · 1.52 KB
/
converter.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
#!/usr/bin/env python3
import unicodedata
ENTRADA = 'pt_BR.dic'
SAIDA = 'palavras.txt'
def normalizar(txt):
"""Remove acentos e transforma 'A' ou 'ª' em 'a'."""
norm_txt = unicodedata.normalize('NFKD', txt).lower()
shaved = ''.join(c for c in norm_txt
if not unicodedata.combining(c))
return unicodedata.normalize('NFC', shaved)
def chave(txt):
"""Manter palavras acentuadas após as não acentuadas"""
codigos = tuple(ord(c) for c in txt)
return (normalizar(txt), codigos)
palavras = set()
with open(ENTRADA, encoding='latin-1') as entrada:
for i, linha in enumerate(entrada):
if i == 0:
continue # ignorar primeira linha (contagem)
linha = linha.strip()
linha = linha.split('/')[0]
partes = linha.split('-')
sufixo = partes[-1]
if len(sufixo) == 2 and sufixo.upper() == sufixo:
continue # ignorrar nomes de cidades
if linha: # para evitar palavra vazia
palavras.add(linha) # incluir palavra composta
if len(partes) > 1:
for palavra in partes:
if palavra:
palavras.add(palavra) # para evitar palavra vazia
qt_original = i
msg = '{} palavras na lista original, {} na lista gerada: {} adicionadas'
extra = len(palavras) - qt_original
print(msg.format(qt_original, len(palavras), extra))
palavras = sorted(palavras, key=chave)
with open(SAIDA, 'wt', encoding='utf-8') as saida:
saida.write('\n'.join(palavras))
saida.write('\n')