-
Notifications
You must be signed in to change notification settings - Fork 2
Normas e estilo
Estas indicações não são uma expetativa de que cada contributo cumpra à risca as normas. No entanto, ajuda-nos imenso se não tivermos de editar profundamente cada contributo para que se possa manter alguma integridade e regularidade nos nomes e formatos que usamos na Central de Dados -- o projeto foi criado precisamente para lidar com a dispersão de formatos e estilos nos datasets que usamos regularmente.
Usamos sempre vírgulas como separador, e "
como delimitador de texto.
Sempre que possível evitamos o uso dos delimitadores em campos com números, datas
ou outros valores que não sejam texto nem sejam passíveis de conter vírgulas.
A codificação do ficheiro deve ser Unicode (UTF-8). É frequente encontrarmos ficheiros noutras codificações, como ISO-8859 ou CP-1252. É importante assegurar, normalmente nas opções de exportação, que os ficheiros CSV que criamos saem no formato UTF-8.
....
Distinguimos entre nome -- o nome do ficheiro ou diretório da data package -- e o título -- o título para seres humanos.
Os nomes das data packages devem ser especificados segundo estes princípios base:
- Apenas minúsculas e números
- Caem acentos e cedilhas
- Omite-se "do", "da", "dos", "das", "de"
- Espaços são substituídos por underscores (
_
)
Para o nome de cada data package, especificamos primeiro a área a que diz respeito, seguida de um hífen e o assunto ou tema específico do dataset que contém.
Alguns exemplos:
parlamento-registos_interesse
eleicoes-regionais_madeira
Os nomes das colunas devem ser formatados segundo estes princípios base:
- Apenas minúsculas e números
- Caem acentos e cedilhas
- Omite-se "do", "da", "dos", "das", "de"
- Espaços são substituídos por underscores (
_
)
Alguns exemplos:
- "Texto da intervenção" fica
texto_intervencao
- "Valor do IVA" fica
valor_iva
Sempre que possível, incluímos um indicador do tipo da coluna, para o nome nos dar imediatamente a noção de que valores podemos esperar.
Governo
- Não:
gov
- Sim:
num_gov
Legislatura
- Não:
leg
- Sim:
num_leg
Imposto
- Não:
imposto
- Sim:
valor_imposto
Fim de mandato
- Não:
fim_mandato
- Sim:
data_fim_mandato
- Melhor:
data_fim
(apenas se não houver ambiguidades com outros campos)
Este é um assunto que talvez seja melhor debater mais densamente de acordo com os casos ambíguos que surgirem. Entretanto, vamos usando as seguintes abreviações:
-
id
para "Identificador" -
gov
para "Governo" -
leg
para "Legislatura" -
sess
para "Sessão Legislativa" ou "Sessão" -
num
para "Número" -
abrev
para "Abreviado" ou "Abreviatura"
Sempre que pudermos usar valores numéricos, fazemo-lo. Assim, convertemos a numeração romana (I, II, III), usada por exemplo nas legislaturas, para numeração cardinal (1, 2, 3).
Da mesma forma, omitimos prefixos, sufixos e zeros à esquerda. Assim, GC02
(2º Governo Constitucional) pode ser expresso numericamente como 2
.
Quando um valor não está disponível, deixamos a célula em branco ou usamos o marcador "ND".
Nas datas aplicamos a norma ISO 8601, no formato AAAA-MM-DD
(ex. 1974-04-25
).
Esta é a norma que elimina qualquer possível ambiguidade no formato da data.
Para horas, há três formatos possíveis:
-
HH:MM:SS
(ex.14:07:56
) -
HH:MM
no caso de não possuírmos a informação dos segundos -
HH:MM:SS.mmm
caso queiramos especificar milissegundos
Para mais pormenores sobre a linda norma ISO 8601, a Wikipédia explica e o XKCD também.
O critério de qual norma ortográfica aplicar é deixado à discrição de cada pessoa que se encarregar de documentar uma data package.