Skip to content

Análise exploratória da quantidade de transações Pix em comparação com outros meios de transferência de dinheiro e meios de pagamento, utilizando estatística e Python (pandas e seaborn)

Notifications You must be signed in to change notification settings

LeandroHiane/analise-exploratoria-pix

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 

Repository files navigation

analise-exploratoria-pix

Análise exploratória da quantidade de transações Pix em comparação com outros meios de transferência de dinheiro e meios de pagamento, utilizando estatística e Python (pandas e seaborn)

Objeto do estudo

O Pix é um meio de pagamento eletrônico instantâneo criado pelo Banco Central do Brasil (BACEN) e lançado em meados de outubro de 2020. Desde então, é notável sua adesão por parte dos brasileiros, como demonstra o gráfico abaixo:

image Fonte: BACEN

Além disso, o Pix é reconhecido internacionalmente como importante ferramenta de inclusão financeira, como pode ser comprovado em notícias da mídia:

image Fonte: LinkedIn

image Fonte: Exame

Note

Assim, surge o questionamento: o aumento expressivo da quantidade de transações realizadas por Pix acontece somente pela indisponibilidade de outros meios de transferência e pagamentos para parcela considerável da população brasileira ou o Pix avança sobre outros meios existentes?

Análise exploratória da primeira base

O próprio BACEN disponibiliza alguns dados publicamente sobre meios de transferência e pagamentos, disponíveis aqui: https://www.bcb.gov.br/estatisticas/spbadendos

Para responder ao questionamento, vamos utilizar duas bases de dados baixadas do link acima, disponíveis na pasta Data do projeto.

A primeira base de dados disponibiliza a quantidade de transações realizadas por diversos meios de transferência em milhares, distribuídas mensalmente de outubro/2020 a agosto/2023.

Para iniciar, vamos importar as libs necessárias no projeto:

import pandas as pd
import seaborn as sns

Para, então, importar a primeira base para análise:

data = pd.read_csv('../Data/Meios_pgto_qtde.csv', sep = ';', decimal = ',')
data.head()

image

👁️ É possível notar que o primeiro mês da série temporal possui valor zerado para a variável Pix. Em notícias públicas, constatamos que o Pix foi lançado em outubro/2020, mas somente em novembro/2020 foram realizadas as primeiras transações reais. Como esta é a nossa variável dependente, não faz sentido mantermos as entradas sem valores de Pix cadastrados. Vamos retirá-las:

data_filter = data['Pix'] > 0
data_treat = data[data_filter]
data_treat.head()

image

Vamos dar mais uma olhada no dataframe:

data_treat.info()

image

✅ Nenhum dado faltante e variáveis com formato correto para análise.

Outro jeito de ver itens faltantes é através do isnull():

data_treat.isnull().sum()

image

Por se tratar de dados de série temporal, provavelmente não teremos linhas repetidas. Mas, podemos verificar:

data_treat.duplicated().sum()

image

👁️ Também é importante buscar por outliers e o gráfico boxplot é um jeito rápido de notá-los:

ax = sns.boxplot(data_treat, orient = 'h')
ax.figure.set_size_inches(12, 8)
ax

image

Podemos ver que as variáveis Boleto, DOC, TEC e TED apresentaram outliers. Vamos olhar com detalhes para elas:

ax = sns.boxplot(data_treat[['Boleto', 'DOC', 'TEC', 'TED']], orient = 'h')
ax.figure.set_size_inches(12, 8)
ax

image

💡 O primeiro ímpeto é sempre limpar os outliers, principalmente se o objetivo for a elaboração de modelos estatísticos. Porém, primeiramente é necessário entender a causa dos outliers no dataset, que pode ser erro de digitação, separador de milhares ou decimais inconsistentes, sazonalidade do negócio, mudanças abruptas causadas por eventos externos, etc.

Assim, vamos dar uma olhada no comportamento de cada uma delas ao longo do tempo:

data_treat.plot(subplots = True, figsize = [14, 20])

image image image image

Se admitirmos como premissa que a base oficial do BACEN não contém erros de digitação ou formatação, nenhuma das variáveis apresenta comportamento anormal além da própria variação causada pelo ambiente de negócio, o que é relevante para a análise do nosso questionamento. Portanto, vamos manter os outliers no dataset ✅

Agora sim, podemos utilizar a matriz de correlação para observar as relações entre as variáveis estudadas:

data_treat.corr(numeric_only = True)

image

Ok, não é o melhor jeito de observar essa matriz. Vamos plotar em um gráfico:

sns.heatmap(data_treat.corr(numeric_only = True), annot = True, cmap = "Blues")

image

Cada número representa o coeficiente de correlação entre as variáveis da interseção em que o coeficiente se encontra. Por exemplo, o valor 0,29 no segundo quadrado, na interseção entre as variáveis Pix e Boleto representa o coeficiente de correlação entre essas variáveis.

Resumidamente, quanto mais próximo de 1 é o valor, mais diretamente as variáveis se relacionam. Ou seja, se uma aumenta, a outra também aumenta. Se uma reduz, a outra também reduz. Por isso a interseção de uma variável com ela mesma é sempre 1, pois, naturalmente, apresentam relação direta perfeita.

O inverso é válido. Quanto mais próximo de -1 é o valor, mais inversamente as variáveis se relacionam. Ou seja, se uma aumenta, a outra reduz. Se uma reduz, a outra aumenta.

A partir da análise da correlação, conseguimos responder ao nosso questionamento:

Note

O aumento expressivo da quantidade de transações realizadas por Pix acontece somente pela indisponibilidade de outros meios de transferência e pagamentos para parcela considerável da população brasileira ou o Pix avança sobre outros meios existentes?

ℹ️ Possivelmente, pela representatividade dos valores das variáveis na série temporal, o Pix se mostrou importante ferramenta de inclusão financeira, atingindo parte da população que não dispunha de outros meios de transferência ou pagamento.

💡 Porém, os altos coeficientes de correlação negativos entre a variável dependente Pix e as variáveis explicativas DOC, Cheque e TED nos dão forte indícios de que o Pix também avançou na preferência da população brasileira que já dispunha de meios de transferência ou pagamento "tradicionais". Quanto mais o Pix foi ganhando adesão no uso por parte dos brasileiros, mais esses outros meios foram perdendo espaço.

Também é importante observar a correlação direta entre as variáveis Pix e Boleto, o que indica que não somente não concorrem como meio de transferência ou pagamento, como tendem a se beneficiar da mesma dinâmica de mercado.

Outra forma de analisar possíveis relações entre variáveis é através de gráficos de dispersão com reta de regressão:

sns.pairplot(data_treat, y_vars = 'Pix', x_vars = ['Boleto', 'DOC', 'TEC', 'Cheque', 'TED'], kind = 'reg')

image

Análise exploratória da segunda base

A segunda base de dados de estudo disponibiliza a quantidade de transações realizadas por diversos meios de pagamento em milhares, distribuídas trimestralmente do primeiro trimestre de 2019 ao primeiro trimestre de 2023.

O processo de importação e limpeza do dataset foi semelhante ao da primeira base e não serei detalhista para que a análise não fique mais longa que o necessário.

O resultado da matriz de correlação é:

sns.heatmap(data_payments_treat.corr(numeric_only = True), annot = True, cmap = "Blues")

image

💡 Novamente, podemos notar altos coeficientes de correlação negativos entre a variável dependente Pix e as variáveis explicativas que incluem DOC, Cheque e TED, corroborando a análise da primeira base. Além disso, a modalidade Saque também apresentou coeficiente negativo relevante em relação ao Pix, possivelmente efeito da digitalização proporcionada pelo Pix.

💡 Um ponto interessante de observação são os altos coeficientes de correlação direta da variável dependente com as variáveis explicativas relacionadas ao meio de pagamento Cartão. Em uma análise imediata, é possível admitir que ambos os meios de pagamento se beneficiam das mesmas dinâmicas de mercado, assim como Boleto.

Por fim, seguem os gráficos de dispersão com reta de regressão:

sns.pairplot(data_payments_treat, y_vars = 'Pix', x_vars = ['Boleto + Convênio', 'Outros (DOC + TEC + Cheque)', 'TED', 'Cartão de Crédito',
                                     'Cartão de Débito', 'Cartão Pré-Pago', 'Saques', 'Transferencias Intrabancarias',
                                     'Débito Direto'], 
             kind = 'reg')

image

⚠️ Limitações do estudo

  1. Correlação não significa causalidade. Como o nome sugere, correlação mostra a existência ou não de relação entre duas variáveis, mas não necessariamente uma é a causa da outra. Para comprovar causalidade, são necessários estudos científicos, com realização de testes em ambientes controlados.
  2. Ambas as bases possuem poucas observações, em parte explicada pelo lançamento do Pix ser recente, o que torna a análise mais sensível a erros.
  3. As bases carecem de dados anteriores ao lançamento do Pix. A segunda base traz séries temporais anteriores ao lançamento do Pix e é possível observar algumas tendências de queda em variáveis explicativas antes do advento do Pix, como, por exemplo, para variáveis Outros (DOC + TEC + Cheque e Saque: image image image
  4. Cruzamento com outras bases de dados podem ser necessários para tornar essa análise mais robusta.

🚀 Agenda do BACEN para o Pix

Muito provavelmente o BACEN está de olho em análises como essa! Uma prova são as modalidades de pagamento com Pix que estão na agenda do BACEN:

  • Pix Cobrança (já lançado, opção ao boleto bancário que substitui o código de barras por QR code);
  • Pix Garantido (opção de parcelamento via Pix, o que, na prática, pode substituir os cartões de crédito);
  • Pix Automático (cobrança recorrente via Pix mediante autorização do titular da conta, o que, na prática, pode substituir o débito automático).

Ou seja, os meios de transferência ou pagamento que observamos que não foram absorvidos pelo Pix ainda, como Cartões, Boleto e Débito Direto, logo ganharão a sua versão de concorrência...

About

Análise exploratória da quantidade de transações Pix em comparação com outros meios de transferência de dinheiro e meios de pagamento, utilizando estatística e Python (pandas e seaborn)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published