Verificando uma base de dados

[Guilherme Parreira] | May 16, 2018

Olá Pessoal, tudo bem?

Essa matéria é a continuação do post Criando uma base de dados. Aqui, iremos discutir como preencher cada variável e realizar a conferência da base. Para relembrar, essa foi a base de dados criada no post anterior:

Base de dados (apenas 23 primeiros registros)

Base de dados (apenas 23 primeiros registros)

Uma vez que a base já está construída, é importante verificar se os dados foram digitados corretamente. Iremos iniciar com as variáveis categórias (gênero, cor, af, problemas, cargo):

Variáveis categóricas:

  • Gênero: Conferir se aparece somente “F” ou “M”. Quaisquer outras entradas “f”, “m”, “masculino” são consideras pelo software como diferentes categorias da variável gênero.
  • Af: Conferir se aparece somente “sim” ou “não”. Entradas “ssim”, “SIM”, “Sim” estão erradas. É necessário padronizar a resposta para essa questão: colocando todos como “sim”, por exemplo. E de forma análoga, para o “não”.
  • A variável “problemas” foi oriunda da seguinte questão: *“Quais fatores podem ocasionar na piora da qualidade do atendimento da empresa?* Nota-se que é uma questão aberta, os que não responderam foram classificados como”nenhum“. Os demais responderam”falta de funcionários“,”falta de RH“,”profissionais insuficientes" e “Falta de equipamentos”: note que as 3 primeiras respostas tem o mesmo sentido. O que pode ser feito: Cria-se uma coluna ao lado, e agrupa-se as respostas semelhantes, padronizando a resposta para: “Falta de Profissionais” por exemplo. Em uma base de dados pequena, isso é perfeitamente viável. Para base de dados maiores, é mais interessante analisar o depoimento dos funcionários via mineração de texto, por exemplo.

O conjunto de dados em questão é pequeno e está disponível aqui. Para facilitar a verificação da base, pode ser utilizada a ferramenta de filtro. Na planilha eletrônica do Excel, no menu superior “Dados”, clique em “Filtrar”, e note que aparecem mini botões ao lado do nome das variáveis, conforme figura abaixo:

Nota: Foi utilizado o Microsoft Excel online

Nota: Foi utilizado o Microsoft Excel online

Em seguida, clique no botão que aparece ao lado da variável af. Irá aparecer todos os valores únicos para a variável af:


Por um primeiro momento, queremos padronizar a escrita de todos que praticam atividade física. Nesse caso tire a seleção daqueles que responderam Não (não/NÃO):


e clique em OK:


Padronize a coluna da base “af” após o filtro para “sim”. O mesmo pode ser feito de forma análoga para as respostas “não”. Agora, irei apresentar alguns detalhes para as variáveis contínuas.

Variáveis Numéricas

As variáveis numéricas dessa base são a idade, altura, salário e felicidade. Seguem algumas regras gerais para preenchimento desses dados:

  • Checar se todos os valores decimais estão separados por vírgula, ou por ponto, mas nunca ambos:
    • Ao utilizar em uma mesma coluna “,” e “.” para separar decimais, como por exemplo 3000,23 e 3000.23 o software não consegue entender que ambos são separadores de decimais. De acordo com a norma ABNT, a “,” é utilizado para separador de decimais e o “.” como separador de decimais, e é dessa foram que um software instalado com padrão ABNT irá interpretar tais números. Nota-se isso na linha 2 e 6 para a coluna Salário (na primeira figura);
  • Nunca incluir unidade de medida ao lado do valor da variável (Isso deve vir em uma aba separada):
    • Como pode ser visto na coluna Salário, aparece “1000 reais”, a forma correta seria colocar apenas 1000, uma vez que reais é uma informação comum para todas as observações.
    • Na coluna Idade aparece 37 anos, 63a. 5meses, 18 anos e 29 a. Nesse caso é necessário padronizar todos os registros para anos (ou meses) e retirar a unidade de medida, que deve ficar em aba separada.
  • Cuidado com digitações erradas de valores:
    • Suponha-se que nesse estudo, foram considerados indivíduos com idade entre 16 e 65 anos. Ao clicar no filtro, é possível verificar se existem valores diferentes fora desse intervalo. É interessante aqui, avaliar os valores extremos do filtro, isto é, rodar a barra de rolagem para verificar se existem profissionais com idade superior a 16 e 65 anos.

Após realizar a verificação da base de dados, segue a Base final e limpa (apenas 23 registros):

Dicas Adicionais:

  • Em uma aba separada, coloque o significado e a descrição das variáveis;
  • Caso a variável categórica possua alguma ordenação, informe-a, como por exemplo foi feito para a variável cargo. Por exemplo, a variável cargo na empresa: aprendiz, estagiário, trainee, analista , gerente, diretor e presidente. Esse é um exemplo bem simples, mas existem casos que é necessário do conhecimento do profissional da área para que essa ordenação seja feita de forma correta.
  • Exclua linhas e colunas adjacentes. Basta selecionar as colunas após a última coluna, apertar com o botão direito em cima da seleção, e clicar em excluir.
  • Faça um último check-list para todas as variáveis utilizando a ferramenta de filtro para avaliar se os dados foram digitados de forma correta.

Esse post teve como objetivo mostrar situações de forma a evitar possíveis erros na base e assim facilitar a interação entre o estatístico e o pesquisador.

É isso aí pessoal!

Boa pesquisa e até a próxima!

comments powered by Disqus