Blogs

Intervalo De Confiança

Olá pessoal, tudo bem? Hoje irei conversar sobre um termo muito utilizado na estatística, mas que a interpretação/conceito costuma gerar dúvidas: o Intervalo de Confiança. Antes de falar especificamente sobre o intervalo de confiança, é necessário introduzir alguns conceitos: população, amostra, estimadores pontuais e intervalares, além da distribuição amostral. Caso Vamos supor que estamos interessados em estimar o peso médio dos habitantes da cidade de Curitiba. Uma forma de fazer isso, seria realizar um censo e mensurar o peso de todos os habitantes da cidade.

Regressão Tweedie

Olá pessoal, tudo bem? Nesse post irei tratar de uma distribuição de probabilidade que não é muito conhecida, a distribuição Tweedie. A distribuição Tweedie é uma família de distribuições de probabilidade, em que a normal, gamma, normal inversa, Poisson e Poisson-gamma composta são casos particulares dela. Ela não possui forma fechada, no entanto, ela pertence a classe da família exponencial, sendo assim, é possível utilizar tal distribuição no contexto dos modelos lineares generalizados (GLM).

Criando uma base de dados

Olá Pessoal, tudo bem? Hoje o nosso post tem o intuito de orientar pesquisadores na construção da base de dados. A base de dados pode ser obtida de diversas formas: Questionário; Experimento; Pesquisa de mercado; Recordatório; Dados agrupados (tabelas resumos); Base de dados da internet, entre outros. Vamos supor que o pesquisador aplicou-se um questionário na empresa X com o objetivo de avaliar o nível de felicidade do funcionário na empresa.

Curva ROC

Introdução A curva ROC é uma técnica estatística utilizada principalmente na área da saúde. Basicamente, ela é utilizada para categorizar uma variável numérica X em relação a uma variável categórica Y. Por exemplo, pode ser utilizada para categorizar a idade dos pacientes em relação ao risco de ter a doença de Alzheimer de forma que se tenha uma alocação ótima dos dois grupos de pacientes (com e sem a doença).

Verificando uma base de dados

Olá Pessoal, tudo bem? Essa matéria é a continuação do post Criando uma base de dados. Aqui, iremos discutir como preencher cada variável e realizar a conferência da base. Para relembrar, essa foi a base de dados criada no post anterior: Base de dados (apenas 23 primeiros registros) Uma vez que a base já está construída, é importante verificar se os dados foram digitados corretamente. Iremos iniciar com as variáveis categórias (gênero, cor, af, problemas, cargo):

Coeficiente de correlação de Pearson

No post de hoje, iremos tratar sobre um dos coeficientes mais comum e amplamente utilizados: o coeficiente de correlação de Pearson. Basicamente, calcula-se o coeficiente de correlação de Pearson quando duas variáveis são ditas como numéricas (isto é, quando elas são intervalares) e têm-se o interesse de saber o quanto a variabilidade de uma variável está correlacionada com a variabilidade de outra variável. O coeficiente de correlação de Pearson (r) varia entre -1 e +1, cujos valores próximos de -1 e +1 indicam forte correlação linear e próximos de 0 indicam ausência de correlação linear.

Gráfico Boxplot

Olá pessoal, tudo bem? Hoje irei tratar de um gráfico bem comum na análise de dados: o gráfico boxplot, também conhecido como whiskers and tail (BUSSAB; MORETTIN, 2010). Quando se tem uma variável que seja numérica e busca-se resumir ela a partir de medidas descritivas, um dos gráficos mais comuns é o boxplot. Pois ele permite visualizar a distribuição de uma variável em termos da sua locação (mediana/quartis), dispersão (variabilidade), grau de assimetria, presença de valores extremos/discrepantes (outliers), entre outros.