Votes, scores e ranks

Votes, scores e ranks são, normalmente, utilizados em conjunto. Por exemplo, scores são funções utilizadas para reduzir dados multi-dimensionais para uma única dimensão. Com base nesse score, é possível ordenar os dados através de um rank. Assim, é possível acessar o n-ésimo elemento a partir de um rank. Votes, é um dos exemplos que pode ser reduzido a partir de uma função score. Um exemplo comum é o ranking de produtos em uma página baseado na avaliação dos usuários.... [Continue lendo]

Limpando dados (data cleaning)

A limpeza dos dados é um passo importante na construção de uma análise e modelo. Entretanto, não existe um fluxo exato para seguir, a ideia é explorar o dataset e identificar registros inválidos e aplicar regras para corrigí-los. A seguir tem uma lista do que procurar/corrigir em datasets. 1. Conversão de tipos Simples, se o valor deve ser um numérico e está como string, então usa-se o tipo mais apropriado.... [Continue lendo]

Python: conjuntos (sets)

Vamos falar um pouco sobre sets (conjuntos) em python. Se você já trabalha com a linguagem, provavelmente já se deparou com esses casos, mas se está iniciando na linguagem, talvez sejam exemplos interessantes para aprender. Por que conjuntos? Conjuntos são coleções que não permitem elementos duplicados. Dessa forma, são uma ótima estrutura de dados para verificar se um elemento já existe e garantir que esse elemento exista apenas uma vez.... [Continue lendo]