Glossário Ciência de Dados: termos que você precisa conhecer
Machine Learning, Algoritmos, Deep Learning, Modelagem, Serviços Cognitivos… São muitos os termos, tecnologias e expressões existentes no universo da Ciência de Dados, que definitivamente podem causar muita confusão e insegurança. Portanto, um Glossário sobre Ciência de Dados cairia bem, não é mesmo?
Com um mundo de possibilidades e estratégias diferentes, a Ciência de Dados vem provando ser extremamente útil em diversos setores. Mas se temos dificuldade para entender esses termos, como identificar quais deles minha empresa deve usar para resolver determinado problema?
Pensando nisso, preparamos uma lista com algumas das principais expressões utilizadas nesse segmento, explicando seus significados e aplicações mais comuns. Você pode utilizar este material tanto para aprendizado quanto para consulta de eventuais dúvidas!
Então vamos ao Glossário Ciência de Dados:
Ciência de dados
É uma área multidisciplinar composta por programação, matemática, estatística e expertise de negócio, que busca resolver problemas com a aplicação de métodos, processos, algoritmos e sistemas para aquisição de conhecimento por meio de manipulação de dados.
Big Data
É um conceito amplo, mas, em resumo, podemos dizer ser um conjunto de dados com um volume tão grande a ponto que você não conseguiria gerenciá-los em uma base de dados relacional. O conceito possui características bem específicas, conhecidas como 5Vs:
- VOLUME: A inimaginável quantidade de dados gerados a cada segundo e também dados já criados que precisam ser analisados;
- VELOCIDADE: A velocidade na qual os dados precisam gerar algum valor, como na detecção de fraudes com cartões de crédito;
- VARIEDADE: Os mais diferentes tipos e fontes de dados – desde dados financeiros (estruturados) até gravação de voz (não estruturados);
- VERACIDADE: A confiabilidade dos dados, como postagens em mídias sociais, onde a qualidade ou precisão são menos confiáveis;
- VALOR: Podemos dizer que este é o “V” mais importante, pois os dados só são úteis se você consegue extrair valor deles.
Inteligência Artificial
Disciplina da ciência da computação que consiste na capacidade da máquina em se basear em qualquer ação que gere dados, como o comportamento humano, para resolver problemas. Em outras palavras, é um sistema inteligente que consegue absorver informações do meio, utilizando análises avançadas e técnicas baseadas em lógica, para tomar uma ação pautada nessa informação.
Machine Learning
É uma subcategoria de Inteligência Artificial, no qual a máquina não só consegue extrair informações dos dados para tomar uma ação, como identifica padrões, sendo capaz de aprender e se adaptar a novas informações, e encontrar a melhor ação, tendo como base a sua própria experiência com o mínimo de intervenção humana.
APLICAÇÃO: resolver problemas de tomada de decisões que exigem tarefas simples e repetitivas em larga escala.
Modelagem
É a atividade que descreve um problema real de forma matemática para treinar os algoritmos da máquina.
Modelo
É o Machine Learning pronto para uso, ou seja, é a descrição matemática do problema, um conjunto de regras e suposições feitas para descrever as variáveis, treiná-las e que responde à pergunta do problema.
Algoritmo
São modelos matemáticos responsáveis por fazer a máquina aprender. Por isso, dependendo da natureza do problema em questão, existem diferentes abordagens, e podemos separar os algoritmos conforme o modo com que aprendem.
Supervisionado
É tipo de algoritmo de Machine Learning que aprende a partir do total entendimento dos resultados certos, ou seja, ele aprende comparando um conjunto de dados, que dispõem os resultados semelhantes que você busca, com o que você está procurando.
Regressão Numérica e Classificação são os tipos mais usuais de algoritmo supervisionado.
APLICAÇÃO: Fazer análises preditivas – de algo que ainda não aconteceu.
Regressão Numérica
Uma abordagem de algoritmo de Machine Learning supervisionado que tem como objetivo encontrar um valor numérico de acordo com as suas propriedades.
APLICAÇÃO: Problemas que se deseja prever valores.
Classificação
É uma outra abordagem de algoritmo de Machine Learning supervisionado que classifica algo de acordo com as suas propriedades.
APLICAÇÃO: Resolver problemas cuja resposta se enquadre em sim/não ou A/B/C.
Não-Supervisionado
É outro tipo de algoritmo de Machine Learning que permite abordar problemas com pouco ou nenhum conhecimento prévio da resposta, com o objetivo de encontrar características semelhantes para separar seus dados em clusters (grupos).
APLICAÇÃO: Criar segmentação de mercado.
Reforço
Mais um tipo de algoritmo de Machine Learning que aprende por meio de tentativa e erro. Portanto, em uma dada situação com uma sequência de tentativas ele coleta os resultados de sucesso e repete o processo aprendendo com os acertos e erros até atingir o melhor resultado possível.
APLICAÇÃO: Navegação, robôs e jogos
Deep Learning
Um tipo de algoritmo de Machine Learning que se baseia em redes neurais, sendo capaz de aprender processos mais complexos como reconhecimento visual, fala e detecção de objetos. Aqui as características das observações não estão definidas, por isso o algoritmo precisa olhar para esses dados e passar por diversos filtros e camadas para conseguir encontrar quais são as características para só assim conseguir classificar.
APLICAÇÃO: Casos em que os dados sejam não-estruturados como, foto e vídeo.
Redes Neurais
É um método matemático baseado em neurônios artificiais conectados, utilizado em Deep Leaning para aprendizado e detecção de padrões.
APLICAÇÃO: Detectar padrões, não definidos antecipadamente.
Serviços cognitivos
É uma ferramenta do Azure que possui modelos evoluídos e treinados que imitam os sentidos humanos (visão, audição e fala).
Computer Vision
Uma abordagem de Inteligência Artificial, que interpreta e processa imagens e vídeos, com objetivo de gerar dados que auxiliem na tomada de decisões.
APLICAÇÃO: Aplicações completas de identificação de imagem e casos que precisem trabalhar com dados em real-time.
Detecção de Objeto
Um tipo de Inteligência Artificial, no qual o computador procura áreas de interesse em cada pixel/frame de uma foto/vídeo na busca de encontrar e localizar um determinado objeto.
APLICAÇÃO: Problemas que buscam detectar objetos.
Classificação de imagem
Outro tipo de Inteligência Artificial, que permite extrair informações de fotos/vídeos para reconhecer padrões e classificá-las em categorias pré-definidas. Aqui a inteligência leva em consideração a imagem como todo e não apenas um fragmento como na Detecção de Objeto.
APLICAÇÃO: Problemas que buscam classificar imagens em massa, como por exemplo classificar categoria de produtos.
NLP (Natural Language Processing)
Mais um tipo de Inteligência Artificial, que permite a máquina entender, interpretar e responder a linguagem natural, ou seja, informações em formato texto ou por voz de seres humanos.
APLICAÇÃO: Problemas que buscam, por exemplo, reconhecer uma intenção de uma frase, ou responder automaticamente um usuário (chatbots e FAQs inteligentes).
Gostou do nosso Glossário Ciência de Dados?
Este é Glossário Ciência de Dados é o seu guia com os termos e conceitos da área (vamos atualizá-lo sempre que necessário). Então fique à vontade para salvar esta página nos favoritos e voltar aqui toda vez que precisar.
E agora que você já conhece esses os termos, por que não apostar na Ciência de Dados para aumentar vendas, reduzir custos ou melhorar a eficiência operacional do seu negócio?
A Programmer’s tem uma solução com baixo investimento, que identifica a viabilidade de um projeto em Data Science para posteriormente desenhar um roadmap completo e desenvolver modelos analíticos robustos e integrados às soluções corporativas ou aos produtos digitais.
Fale com um dos nossos consultores e saiba mais da solução Piloto em Ciência de Dados.