O que são dados rotulados e não rotulados?
O volume crescente de dados tem impulsionado a necessidade de técnicas avançadas para analisá-los e extrair valor. O aprendizado de máquina se destaca nesse cenário, exigindo frequentemente a utilização de conjuntos de dados rotulados e não rotulados.
Compreender as diferenças entre esses tipos de dados é crucial para a aplicação eficaz das diversas metodologias de aprendizado de máquina. Neste texto, vamos explorar definições de dados rotulados e não rotulados, suas características e exemplos práticos de utilização.
Dados Rotulados
São conjuntos de dados em que cada exemplo ou instância está associado a uma etiqueta ou categoria conhecida. Isto é, cada observação nos dados acompanha uma informação adicional que especifica sua classe, categoria ou resultado desejado.
Essas etiquetas podem ser atribuídas manualmente por humanos ou podem ser geradas por processos automatizados, dependendo do contexto do problema.
Exemplos
Aqui estão alguns exemplos de conjuntos de dados rotulados:
- Imagens Classificadas: Conjunto de imagens rotuladas com a categoria ou classe que representam, como “cachorro”, “gato”, “carro”, etc.
- Dados de Spam e Não-Spam em E-mails: Conjuntos de e-mails classificados como spam ou não-spam, com cada e-mail rotulado com a categoria correspondente.
- Dados Médicos com Diagnósticos: Registros médicos que incluem informações sobre pacientes e diagnósticos, onde cada paciente está associado a uma condição médica específica.
- Avaliações de Filmes ou Produtos: Conjuntos de avaliações de filmes, produtos ou serviços atribuídos a uma classificação numérica ou etiqueta de sentimento (positivo, negativo, neutro).
- Dados de Reconhecimento de Fala: Conjuntos de gravações de áudio acompanhadas por transcrições textuais, com cada gravação rotulada com o texto correspondente.
- Dados de Classificação de Documentos: Conjuntos de documentos textuais rotulados com suas respectivas categorias, como “notícias”, “esportes”, “tecnologia”, etc.
Esses são apenas alguns exemplos de conjuntos de dados rotulados que são amplamente utilizados em problemas de aprendizado supervisionado, onde o objetivo é treinar um modelo para aprender a associar os atributos dos dados às etiquetas correspondentes, permitindo fazer previsões ou tomar decisões sobre novos dados não rotulados.
Dados Não Rotulados
São conjuntos de dados que não possuem etiquetas ou categorias atribuídas a eles. Isto é, quando não há informações sobre a classe ou categoria a que cada exemplo pertence. Dessa maneira, os dados não rotulados consistem apenas nos atributos ou características das observações.
Usamos frequentemente esses dados em problemas de aprendizado não supervisionado, onde o objetivo é explorar a estrutura dos dados, identificar padrões, agrupamentos naturais ou anomalias, sem a orientação de rótulos predefinidos. Eles são essenciais para tarefas como clustering, redução de dimensionalidade, detecção de anomalias e outras técnicas de análise exploratória de dados.
Exemplos
A seguir, descrevemos alguns exemplos de conjuntos de dados não rotulados que exploramos por meio de técnicas de aprendizado de máquina não supervisionado para descobrir padrões, insights e estruturas subjacentes.
- Dados de Transações Financeiras: Conjuntos de dados que registram transações financeiras, como montantes, datas e locais, mas não têm informações sobre se essas transações são legítimas ou fraudulentas.
- Textos Não Estruturados: Corpos de texto não rotulados, como artigos de jornal, páginas da web ou posts em redes sociais, onde não há categorização prévia sobre o assunto ou o sentimento expresso.
- Imagens Não Classificadas: Conjuntos de imagens sem rótulos, não classificadas em categorias específicas, como coleções de fotografias de paisagens, animais, pessoas, etc., sem informações sobre o que cada imagem representa.
- Dados de Sensores: Dados capturados por sensores em ambientes industriais, de saúde ou ambientais, como leituras de temperatura, pressão, umidade, entre outros, sem indicação de eventos específicos ou condições associadas.
- Dados de Cliques em Sites: Logs de cliques em sites ou aplicativos, registrando informações sobre páginas visitadas, tempo gasto em cada página, cliques em botões, mas sem atribuição de intenções do usuário ou resultados desejados.
- Dados de Compras em Supermercados: Registros de itens comprados em um supermercado, sem informações sobre a segmentação do cliente ou padrões de compra específicos.
Conclusão
Em resumo, esses dois tipos de dados desempenham papéis fundamentais no campo do aprendizado de máquina. Os dados rotulados são essenciais para treinar modelos supervisionados, permitindo classificar e prever com base em exemplos conhecidos. Por outro lado, os dados não rotulados oferecem oportunidades para explorar e descobrir padrões ocultos usando técnicas não supervisionadas.
Dessa forma, a escolha entre utilizar dados rotulados ou não rotulados depende dos objetivos específicos do projeto e do tipo de insights desejados. Independentemente do tipo, a capacidade de transformar dados brutos em informações valiosas é uma habilidade poderosa que impulsiona a inovação e a competitividade nas organizações.
Rony Welton Von Ah é engenheiro de dados e atua na Programmers há 17 anos. Tem pós-graduação em MBA em Data Science e Analytics, e dedica-se a colocar em prática os conhecimentos adquiridos. Nos momentos livres, gosta de viajar junto de sua família.