O que é Data Mining ou Mineração de Dados? Saiba como funciona


O objetivo da Mineração de Dados (Data Mining) é encontrar padrões consistentes e relacionamentos entre as variáveis, e com isso acontece a formação de subconjuntos entre os dados iniciais.
Esse processo é realizado a partir de fontes como Data Warehouse e Data Marts. Que em resumo são grandes bancos de dados que possuem uma imensa fonte de informações relevantes e podem ser sistematicamente consultados e analisados.
O que é Data Mining ou Mineração de Dados?
Em suma a Mineração de Dados é a análise sistemática buscando a encontrar tendências e informações úteis. Utilizando técnicas e métodos de consultas.
Na sociedade atual a informação possui valor econômico. A venda de informações é algo comum. Afinal cada empresa gera vários dados cada vez que é realizada algum tipo de transação. Dessa forma na Internet não é diferente, cada acesso, registro, compra, venda, tudo fica armazenado. Informações pessoais, dados e características como idade, perfil, localização.
Esse assunto gera muita controvérsia, sobre até onde é legal e moral a venda dessas informações. Assim sabendo dessas informações sobre o potencial cliente a publicidade pode ser direcionada entendo padrões de consumo. Mas não podemos negar que tais estratégias são fundamentais para o Marketing na sociedade atual.
O conceito de Mineração de Dados é novo, inicialmente ele foi concebido na década de 1990. E tem como base a Estatística, Machine Learning (aprendizado de máquica) e a Inteligência Artificial.
No processo de Data Mining são usados algoritmos para identificar os padrões já mencionados. Como é o caso da Rede Neural Artificial. Esse algoritmo simula o funcionamento do cérebro humano, dessa forma simula as ligações que os neurônios fazem entre si. Também podemos listar as Árvores de Decisões que funciona como um fluxograma e o objetivo é encontrar coisas em comum entre os elementos analisados. Existem vários outros tipos de algoritmos.
Softwares para Mineração de Dados
Um dos softwares mais antigos dessa área é o Weka criado em 1993 na Nova Zelândia e possui algoritmos de Data Mining e Machine Learning. É escrito em Linguagem Java. É uma boa opção para análise de dados. Compatível com Banco de Dados de consultas com Linguagem SQL.
Outro é o Orange criado na Eslovênia nele é possível executar scripts em Linguagem Python e ter acesso a estatística e também ferramentas de Machine Learning.
Outra opção para quem quer trabalhar com Python é o DataMelt (DMelt) mas a plataforma também suporta outras linguagens como Java, Groovy, Ruby, entre outras.
O Open Refine chegou a ser desenvolvido pelo Google sob o nome de Google Refine, mas agora ele segue independente. Nele é possível a exportação de dados em variados formatos como arquivos SV, CSV, .xls, .xlsx, JSON, RDF, HTML e XML.
As Seis Etapas do Data Mining
O estudioso Fayyad, um cientista de dados estadunidense, dividiu o processo de busca de conhecimento em bancos de dados, chamdo de processo de KDD (Knowledge Discovery and Data Mining) em seis passos a saber:
- Preparação de dados: define quais a metas serão atingidas no processo e quais as bases de conhecimentos serão utilizadas.
- Limpeza de dados: retira os dados que podem causas distorções e anomalias na análise.
- Seleção de dados: decide em qual conjunto o processo será relizado.
- Data mining: decide qual técnica de mineração de dados será aplicada.
- Incorporação do conhecimento anterior: interpreta os dados atingidos buscando retirar aqueles que não são relevantes.
- Interpretação de resultados: O resultado obtido é interpretado e documentado. Por fim o processo é concluído.
Formação e Carreira
Quem trabalha nessa área pode ter formação diversa como por exemplo Ciência da Computação e Sistemas da Informação. Logo depois após o curso de graduação se especializar com cursos ou com uma pós graduação.