Fundamentos de Data Science – A análise inteligente de informação
A geração atual vive uma nova realidade diferente de qualquer anterior, onde Petabytes de dados são anualmente produzidos. Todo esse volume de dados esconde uma realidade: não analisamos os dados que produzimos. Sob a luz dessa demanda, surge uma nova área de desenvolvimento focada em analisar e fazer previsões a partir de dados. Aqui passaremos pelos fundamentos de Data Science: o que é, quais as possibilidades, perspectivas e onde começar a aprender.
O que é Data Science?
Data Science, que pode ser traduzido para português diretamente como “Ciência de Dados”, é um campo interdisciplinar. Ela que trata da maneira de conseguir extrair conhecimento ou Insights de dados, usando maneiras variadas. O cientista Jim Gray alegava que a ciência direcionada por dados era o quarto e novo paradigma da ciência.
“O Impacto do pensamento de Jim Gray está continuamente levando pessoas a pensar em novas maneiras sobre como dados e software estão redefinindo o que significa fazer ciência.”
— Bill Gates, Microsoft Corporation
Como é possível ver na figura acima, existe toda uma nuvem de conceitos que compõem o campo de Ciência de Dados. Entre elas estão:
- Machine Learning (Aprendizado de Máquina)
- Reconhecimento de Padrões
- Análise Preditiva
- Big Data
- Inteligência Artificial
- Algoritmos Genéticos
- Otimização
Que são exemplos interessantes de aplicações que requerem estudos de Data Science.
Fundamentos de Data Science
Conforme já mencionamos, a ciência de dados tem como fundamento analisar volumes de dados e produzir alguma informação a partir disso. Essas análises usam de artifícios matemáticos para gerar resultados, e Storytelling para analisar os resultados e criar conclusões a partir deles.
Existem 3 tipos básicos de problemas a serem resolvidos em Data Science: Problemas de Classificação, Problemas de Regressão e Problemas de Previsão.
Problemas de Classificação
Os Problemas de Classificação tem um funcionamento bem fácil de compreender. Imagine que você tenha bolinhas de diferentes cores, e tenha que agrupá-las por cor. Contudo, ninguém te contou qual é o padrão de separação. A única referência que você tem são caixas que já possuem as bolinhas separadas por cor.
Para organizar esses grupos então, você observa conjuntos previamente separados, e aprende qual é o padrão de separação. Sua visão recebe os dados de cor de cada bolinha, e seu cérebro reconhece o padrão. Esse padrão é então aplicado para separar novas bolinhas.
No caso de computadores, os dados podem ser eventualmente transformados em dados numéricos. Logo, existem ferramentas matemáticas que reconhecem alguns tipos de padrões. Esse tipo de solução pode ser usada, por exemplo, na classificação de tumores benignos ou malignos com base em dados de autópsia.
Problemas de Regressão e Previsão
Os Problemas de Regressão procuram encontrar como determinados dados se relacionam. Isso significa: buscar uma função matemática que correlaciona esses dados. Uma expansão importante dos problemas de Regressão são os Problemas de Previsão. No caso dos problemas de previsão, também procura-se uma função matemática que correlacione os dados. A expansão desses problemas é que procura-se prever quais seriam os próximos dados a partir disso. Podemos com isso tentar prever desastres naturais baseados em condições mensuráveis, ou mesmo qual time de futebol deverá ter um bom desempenho durante a temporada.
O filme Moneyball (2011) é uma visão interessante da aplicação de problemas de Previsão.
Onde começar a aprender?
Existem vários sites onde podemos aprender os fundamentos de Data Science. Entre os sites de aprendizado podemos indicar:
Vale lembrar que o Coursera possui um curso bem completo oferecido pela Johns Hopkins University. Para testar seu conhecimento podemos usar como playground e participar de competições no site Kaggle. Divirta-se e se aproxime da profissão mais sexy do século XXI.