Nos últimos meses fui convidada para conduzir algumas palestras e cursos sobre ciência de dados e tive a oportunidade de conversar com mais pessoas que estão começando a aprender sobre esse mundo. É muito gratificante ver o espaço que a disciplina vem ocupando e o quanto os profissionais estão com vontade de adquirir essa expertise que agrega tanto no dia a dia. O que me levou a escrever esse artigo foi a percepção de que existe uma grande confusão sobre a diferença entre Analytics (a análise de dados) e Data Science (a ciência de dados). Durante as conversas com as pessoas, percebi que muitas vezes, elas colocam os dois conceitos na mesma caixinha. De fato, estão relacionadas, mas não necessariamente da maneira que você pensa.
Como uma boa fã, sou suspeita para falar, mas acho incrível a classificação que a Cassie Kozyrkov (cientista de dados e estatística sul-africana) apresenta sobre o tema. Vale a pena citá-la aqui para explicar melhor os conceitos. Data Science é um termo guarda chuva que compreende quase tudo relacionado a dados. O cientista de dados, essa figura mítica que tem tanto destaque atualmente, é um profissional com conhecimento em análise de dados (analytics), estatística, e machine learning. Esse último também causa outro mal entendido frequente entre as pessoas. Elas utilizam os termos Machine Learning e Data Science de maneira intercambiável, ou seja, como se fossem a mesma coisa. Mas, assim como Analytics, Machine Learning é uma parte de Ciência de Dados, e não ela por inteiro.
Então, nesse sentido, o que é Data Science? O que é Analytics?
Voltando à Cassie, Data Science é a disciplina que viabiliza tornar os dados úteis, sendo que, as fronteiras podem ser definidas de acordo com o volume de decisões a serem tomadas. Para que fique mais claro, vou separar os três chapéus que citamos anteriormente (analytics, estatística, e machine learning) e discorrer sobre cada um deles.
ANALYTICS
Se você não quer tomar nenhuma decisão, e precisa ter um panorama geral da situação, e encontrar padrões interessantes para inspirar alguma hipótese, o melhor caminho é utilizar Analytics. Para o papel de analytics, velocidade é o principal. O quão rápido você consegue mergulhar em dados, encontrar e destacar padrões interessantes, apresentar para o seu público, inspirar hipóteses. Muitas vezes são encontrados padrões interessantes mas que podem ser somente devido a ruído nos dados. Exemplo: consultando meus dados identifiquei um padrão de que as pessoas que usam mais marca texto amarelo têm mais espinhas do que as pessoas que usam marca texto verde. Mas, atenção, isso não significa que no corante amarelo há algum composto que favorece o surgimento de espinhas, pode ser apenas uma coincidência.
O trabalho de analytics é encontrar e apresentar padrões interessantes nos dados, mas sem nunca extrapolar além dos dados que foram analisados.No exemplo do marca texto, posso afirmar que nos dados analisados, observamos uma correlação entre marca texto amarelo e espinhas, mas isso não quer dizer que se eu fizer as pessoas usarem o marca texto verde daqui em diante, elas passarão a ter menos espinhas.
ESTATÍSTICA
Se eu quero tomar uma ou poucas decisões importantes, eu preciso da estatística. A estatística nos dará o rigor necessário para tomar decisões em cenários de incerteza. Para avaliar a eficácia e liberar as vacinas contra o COVID-19, por exemplo, foi necessário um exército de estatísticos para analisar cuidadosamente os dados. Por isso, fiquem tranquilos que foram utilizadas técnicas científicas consolidadas e comprovadas para sua segurança. Juro para vocês que não tomaram a decisão com base numa informação vinda de um grupo de zap.
MACHINE LEARNING
Precisa tomar várias decisões rapidamente? Então você deve recorrer ao machine learning. Por exemplo, para identificar dentre um milhão de imagens, em quais tem um gatinho, o machine learning é utilizado. Machine Learning é uma maneira de ensinar algo para um computador por meio de exemplos, e não por instruções (códigos). Neste caso, devo mostrar um monte de fotos com gatos, mais um monte de fotos sem gatos, e deixar o computador entender por si só como identificar se tem ou não um gato na imagem. Depois que este treinamento estiver concluído, eu posso passar pra ele novas fotos, que ele ainda não viu, e ter a segurança de que ele irá separar quais tem gato, e quais não tem corretamente para mim.
Por fim, pra te guiar melhor, tem uma tirinha que pode te ajudar em todos esses nomes relacionados à ciência de dados:
Bom, ainda há muito o que explorar no mundo dos dados. Provavelmente essa ciência ainda irá evoluir bastante em termos de métodos e estudos. Mas, espero que esse artigo possa te orientar na estratégia da utilização de dados na sua empresa e até mesmo a ajudar a repassar os conhecimentos e definições sobre cada prática de utilização dessa disciplina.