Data Science e Machine Learning são um dos assuntos mais hypados do mundo da tecnologia e hoje vamos abordar seus conceitos básicos e aplicabilidade.

Data Science e Machine Learning

Data science, ou Ciência de Dados em português, tem como princípio a coleta, análise, limpeza e modelagem dos dados. Esse processo ajuda, por exemplo, na tomada de decisões de uma empresa ou negócio, gerando insights.

Os algoritmos de aprendizado de máquina serão empregados para poder fazer predições. No entanto, as predições nem sempre serão 100% exatas, pois é preciso considerar os dados do mundo real.

Já o Machine Learning, ou aprendizagem de máquina em português, é uma metodologia do estado da arte que visa automatizar modelos analíticos. Isso significa que as máquinas são capazes de aprender com base nos dados que são fornecidos. Dessa forma, as máquinas tornam-se capazes de identificar padrões e tomar decisões, com o mínimo de intervenção humana.

Data Science

Para deixar o entendimento mais claro sobre Data Science e Machine Learning, imagine o seguinte cenário:

Imagine que você chegou em casa depois de um dia cansativo e vai assistir uma nova série na Netflix. Para isso, a Netflix usa um mecanismo de recomendação com Machine Learning, traçando perfis de milhares de pessoas com gostos parecidos com os seus. Dessa forma, é feita uma previsão de séries para você assistir e você pode aproveitar o finalzinho de dia vendo uma série recomendada.

Machine Larning Netflix

Agora vamos analisar os dois tipos de aprendizagens mais usados: a aprendizagem supervisionada e não supervisionada.

Aprendizagem supervisionada

O treinamento supervisionado acontece com base em um conjuntos de dados rotulados. A máquina vai tentar encontrar uma função capaz de prever rótulos desconhecidos, com base nas características que os dados vão possuir.

imagine, por exemplo, que temos um conjunto de dados sobre frutas com informações sobre largura, altura, massa, cor e etiqueta. Ao treinar um modelo com base nesses dados, podemos prever a etiqueta de uma fruta com base nas outras características.

Para estimar os rótulos existe duas abordagens:

Classificação: Quando fazemos o mapeamento das características da entrada dos dados para rótulos de saídas. Podemos, por exemplo, classificar uma espécie de planta com base nas suas características.

Regressão: Quando fazemos o mapeamento das características da entrada dos dados para uma saída contínua, ou seja, retorna um valor real e não uma etiqueta. Esses valores reais podem ser, por exemplo, o valor de um apartamento, calculado com base em suas características.

Aprendizagem não supervisionada

Nessa abordagem de aprendizagem, o conjunto de dados não possui nenhum tipo de rótulo. O objetivo é identificar a semelhança dos dados para encontrar os semelhantes, ou outliers.

As abordagens de algoritmos mais usados são os de agrupamentos. Por exemplo, suponha que temos um conjunto de dados com texto de spam e não spam. O agrupamento vai criar grupos de textos que possuam similaridade condizente. Dessa forma, é bem provável que se criem grupos de spam e não spam.

Então é isso galera, espero que tenham entendido esses conceitos e gostado.

Até a próxima!