Módulo 2

Aprendizado de Máquina

Dois Tipos de Aprendizado

Regularidade: O mundo é repetitivo. Se algo aconteceu uma vez, as condições que o causaram podem se repetir.
O Objetivo: Usar o que sabemos (biblioteca de casos) para prever o que não sabemos (novos dados).
Quadro

Ideia Central

Aprender com regularidades nos dados
Usar exemplos passados para prever o futuro
Medir similaridade entre objetos

Exemplo Intuitivo

Reconhecer objetos por características
Comparar com biblioteca de exemplos
Escolher o mais parecido

K-Nearest Neighbors (KNN)

Como classificar elementos?

Quadro

A Premissa da Similaridade

A ideia fundamental: "Diga-me quem são seus vizinhos e eu direi quem você é."

Se um ponto desconhecido está cercado por exemplos da classe A, a hipótese mais simples é que ele também seja da classe A.

K-Nearest: Verificar mais de 1 vizinho (pode ser ruído), mas para os K mais próximos e fazemos uma votação majoritária.

Fronteiras de Decisão e Voronoi

Como o KNN "enxerga" o mundo? Quadro

Imagine dois pontos no mapa. A linha que os separa exatamente no meio é o bissetor perpendicular.
Ao adicionar vários pontos, essas linhas se cruzam formando Células de Voronoi.
Tudo dentro de uma célula "pertence" ao ponto central daquela célula.

Como medir a "Vizinhança"?

A distância entre o ponto P e o exemplo E em n dimensões:

d = √[ Σ (p_i - e_i)² ]

Cada característica (eixo) deve ter a mesma escala.
Problema: Se uma escala for 0-1 e outra 0-1000, a maior dominará o cálculo.

O Problema da Escala (Normalização)

O KNN é sensível a como medimos as coisas.

Exemplo: Comparar peso (em gramas) e altura (em metros).
Uma variação de 1kg (1000 unidades) "esmagaria" uma variação de 10cm (0.1 unidades) no cálculo da distância.

Possível solução: Z-Score ou Min-Max Scaling.
A idéia é que cada dimensão tenha uma contribuição similar para a distância final.

Métrica de Cosseno

A métrica de distância varia de acordo com o problema.

A distância euclidiana é ruim para textos.

Um documento de 10 páginas sobre "IA" e um outro de 1 página sobre o mesmo tempo tem uma grade diferença no número de palavras.
Mas o ângulo entre os vetores de palavras é quase zero.

N: Novo G: Grupo em potencial

Σ N · H = |N| |G| cos(θ)

O Produto Escalar foca na direção (assunto) e ignora a magnitude (tamanho do texto).

Causalidade vs. Correlação

Para encerrar a parte técnica:

"Só porque A e B acontecem juntos, não significa que A causa B."

Pessoas que bebem refrigerante diet costumam estar acima do peso.
O classificador pode dizer: "Pare de beber diet para emagrecer".
Erro: A condição (obesidade) causou a escolha do refrigerante, não o contrário.

Outras considerações

O que realmente importa no dado?
Nem toda feature ajuda na decisão

Funcionamento

Escolher K.
Calcular distâncias.
Selecionar os K vizinhos.
Realizar votação majoritária.

Métricas de Distância

Euclidiana
Manhattan
Minkowski
Cosseno

Vantagens

Simples.
Sem fase de treinamento.
Eficiente em bases pequenas.

Desvantagens

Alto custo na predição.
Sensível à escala.
Maldição da dimensionalidade.

Conclusão e Revisão

1. KNN: Aprender por similaridade geométrica.
2. Escala: Sem normalização, o impacto das características pode influenciar negativamente o aprendizado.
3. Métrica de distância: Cosseno pode ser útil, depende do problema.
3. Características: Escolher um conjunto que ajude a diferenciar bem os dados - 2D ou mais
5. Ética: Cuidado com a interpretação de causalidade.

Dúvidas?

Árvores de Decisão

Aprender regras de decisão a partir dos dados.

Conceitos

Nós internos: testes.
Folhas: classes.
Ramos: resultados dos testes.

Entropia

Mede a desordem dos dados.


Entropy(S) = - Σ pᵢ log₂ pᵢ

Ganho de Informação

Seleciona o melhor atributo.
Reduz a incerteza.
Base do algoritmo ID3.

Poda

Evita overfitting.
Melhora generalização.

Redes Neurais Artificiais

Inspiradas no cérebro humano.

Perceptron

Entradas ponderadas.
Função de ativação.
Saída binária.

Aprendizado


w ← w + α(y - ŷ)x

Limitação

Resolve apenas problemas linearmente separáveis.

Deep Neural Networks

Múltiplas camadas ocultas.
Aprendem representações hierárquicas.
Grande poder de generalização.

Backpropagation

Calcula gradientes.
Atualiza pesos.
Usa descida do gradiente.

Funções de Ativação

Sigmoid
Tanh
ReLU
Softmax

Aplicações

Visão Computacional
NLP
Reconhecimento de Voz
Sistemas Autônomos

Support Vector Machines

Encontrar o hiperplano de máxima margem.

Conceitos

Vetores de suporte.
Margem máxima.
Classificação robusta.

Kernel Trick

Linear
Polinomial
RBF
Sigmoide

Vantagens

Excelente em alta dimensionalidade.
Robusto contra overfitting.
Ótimo para conjuntos médios.