Módulo 2

Aprendizado de Máquina

Dois Tipos de Aprendizado


  • Regularidade: O mundo é repetitivo. Se algo aconteceu uma vez, as condições que o causaram podem se repetir.
  • O Objetivo: Usar o que sabemos (biblioteca de casos) para prever o que não sabemos (novos dados).
  • Quadro

Ideia Central

  • Aprender com regularidades nos dados
  • Usar exemplos passados para prever o futuro
  • Medir similaridade entre objetos

Exemplo Intuitivo

  • Reconhecer objetos por características
  • Comparar com biblioteca de exemplos
  • Escolher o mais parecido

K-Nearest Neighbors (KNN)

Como classificar elementos?
  1. Quadro

A Premissa da Similaridade

A ideia fundamental: "Diga-me quem são seus vizinhos e eu direi quem você é."

Se um ponto desconhecido está cercado por exemplos da classe A, a hipótese mais simples é que ele também seja da classe A.

K-Nearest: Verificar mais de 1 vizinho (pode ser ruído), mas para os K mais próximos e fazemos uma votação majoritária.

Fronteiras de Decisão e Voronoi

Como o KNN "enxerga" o mundo? Quadro

  • Imagine dois pontos no mapa. A linha que os separa exatamente no meio é o bissetor perpendicular.
  • Ao adicionar vários pontos, essas linhas se cruzam formando Células de Voronoi.
  • Tudo dentro de uma célula "pertence" ao ponto central daquela célula.

Como medir a "Vizinhança"?

A distância entre o ponto P e o exemplo E em n dimensões:

d = √[ Σ (pi - ei)² ]
  • Cada característica (eixo) deve ter a mesma escala.
  • Problema: Se uma escala for 0-1 e outra 0-1000, a maior dominará o cálculo.

O Problema da Escala (Normalização)

O KNN é sensível a como medimos as coisas.

Exemplo: Comparar peso (em gramas) e altura (em metros).
Uma variação de 1kg (1000 unidades) "esmagaria" uma variação de 10cm (0.1 unidades) no cálculo da distância.
  • Possível solução: Z-Score ou Min-Max Scaling.
  • A idéia é que cada dimensão tenha uma contribuição similar para a distância final.

Métrica de Cosseno

A métrica de distância varia de acordo com o problema.

A distância euclidiana é ruim para textos.

  • Um documento de 10 páginas sobre "IA" e um outro de 1 página sobre o mesmo tempo tem uma grade diferença no número de palavras.
  • Mas o ângulo entre os vetores de palavras é quase zero.
N: Novo G: Grupo em potencial

Σ N · H = |N| |G| cos(θ)

O Produto Escalar foca na direção (assunto) e ignora a magnitude (tamanho do texto).

Causalidade vs. Correlação

Para encerrar a parte técnica:

"Só porque A e B acontecem juntos, não significa que A causa B."
  • Pessoas que bebem refrigerante diet costumam estar acima do peso.
  • O classificador pode dizer: "Pare de beber diet para emagrecer".
  • Erro: A condição (obesidade) causou a escolha do refrigerante, não o contrário.

Outras considerações

  • O que realmente importa no dado?
  • Nem toda feature ajuda na decisão

Funcionamento

  1. Escolher K.
  2. Calcular distâncias.
  3. Selecionar os K vizinhos.
  4. Realizar votação majoritária.

Métricas de Distância

  • Euclidiana
  • Manhattan
  • Minkowski
  • Cosseno

Vantagens

  • Simples.
  • Sem fase de treinamento.
  • Eficiente em bases pequenas.

Desvantagens

  • Alto custo na predição.
  • Sensível à escala.
  • Maldição da dimensionalidade.

Conclusão e Revisão

1. KNN: Aprender por similaridade geométrica.
2. Escala: Sem normalização, o impacto das características pode influenciar negativamente o aprendizado.
3. Métrica de distância: Cosseno pode ser útil, depende do problema.
3. Características: Escolher um conjunto que ajude a diferenciar bem os dados - 2D ou mais
5. Ética: Cuidado com a interpretação de causalidade.

Dúvidas?

Árvores de Decisão

Aprender regras de decisão a partir dos dados.

Conceitos

  • Nós internos: testes.
  • Folhas: classes.
  • Ramos: resultados dos testes.

Entropia

Mede a desordem dos dados.


Entropy(S) = - Σ pᵢ log₂ pᵢ
        

Ganho de Informação

  • Seleciona o melhor atributo.
  • Reduz a incerteza.
  • Base do algoritmo ID3.

Poda

  • Evita overfitting.
  • Melhora generalização.

Redes Neurais Artificiais

Inspiradas no cérebro humano.

Perceptron

  • Entradas ponderadas.
  • Função de ativação.
  • Saída binária.

Aprendizado


w ← w + α(y - ŷ)x
        

Limitação

Resolve apenas problemas linearmente separáveis.

Deep Neural Networks

  • Múltiplas camadas ocultas.
  • Aprendem representações hierárquicas.
  • Grande poder de generalização.

Backpropagation

  • Calcula gradientes.
  • Atualiza pesos.
  • Usa descida do gradiente.

Funções de Ativação

  • Sigmoid
  • Tanh
  • ReLU
  • Softmax

Aplicações

  • Visão Computacional
  • NLP
  • Reconhecimento de Voz
  • Sistemas Autônomos

Support Vector Machines

Encontrar o hiperplano de máxima margem.

Conceitos

  • Vetores de suporte.
  • Margem máxima.
  • Classificação robusta.

Kernel Trick

  • Linear
  • Polinomial
  • RBF
  • Sigmoide

Vantagens

  • Excelente em alta dimensionalidade.
  • Robusto contra overfitting.
  • Ótimo para conjuntos médios.