K-Nearest Neighbors (KNN)
Como classificar elementos?
- Quadro
A Premissa da Similaridade
A ideia fundamental: "Diga-me quem são seus vizinhos e eu direi quem você é."
Se um ponto desconhecido está cercado por exemplos da classe A, a hipótese mais simples é que ele também seja da classe A.
K-Nearest: Verificar mais de 1 vizinho (pode ser ruído), mas para os K mais próximos e fazemos uma votação majoritária.
Fronteiras de Decisão e Voronoi
Como o KNN "enxerga" o mundo? Quadro
- Imagine dois pontos no mapa. A linha que os separa exatamente no meio é o bissetor perpendicular.
- Ao adicionar vários pontos, essas linhas se cruzam formando Células de Voronoi.
- Tudo dentro de uma célula "pertence" ao ponto central daquela célula.
Como medir a "Vizinhança"?
A distância entre o ponto P e o exemplo E em n dimensões:
d = √[ Σ (pi - ei)² ]
- Cada característica (eixo) deve ter a mesma escala.
- Problema: Se uma escala for 0-1 e outra 0-1000, a maior dominará o cálculo.
O Problema da Escala (Normalização)
O KNN é sensível a como medimos as coisas.
Exemplo: Comparar peso (em gramas) e altura (em metros).
Uma variação de 1kg (1000 unidades) "esmagaria" uma variação de 10cm (0.1 unidades) no cálculo da distância.
- Possível solução: Z-Score ou Min-Max Scaling.
- A idéia é que cada dimensão tenha uma contribuição similar para a distância final.
Métrica de Cosseno
A métrica de distância varia de acordo com o problema.
A distância euclidiana é ruim para textos.
- Um documento de 10 páginas sobre "IA" e um outro de 1 página sobre o mesmo tempo tem uma grade diferença no número de palavras.
- Mas o ângulo entre os vetores de palavras é quase zero.
N: Novo
G: Grupo em potencial
Σ N · H = |N| |G| cos(θ)
O Produto Escalar foca na direção (assunto) e ignora a magnitude (tamanho do texto).
Causalidade vs. Correlação
Para encerrar a parte técnica:
"Só porque A e B acontecem juntos, não significa que A causa B."
- Pessoas que bebem refrigerante diet costumam estar acima do peso.
- O classificador pode dizer: "Pare de beber diet para emagrecer".
- Erro: A condição (obesidade) causou a escolha do refrigerante, não o contrário.
Outras considerações
- O que realmente importa no dado?
- Nem toda feature ajuda na decisão
Funcionamento
- Escolher K.
- Calcular distâncias.
- Selecionar os K vizinhos.
- Realizar votação majoritária.
Métricas de Distância
- Euclidiana
- Manhattan
- Minkowski
- Cosseno
Vantagens
- Simples.
- Sem fase de treinamento.
- Eficiente em bases pequenas.
Desvantagens
- Alto custo na predição.
- Sensível à escala.
- Maldição da dimensionalidade.
Conclusão e Revisão
1. KNN: Aprender por similaridade geométrica.
2. Escala: Sem normalização, o impacto das características pode influenciar negativamente o aprendizado.
3. Métrica de distância: Cosseno pode ser útil, depende do problema.
3. Características: Escolher um conjunto que ajude a diferenciar bem os dados - 2D ou mais
5. Ética: Cuidado com a interpretação de causalidade.
Dúvidas?