Sistemas inteligentes já auxiliam decisões em saúde, finanças, indústria, transporte e em nosso cotidiano.
Entretanto, muitos modelos modernos, especialmente redes neurais profundas, operam como verdadeiras caixas-pretas: produzem excelentes resultados, mas raramente explicam como chegaram às suas conclusões.
Alta precisão sem transparência pode ser insuficiente em aplicações críticas.
Exemplo: um sistema que detecta câncer precisa justificar quais padrões histológicos levaram ao diagnóstico.
Modelos complexos oferecem alta performance, mas baixa transparência.
Isso dificulta decisões críticas em saúde, finanças e justiça.
Tornar previsões e comportamentos dos modelos compreensíveis para humanos.
Redes neurais profundas geralmente são explicáveis, mas não interpretáveis.
Sylvain Cussat-Blanc et al., On Interpretability in Multimodal Biomedical Image Analysis, Genetic Programming Theory and Practice XXI.
Métodos model-agnostic podem explicar qualquer modelo de Machine Learning, independentemente da arquitetura utilizada.
Explicam uma única predição.
Respondem à pergunta: "Por que o modelo tomou esta decisão específica?"
Explica decisões de modelos visuais aplicando máscaras aleatórias sobre a imagem de entrada e observando como a predição é afetada.
Se ocultar uma região reduz significativamente a confiança, essa região é importante para a decisão.
Christina Berghegger et al., Analyzing Interpretable Visual Control Policy Search and Synthesis. ACM Trans. Evol. Learn. Optim., Qualis A2
Utiliza os gradientes de qualquer conceito-alvo que chegam à camada convolucional final para destacar as regiões importantes da imagem para a previsão.
Pequenas perturbações podem enganar redes neurais.
Atenção visual não equivale a raciocínio clínico.
Sylvain Cussat-Blanc et al., On Interpretability in Multimodal Biomedical Image Analysis, Genetic Programming Theory and Practice XXI.
Explicam o comportamento médio do modelo.
Respondem à pergunta: "Como o modelo funciona em geral?"
Ideal para identificar tendências globais.
Depende de:
Não existe uma única definição universalmente aceita.
Garantir que o modelo funciona conforme esperado.
Extrair conhecimento sobre o fenômeno estudado.
Identificar padrões desconhecidos nos dados.
Permitir que humanos confiem e utilizem previsões com segurança.
Um modelo é simulável quando um humano consegue reproduzir mentalmente sua decisão.
Árvores pequenas são altamente simuláveis. Redes profundas não são.
Capacidade de dividir o modelo em partes compreensíveis.
ACTIONS = [0,1,2,3]
function evolved_policy_bowling(frame1, frame2, frame3, frame4)
# OUTPUT NOOP
output_noop = reduce_ncolors(frame2)
# OUTPUT FIRE
remove_top_bottom = maskfromto(frame4, exp(-1.0), 60.0)
exponent = vertical_argmax(remove_top_bottom) # has the player reach the top ?
# normally the exponent will be one if the player hasn't, 3 otherwise
n_diff_pixel_values = reduce_ncolors(frame1)
details = tophat(frame4, n_diff_pixel_values,) # big Kernel => makes pins salient
whitest_pixel = argmax_position(details) # usually the pins
whitest_pixel_orig_frame1 = argmax_position(frame1) # usually the head of the player
dist_player_pins = dist(whitest_pixel_orig_frame1, whitest_pixel)
output_fire = dist_player_pins^exponent
# OUTPUT UP
blackest_pixel = argmin_position(dilation(frame4))
constant_coordinate = (27, 84) # last pixel
closed_frame1 = closing(frame1)
player = argmax_position(closed_frame1)
player_vector = direction(player, constant_coordinate) # player to bottom_left
output_up = dist_second(player_vector, blackest_pixel) # compare horizontal coordinate for both
# OUTPUT DOWN
output_down = 1.0
outputs = (output_noop, output_fire, output_up, output_down)
return ACTIONS[argmax(outputs)]
END
Christina Berghegger et al., Analyzing Interpretable Visual Control Policy Search and Synthesis. ACM Trans. Evol. Learn. Optim., Qualis A2
Utilizada para encontrar uma relação linear entre uma variável alvo e um conjunto de atributos.
Modelar matematicamente a relação entre as entradas e a saída.
Utiliza apenas uma variável explicativa.
Utiliza múltiplas variáveis.
Encontrar os coeficientes a e b que minimizem o erro entre um alvo \(Y \in \mathbb{R}^N\) que seja linearmente dependente de um dado observacional \(X \in \mathbb{R}^{Nx1} \) independente
\(Y = aX + b\)
Generalização da regressao linear simples para múltiplas variáveis \(X \in \mathbb{R}^{Nxd} \)
\(Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 ... + \beta_d X_d + \epsilon \)
Os coeficientes \( \beta \) são obtidos por algum algoritmo de otimização, como o gradiente descendente
Obtemos uma segmentação do espaço ao combinar os diferentes modelos
Escolher a variável de divisão: selecionando as variáveis, da mais discriminante à menos discriminante
Como lidar com variáveis contínuas: “Dividir” a variável contínua para que seus valores inferiores e superiores caractarizem nós distintos.
encontrar o equilíbrio entre sobreaprendizado e árvore trivial. Processo de pós-poda.
em função des algoritmos CHAID (Chi-2), CART e C4.5 sobre o índice, do gini (índice de concentração) e sobre o conceito de entropia (teoria da informação)
"Revision time": \( 4/10 * 0.5 + 3/10 *0.444 + 3/10 *0.444 = 0.4664 \)
"Break time": \( 3/10 * 0. + 3/10 *0.444 + 4/10 *0. = 0.1332 \)
Agora, selecionamos "Revision time" - atributo "high"
Molnar, Christoph, Interpretable Machine Learning, https://christophm.github.io/interpretable-ml-book/
Grad-CAM https://arxiv.org/abs/1610.02391
Sylvain Cussat-Blanc et al., On Interpretability in Multimodal Biomedical Image Analysis, Genetic Programming Theory and Practice XXI.
Christina Berghegger et al., Analyzing Interpretable Visual Control Policy Search and Synthesis. ACM Trans. Evol. Learn. Optim., Qualis A2