def forward(self, inputs):
cell_body_sum = np.sum(inputs * self.weights) + self.bias
activation_val = 1.0 / (1.0 + math.exp(-cell_body_sum)) # sigmoid activation function
return activation_val
Variational Autoencoders (VAE) e Generative Adversarial Networks (GANs) - geração "realista" de dados complexos, especialmente imagens.
Transformer - Generative Pre-trained Transformers (GPT, 2018)
Normalmente utilizado para a geração de imagens
2.
Redes Neurais Recorrentes (RNN)
Utilizamos Aprendizado por transferência (transfer learning).
Isso é chamado deFine-Tuning.
Aprendizado por transferência consiste em reutilizar o conhecimento aprendido em uma tarefa para resolver outra tarefa semelhante.
Em vez de treinar um modelo do zero, aproveitamos parâmetros já aprendidos em grandes bases de dados.
Reutilizamos as primeiras camadas e ajustamos apenas as últimas para uma nova tarefa.
Envolve múltiplos modos ou modalidades de informação.
Em NLP, multimodalidade significa combinar texto com uma ou mais modalidades, como imagens, áudio ou fala.
Neste curso, focaremos principalmente em texto + imagens.
A multimodalidade é uma das principais fronteiras dos modelos fundacionais modernos.
Multimodalidade é uma das áreas mais ativas da IA atual, embora seja considerada "a próxima grande revolução" há quase uma década - gpt1, 2018.
Uma das arquiteturas propostas é uma GAN que utiliza texto como condição:
O objetivo é gerar uma descrição textual para o conteúdo visual de uma imagem.
Isso exige compreender a imagem, relacionar elementos visuais e textuais e produzir uma sequência de palavras.
Evolução dos Modelos
A imagem é codificada por uma CNN, enquanto a legenda é gerada sequencialmente por uma RNN ou LSTM.
Essa abordagem dominou a área durante vários anos.
Meshed-Memory Transformer (M², transformer de memória em malha - tradução livre) Proposto em 2020, o Meshed-Memory Transformer representa um avanço importante em Image Captioning.
Seu objetivo é melhorar tanto o encoder visual quanto o decoder textual.
Um mecanismo de gating aprende quanto cada nível visual deve contribuir na geração da legenda.
Isso cria conexões densas entre as camadas do encoder e do decoder.
O modelo é composto por dois módulos principais:
Ambos possuem múltiplas camadas empilhadas.
Todas as interações entre palavras e regiões visuais são modeladas por atenção.
O encoder incorpora vetores de memória treináveis que armazenam conhecimento prévio.
Isso permite capturar relações visuais além das presentes na imagem.
A ideia de difusão tem origem na física:
Se o processo de difusão for modelado como uma cadeia de Markov com ruído gaussiano adicionado em passos consecutivos, é possível aprender a revertê-lo.
Esse processo reverso é exatamente como o modelo gera imagens a partir de ruído aleatório puro.
A cadeia de Markov parte de x₀ e adiciona ruído gaussiano em t passos:
Para reconstruir xt−1 a partir de xt, o modelo aprende a estimar a distribuição dos passos anteriores: