banner
Centro de notícias
Nossos produtos oferecem uma experiência perfeita, prática e segura.

A interface do usuário encontra a IA: lições aprendidas com a implementação da imagem

Aug 26, 2023

A artista 2D da Playkot, Tatiana Mironova, detalhou como o estúdio implementou ferramentas de geração de imagens em seu pipeline para criar elementos de interface do usuário para Spring Valley. Aqui está o que a equipe aprendeu durante esse processo e quais são as claras vantagens e armadilhas de treinar seus próprios modelos.

Tatiana Mironova

Tudo começou com uma pergunta de toda a empresa: como podemos gastar menos tempo nas tarefas atuais sem comprometer a qualidade?

Muitos de nós já havíamos explorado modelos de aprendizado profundo e ferramentas genAI por puro entusiasmo, mas entender se poderíamos integrar IA em nossos processos exigia uma abordagem mais sistemática. Agora, quase todas as equipes da Playkot estão experimentando redes neurais para suas tarefas. Compartilhamos experiências em bate-papos com tema de IA no Slack e, quando alguém tem uma pequena descoberta, adotamos suas soluções.

Então, vamos falar sobre o que tentamos em nossa equipe de IU enquanto trabalhamos em Spring Valley.

Comecei a explorar ativamente as redes neurais no início deste ano. Passei de três a quatro dias apenas me familiarizando com as ferramentas: entendendo as tecnologias e abordagens, descobrindo o lado técnico das coisas.

Primeiro tentei o Midjourney porque parecia a opção mais acessível - já tínhamos uma conta corporativa para experimentos. Rapidamente, percebi que isso não nos ajudaria a economizar tempo na criação de ícones: na quarta versão que estava testando, a qualidade da imagem deixava muito a desejar. Na nova quinta versão, a qualidade melhorou significativamente, mas para nossas tarefas, os resultados ainda exigiam revisões substanciais.

O maior obstáculo foi que Midjourney não conseguiu corresponder ao nosso estilo exigido. Resumindo, ele carrega toda a Internet, portanto, produz resultados muito imprevisíveis e você não pode treiná-lo para combinar com seu estilo.

No entanto, descobriu-se que Midjourney é uma ferramenta auxiliar decente para conceitos ou para gerar elementos individuais. Se você precisa comunicar uma ideia ou encontrar alguma forma para ela, ele lida bem com isso.

Por exemplo, eu precisava criar um enfeite de camafeu. Passei algum tempo na geração e percebi que nenhum dos resultados me convinha - seria mais fácil construir tudo em 3D. Mas os próprios camafeus pareciam decentes: não se destacavam do estilo, não tinham dois narizes nem bocas tortas, então por que não usá-los?

Nos programas 3D, existe uma ferramenta chamada mapa de deslocamento: ela adiciona altura às áreas claras de um objeto e recua nas áreas escuras. Rapidamente cortei a participação especial de Midjourney no Photoshop, apliquei meu próprio material a ela e não precisei desenhar o retrato à mão. Passei o mesmo tempo no ícone que planejei inicialmente, mas a imagem do cameo acabou ficando interessante, mais natural.

E aqui vai outro exemplo: eu precisava fazer um galho com cristais. Leva um bom tempo para pensar em como cada um deles ficará. Eu dei um exemplo de Midjourney, e isso gerou uma infinidade desses cristais. Depois disso, escolhi a geração que mais me convinha, adicionei a semente necessária (ou seja, a variável dessa geração) ao prompt e rapidamente obtive material gráfico suficiente, que acabei usando no ícone.

Então comecei a experimentar a difusão estável. Ele permite que você tome como base um modelo já criado, adicione suas imagens e treine-o neste conjunto de dados. Naquela época, nosso projeto havia acumulado muitos bons ícones no estilo necessário, que poderiam ser usados ​​para conjuntos de dados.

Stable Diffusion tem vários métodos de treinamento: extensão Dreambooth, Hypernetwork, LoRA. A ideia era testar cada um deles e ver o que daria certo. Descartamos LoRA imediatamente porque é mais adequado para rostos e retratos. No entanto, a extensão Dreambooth funcionou bem.

Treinar um modelo é um empreendimento arriscado. A princípio, você pode ter a sensação enganosa de que vai treiná-lo com sucesso uma vez e depois colher os benefícios. Mas quando você começa a perceber quantos detalhes precisam ser levados em conta… Se você vê que os resultados não são bons, precisa recomeçar. Quase todos os modelos de IA exigem muito das placas de vídeo e, se o seu computador tiver memória de vídeo limitada, o retreinamento levará mais três horas. Como resultado, qualquer pequeno erro estende o processo e não há garantia de que o resultado será bom o suficiente para ser usado.