Foi anunciado pelo primeiro-ministro, Luís Montenegro, na noite de abertura da Web Summit, o modelo de Inteligência Artificial (IA) português. Sabe-se agora que se chama ‘Amália’ e que a sua versão final será lançada em 2026. Contudo, no próximo ano pode esperar pela versão beta.
"Estou a falar português para vos poder dizer aqui e agora, em primeira mão, que no primeiro trimestre de 2025 vamos lançar um LLM português - Large Language Model - para inovarmos em português, preservando o nosso idioma e utilizando a nossa cultura ao serviço da inovação", anunciou Montenegro no dia 11 de Novembro, numa das maiores cimeiras tecnológicas, em Lisboa.
Agência Lusa , 11 Novembro 2024 - 19:41
Neste Explicador conheça o que se sabe para já deste "grande modelo de linguagem" em português.
Antes de mais é preciso entender o que é um Large Language Model. Os LLMs são um tipo de modelo de Inteligência Artificial criado para entender e gerar texto.
Segundo o IBM, os LLM são uma categoria de modelos de base de Inteligência Artificial que são treinados com uma quantidade imensa de dados, que os tornam capazes de entender e gerar linguagem natural, assim como outros tipos de conteúdos para executar uma grande variedade de tarefas.
Os LLM representam um avanço significativo do processamento de linguagem natural (NLP) e da IA, sendo facilmente acessíveis ao público por meio de interfaces como o Open IA Chat GPT-3 e o GPT-4.
“Em poucas palavras, os LLMs são projectados para entender e gerar texto como um humano, além de outras formas de conteúdo, com base na vasta quantidade de dados utilizados para treiná-los”, refere.
A ‘surpresa’ do LLM português veio com outra novidade: o lançamento estava previsto para 2025. Contudo, de acordo com a Agência Lusa, o modelo de linguagem, baptizado de Amália, só ficará finalizado em 2026.
O LLM português será desenvolvido por um consórcio colaborativo de centros de investigação ligados à universidades de Lisboa (Faculdade de Ciências e Tecnologia da Nova e Instituto Superior Técnico, da Universidade de Lisboa), em articulação com a Fundação para a Ciência e a Tecnologia e o Centro para a IA Responsável.
Em entrevista à agência noticiosa, Paulo Dimas, director executivo do Centro para a IA Responsável, confirmou a data de finalização. Disse ainda que se trata de um “projecto de 19 meses”. Ainda assim, a versão beta vai, efectivamente, ser lança no primeiro trimestre do próximo ano.
A primeira versão “não será tão perfeita”, mas antes “beta, inicial, para começar a ter 'feedback' e, ao longo do tempo, vai sendo melhorada”.
O projecto tem três pontos fundamentais: a variante linguística – português de Portugal, a representatividade cultural e a protecção de dados.
À Lusa disse: "Vamos estar a trabalhar em cima de trabalho já desenvolvido por estes centros de investigação: portanto, há trabalho de vários anos nesta área, tanto na área dos dados para a língua portuguesa, trabalho feito pelo centro de investigação da Nova Faculdade de Ciências e Tecnologia (FCT), há trabalho feito também no âmbito do Técnico" e "também há trabalho que vai ser transferido do lado da Unbabel, por toda a experiência" que a tecnológica "tem a criar modelos multilíngue e modelos que estão sendo, neste momento, treinados em supercomputadores".
A equipa que estará a trabalhar na ‘Amália’ tem “muitos anos de experiência nesta área”.
Para Paulo Dimas o LLM português representa uma “peça-chave no ecossistema nacional de inteligência artificial” porque “em cima deste LLM vai ser possível criar novas aplicações de inteligência artificial onde a língua portuguesa está preservada, onde nós temos controlo sobre a língua portuguesa”.
Como pode ser utilizada esta ferramenta?
O director executivo do Centro para a IA Responsável é também vice-presidente de inovação da Unbabel. Referiu, na entrevista, um dos projectos “mais emocionais” que já desenvolveu – o Halo.
O projecto Halo permite “recuperar a capacidade de comunicação de doentes que sofrem de Esclerose Lateral Amiotrófica [ELA]", já que estes perdem a capacidade de escrever e falar porque têm uma incapacidade muscular geral.
"A única forma de voltarem a comunicar com as pessoas de quem gostam mais, com a família, com os cuidadores, é através de tecnologia de comunicação alternativa e aumentativa. Nós, com a inteligência artificial, conseguimos clonar a voz de pacientes" e "já estamos a trabalhar com pacientes de ELA que voltaram a falar", relata.
Todavia, a fala resulta de texto que é, muitas vezes, produzido na variante falada no Brasil, o que “não é nada natural”.
Mas não é só na área da saúde que esta ferramenta pode ser utilizada. “Podemos, por exemplo, trabalhar em cima deste modelo na área da educação e fazer com que as nossas crianças aprendam nas escolas com um tutor personalizado que sabe o currículo educativo nacional".
Trata-se de "um recurso tecnológico nacional que é transversal a todas as áreas da nossa sociedade, da investigação e das 'startups'”, e nestas últimas “vai ser uma peça importante” porque “ela, no princípio, não vai falar”, mas “temos uma Amália a escrever português correto, português falado em Portugal e uma base para a tal representatividade cultural" e, "definitivamente, conhecer mais sobre a cultura portuguesa".
Um parceiro "muito importante" nesta iniciativa "vai ser a Agência para a Modernização Administrativa, a AMA", porque vai ser a forma de "transpor este LLM, esta tecnologia, para a Administração Pública".