Iniciação Científica – com bolsa
Área: Processamento de Linguagem Natural e Segurança Pública
De forma geral, o objetivo do projeto é automatizar a extração de informação de bases textuais em português coloquial e popular.
Este projeto visa melhorar a acurácia na identificação das entidades nomeadas (Quem, Quando e Onde um crime é cometido), para automatizar a extração de informações e acelerar a transmissão da informação para os órgãos de Segurança Pública.
Além disso, devido ao fato de que o texto, foco do trabalho, ser bastante precário tanto léxico, sintático como semântico, o desenvolvimento das soluções precisa ter atenção especial e dedicação à etapa pré-processamento dos dados, visando melhores resultados.
Entre os objetivos específicos enumera-se:
1) Avaliação de outras bases textuais populares obtidas a partir de redes sociais, visando o enriquecimento do corpus em linguagem popular já criado;
2) Ajuste da base já rotulada com Entidades Nomeadas para Local, Pessoa e Tempo, para seguir o método IOBES (também chamado de BILOU), visando melhorar a qualidade do aprendizado
3) Avaliação de aplicação para identificação de Entidades Nomeadas (já desenvolvido) com o word embedding original (baseado em textos literários/wikipia) e o novo word embedding (já desenvolvido) com esta nova rotulagem a ser desenvolvida;
4) Desenvolvimento de modelo baseada em BERT (Transformers/Deep Learning) para REN aplicado à textos em português coloquial.
Enviar histórico para karlafigueiredo@ime.uerj.br
- Pública