INTEGRACIÓN Y CONOCIMIENTO |
N° 5 |
|
|
ISSN 2347 - 0658 |
Vol. 2 Año 2016 |
|
|
PROJETO RITA: COOPERAÇÃO, PROCESSAMENTO
DE LINGUAGEM E LINGUÍSTICA
Maria José Bocorny Finatto Universidade Federal do Rio Grande do Sul, Brasil mfinatto@terra.com.br
Laura Alonso Alemany Universidad Nacional de Córdoba, Argentina alemany@famaf.unc.edu.ar
PRESENTACIÓN
Este artículo presenta los objectivos y algunos resultados alcanzados en el marco del proyecto “RITA - RIch Text Analysis through Enhanced Tools based on Lexical Resources”. Este proyecto fue seleccionado en la Convocatoria de 2013 del Programa
ORIGEM E OBJETIVOS DO PROJETO RITA
Este relato apresenta os objetivos propostos e algus dos resultados alcançados no âmbito do projecto “RITA - RIch Text Analysis through Enhanced Tools based on Lexical Resources”. Este projeto foi selecionado na Chamada Internacional de 2013 do Programa
127
Relatos de experiencias
INTEGRACIÓN Y CONOCIMIENTO |
N° 5 |
|
|
ISSN 2347 - 0658 |
Vol. 2 Año 2016 |
do Rio Grande do Sul (UFRGS), com sede em Porto Alegre, e da Universidade Federal de São Carlos (UFSCar), cuja sede se localiza na cidade de São Carlos, interior do Estado de São Paulo. Também estiveram oficialmente envolvidos, até 31/07/2016, no Projeto RITA, pesquisadores de Universidades da Argentina – Universidad Nacional de Córdoba, Uruguai – UDELAR - Universidad de la Republica, e da França, Université Paris Nanterre e Université
ESCOPO DE TRABALHO E PESQUISA
O principal objetivo do projeto RITA foi criar um quadro para integrar os recursos e capacidades de cada grupo nacional, especialmente no âmbito da pesquisa em Processamento da Linguagem Natural (PLN). O PLN, no Brasil, também é conhecido por Linguística Computacional ou Processamento de Língua Natural (para mais detalhes sobre a área no Brasil, vale consultar, por exemplo, Pardo et al. 2010).
PLN, dito grosso modo, conforme Evers, Finatto (2016), pode ser entendido como uma subárea da Inteligência Artificial, ramo da Ciência da Computação, que reúne métodos formais para analisar textos – normalmente escritos, gerar frases escritas em uma língua natural e também descrever ou sistematizar conteúdos expressos em textos ou em acervos textuais. O objetivo final do PLN, nesse sentido, pode ser pensado como o de capacitar computadores para que possam "entender" e "redigir" textos em uma língua natural. Nesse "entender", estão as capacidades de, automaticamente, reconhecer um contexto de significação, fazer a análise sintática, semântica, léxica e morfológica de frases em textos, criar resumos, extrair informação, interpretar sentidos e até "aprender" noções ou significados de palavras ou de expressões fazendo uso de padrões depreendidos de textos processados.
Para exemplificar algo que a pesquisa PLN gerou e que usamos cotidianamente, podemos citar os sistemas de tradução automática ou mesmo os corretores ortográficos que usamos nos
128
Relatos de experiencias
INTEGRACIÓN Y CONOCIMIENTO |
N° 5 |
|
|
ISSN 2347 - 0658 |
Vol. 2 Año 2016 |
nossos computadores ou telefones celulares. Qualquer pessoa que use uma ferramenta de processamento de texto, perceberá que há ali, embutido, um “programa” que destaca desvios ortográficos e gramaticais e até propõe correções – algumas equivocadas, mas outras muito adequadas. Os primeiros corretores ortográficos, criados no âmbito do PLN, funcionavam pela comparação simples de uma lista de palavras extraídas do texto que se digitava com uma lista de palavras (dicionário de palavras do programa) corretamente grafadas. Essa era e ainda é uma tarefa bem simples, que não demandava processamento complexo.
Essas ferramentas de PLN – como os corretores, hoje,
Pois bem, no âmbito de pesquisas em PLN, de diferentes graus de complexidade, conforme tentamos situar o nosso leitor, buscamos um cenário em que fosse posível integrar as expertises e os interesses de cada grupo universitário de pesquisa,
Reunindo especialistas de PLN e de Linguística de diferentes países e núcleos acadêmicos, nosso objetivo comum era alcançar um reforço ao nível dos tratamentos computacionais no nível
a.explorar e desenvolver ferramentas para análise
b.explorar e comparar de métodos para criar e enriquecer analisadores
c.desenvolver de métodos para integrar léxicos enriquecidos em diferentes aspectos no processo de análise
d.desenvolver de métodos genéricos para extrair expressões multipalavra (multiword
129
Relatos de experiencias
INTEGRACIÓN Y CONOCIMIENTO |
N° 5 |
|
|
ISSN 2347 - 0658 |
Vol. 2 Año 2016 |
expressions) típicas e recorrentes de determinados textos e obter a sua integração na análise
e.desenvolver de métodos genéricos para identificação dos argumentos verbais e seus papéis semânticos e temáticos (isto é, identificar “sujeitos” e “objetos” que recorrentemente acompanham os verbos de um texto), integrar essa identificação à análise sintático- semântico.
ALGUNS RESULTADOS
Como se pode imaginar, em termos de desafios, nossos objetivos foram ambiciosos, de modo que, para dar conta deles, no tempo de duração projeto, buscamos aproveitar ao máximo o que cada equipe do Projeto RITA já tivesse produzido, além de buscar experiências e resultados obtidos em diferentes centros do mundo. Nesse sentido, em 2014, já organizamos um primeiro workshop para compartilhamento de experiências. Esse workshop ocorreu durante uma dos mais importantes eventos de PLN relacionados ao processamento do Português, o PROPOR (The International Conference on Computational Processing of Portuguese), que ocorreu em São Carlos - SP, de 6 a 9 de outubro de 2014, tendo sido promovido justamente também por colegas do projeto RITA pesquisadores da UFSCar. Nosso workshop foi um evento conexo ao PROPOR e foi denominado ToRPorEsp - Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish.Um interesse especial foi o de facilitar o acesso a tecnologias e recursos que são específicos para Português e Espanhol.
Listamos, a seguir, os títulos dos trabalhos apresentados no nosso ToRPorEsp, salientando que a língua oficial das apresentações no PROPOR é o Inglês (a íntegra dos trabalhos pode ser conferida em <https://sites.google.com/site/torporesp/program/proceedings>) e que recebemos trabalhos de pesquisadores de Portugal, Noruega, Uruguai, Argentina e Brasil, que também apresentaram seus trabalhos no PROPOR:
The CINTIL and LX companion collections of language resources and tools for Portuguese. António Branco, João Silva, Francisco Costa, Sara Silveira, Patricia Gonçalves and João Rodrigues
Desarrollo de un parser HPSG estadístico para el español. Luis Chiruzzo and Dina Wonsever
Improving the Verb Lexicon of
Enriquecendo o Córpus CSTNews – a Criação de Novos Sumários Multidocumento. Márcio Dias, Thiago Pardo, Maria Lucia Castro Jorge, Alessandro Garay, Carla Chuman, Cláudia Barros, Erick Mazieiro, Fernando Nóbrega, Jackson Souza, Marco Cabezudo, Marina Delege, Naira Silva, Paula Cardoso, Pedro Balage, Roque Lopes, Vanessa Marcasso, Ariani Felippo and Maria Nunes
Lexical Resources for the Identification of Causative Relations in Portuguese Texts. Brett Drury, Paula Cardoso, Janie Thomas and Alneu de Andrade Lopes.
130
Relatos de experiencias
INTEGRACIÓN Y CONOCIMIENTO |
N° 5 |
|
|
ISSN 2347 - 0658 |
Vol. 2 Año 2016 |
|
|
Beyond the automatic construction of a lexical ontology for Portuguese: resources developed in the scope of Onto.PT. Hugo Gonçalo Oliveira
Filling the gap: inserting an artificial constituent where a subject is omitted in Portuguese. Nathan Hartmann, Magali Duran and Sandra Aluísio
Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso. Paulo César Polastri, Helena De Medeiros Caseli and Eloize Rossi Marques Seno
Extending
O Tratamento de Marcadores Discursivos em uma Ferramenta de Apoio à Escrita Acadêmica em Português Para Nativos de Espanhol. Lianet Sepúlveda Torres, Magali Sanches Duran and Sandra Maria Aluísio
Nos bastidores da Gramateca: uma série de serviços. Alberto Simões and Diana Santos
O Corpus CSTNews e sua Complementaridade Temporal. Jackson Souza and Ariani Di Felippo
Aprendizado de Máquina
Towards a Phonetic Brazilian Portuguese Spell Checker. Lucas Vinicius Avanço, Magali Sanches Duran and Maria Das Graças Volpe Nunes
Building a Corpus for Named Entity Recognition using Portuguese Wikipedia and DBpedia. Cristofer Weber and Renata Vieira
Uma análise do perfil de entropia das estruturas sintáticas do português. Marcely Zanon Boito, Luiza Hagemann, Rodrigo Wilkens and Aline Villavicencio
Depois do ToRPorEsp, realizamos uma série de missões de trabalho – entre docentes pesquisadores e missões de estudos entre pesquisadores
Também realizamos, em Porto Alegre, pela UFRGS, o Segundo Workshop do Projeto RITA, nos dias 17 e 18 de março de 2016, tendo contado com os apoios financeiros suplementares do Programa de
“Processamento do portugueŝ e do espanhol, bases para um dicionarió de homografoś do portugueŝ do Brasil e do espanhol
131
Relatos de experiencias
INTEGRACIÓN Y CONOCIMIENTO |
N° 5 |
|
|
ISSN 2347 - 0658 |
Vol. 2 Año 2016 |
Nesse encontro, também contamos com a participação de uma doutoranda em Linguística da Universidade de Federal de Santa Catarina (UFSC), que finalizava seu trabalho sobre aspectos da tradução de obras argentinas e uruguaias para o português do Brasil a partir de técnicas de contraste estatístico de padrões de correspondências tradutórias. Por sua vez, equipe do Uruguai do Projeto RITA, coordenada pela Profa. Dra. Ailá Rosá, da UDELAR, também nos brindou com a apresentação de seus trabalhos relacionados ao tema da construção de um dicionário computacional de homógrafos
Ao final do Segundo Workshop do Projeto RITA, em uma reunião de encerramento, foram delineadas propostas de novos trabalhos em conjunto a serem apresentados em eventos e submetidos a publicações até dezembro de 2016.
PERSPECTIVAS
O projeto RITA se encerra oficialmente no Brasil em 31/12/2016, com paoio da CAPES, com uma série de resultados positivos, especialmente em termos de trabalhos conjuntos e do conhecimento e reconhecimento mútuo de diferentes pesquisadores e de suas conexões, especialmente os do âmbito do MERCOSUL. Com certeza, os núcleos do Brasil, Argentina e Uruguai puderam aprender muito uns com os outros e vivenciar diferentes realidades da pesquisa em PLN em parceria com as pesquisa em Linguística no âmbito
REFERÊNCIAS
Pardo, T., Gasperin, C., Caseli, H. y Nunes. M. (2010). Computational Linguistics in Brazil: An Overview. In the Proceedings of the
Evers, A. Finatto, M. (2016). Linguística de Corpus,
Recibido: 01 de octubre de 2016 - Aceptado: 27 de octubre de 2016
132
Relatos de experiencias