Sinais diacríticos
Todos por preguiça escrevemos as notas, o correio eletrónico ou outros textos sem os sinais diacríticos. Os colegas enviam-nos seus comentários e outras propostas também escritas sem os sinais diacríticos. No momento da correção do texto final (gramatical e estilística) temos que completar as palavras com os sinais diacríticos correspondentes. Nem depois de passar o texto várias vezes pelo corretor ortográfico descobrimos todos os erros uma vez que a palavra sem sinais diacríticos existe também e tem o seu próprio significado.
Neste momento vem Lingea com outro instrumento linguístico que oferece dois níveis de solução:
1. O módulo associará a cada palavra sem sinais diacríticos todas as variantes corretas possíveis com todos os sinais diacríticos.
2. Uma solução completamente automática transformará um texto sem sinais diacríticos ao texto com sinais diacríticos.
Parte linguística
A solução baseia-se na descrição formal da morfologia através da qual somos capazes de encontrar todas as variantes corretas possíveis. Pode ser mais do que uma palavra encontrada, por exemplo à palavra esta associar-se-ão as variantes está ou esta. Se quisermos obter as traduções absolutamente automáticas, temos que incorporar alguma coisa mais. Trata-se dos métodos estatísticos baseados no corpo extenso dos textos corretos. Graças a isto podemos escolher de todas as possibilidades a variante mais conveniente tendo em conta o contexto da palavra o de toda a oração.
Soluções de software
A primeira parte da solução é muito simples. Trata-se de uma função que pesquisa todas as possibilidades com sinais diacríticos de dada palavra. Apoia-se apenas no dicionário morfológico de uma língua concreta. O seu tamanho costuma ser de 1 MB como máximo.
A segunda parte é mais complexa desde o ponto de vista da memória porque trabalha com um modelo cujo tamanho é de uns gigabytes. É possível introduzir também um texto no formato HTML, o módulo guarda a forma original e apenas adiciona os seus sinais quem marcam as palavras alteradas.