Pesquisadores
utilizam software para analisar a evolução da língua portuguesa no Brasil.
Programa
contou quantas vezes os pronomes ‘tu’ e ‘você’ aparecem em cerca de 70 mil
textos
RIO - Contar quantas vezes
os pronomes “tu” e “você” são utilizados em cerca de 70 mil textos escritos em
português, publicados entre os séculos XIII e XXI, é uma tarefa impossível para
o ser humano, mas não para uma máquina. E os resultados dessa contagem são
reveladores da transformação da língua escrita no Brasil. Foi isso que o
mexicano Cuauhtémoc García-García, um estudante de pós-graduação em Culturas
Ibéricas e Latino-americanas da Universidade de Stanford, na Califórnia, fez
nos últimos 18 meses em parceria com o biólogo Marcus Feldman, professor da
instituição e um dos pioneiros nos estudos sobre evolução cultural, e o
linguista brasileiro Agripino Silveira: utilizou um software para analisar como
o registro escrito do português mudou ao longo dos séculos.
Tudo começou quando
García-García frequentava as aulas de Lyris Wiedemann, professora brasileira
que é conferencista-sênior em Stanford, e ela explicava o uso dos pronomes. Ele
ficou impressionado que o “tu”, a segunda pessoa do singular, fosse substituído
por “você”, com os verbos conjugados na terceira pessoa do singular. Afinal,
por que os brasileiros utilizam a “terceira pessoa” para se referir a “segunda
pessoa?”. Fascinado pelas obras do professor emérito de Genética da
universidade, Luca Cavalli-Sforza, que realizou pesquisas sobre as origens das
línguas e sua evolução, percebeu que poderia abordar a questão de uma maneira
diferente.
— Meses depois (das aulas de
português), um grupo de Harvard publicou um artigo na revista “Science”
demonstrando o princípio de que era possível utilizar o “data mining” (o
processo de explorar grandes quantidades de dados em busca de padrões e
relações entre variáveis) em uma grande quantidade de livros para extrair
informações sobre tendências culturais. A conexão entre o “data mining” e a
evolução da língua ficou então óbvia. Eu disse para mim mesmo que poderia
utilizar um grande material digitalizado na busca por respostas sobre as
divergências na evolução do português no Brasil e na Europa — conta o estudante,
em entrevista por e-mail ao GLOBO.
O primeiro passo era
conseguir acesso a todos os textos em português digitalizados da biblioteca da
universidade. Para a sua sorte, anos antes, várias instituições americanas
fizeram uma parceria com o Google neste sentido e, por ser aluno de Stanford,
García-García tinha o direito de acessá-los. Só que o caminho não foi tão
simples. Todas as obras publicadas depois de 1923 são protegidas por direito
autoral. Foi preciso deixar claro que eles não seriam desrespeitados durante a
pesquisa, o que levou alguns meses. Resolvido este problema — com a ajuda dos
curadores GlenWorthey, Adan Griego e Everardo Rodrígues —, o desafio seguinte
foi “limpar” os textos: muitas vezes, o material digitalizado carrega erros do
processos. Era essencial identificá-los e excluí-los, assim como as eventuais
repetições.
Terminada esta etapa, a base
de dados estava finalmente pronta para ser analisada. A decisão de começar a
pesquisa pelos pronomes foi tomada porque a sua utilização é capaz de revelar
diversos aspectos da evolução da língua. Além, é claro, da própria curiosidade
de García-García. Uma das conclusões do trabalho foi a confirmação de que a
transformação do registro escrito foi muito mais lento do que o idioma falado
pelos brasileiros porque Portugal proibiu, por 276 anos, a criação de
universidades e a impressão de livros e jornais no Brasil, tese já defendida
por especialistas na área. É possível também, segundo o pesquisador, fazer uma
associação entre o uso dos pronomes e a cronologia dos movimentos literários no
país.
— Neste caso particular,
penso que é possível estabelecer uma conexão. No romantismo brasileiro, os
autores usavam “tu” nos seus romances; contudo, a geração dos escritores
realistas preferiram usar “você”. Nós fizemos uma rigorosa análise estatística
e demonstramos que há uma clara distinção na preferência pronominal entre os
dois grupos. É interessante notar que os escritores naturalistas, muitas vezes
associados aos românticos, na realidade utilizam mais “você”.
As pesquisas de
García-García e Feldman continuam, agora com outros objetivos, que ele prefere
não adiantar antes de chegar a resultados conclusivos. Contudo, apesar da
empolgação com a utilização do “data-mining” para estudar línguas, ele
reconhece que existem limitações.
— A primeira limitação é que
nós restringimos nossa pesquisa à linguagem escrita. Isso é muito significante
no caso do Brasil, dado o histórico de restrição a publicações de qualquer
tipo. Nestes 276 anos, não foi produzido um corpo de textos que refletissem as
transformações que ocorriam na língua falada. O que nós sabemos, baseado nos
trabalhos de linguistas, é que a língua estava mudando mas não há registros que
possam ser analisados. Leonardo Cazes –
Brasil in “O Globo”
Sem comentários:
Enviar um comentário