Unicamp: Programa de computador detecta notícias científicas veiculadas pela Internet



Programa é capaz de identificar textos sobre ciência e tecnologia publicados por jornais na versão on-line

Novo programa de computador é capaz de ler e identificar automaticamente matérias de ciência e tecnologia em textos jornalísticos. O Sapo (nome dado a partir da sigla em inglês de Science Authomatic Press Observer – Observador Automático de Imprensa Científica) foi criado no Laboratório de Estudos Avançados em Jornalismo (Labjor) da Universidade de Campinas (Unicamp). De acordo com seus idealizadores, o Sapo quase não erra. Do material classificado como científico pelo software, 95% foi confirmado como correto por examinador humano.

Trata-se de um banco de dados que coleta, seleciona e organiza os conteúdos de ciência e tecnologia. “É um sistema que permite baixar o conteúdo de alguns jornais diários e detectar, com bom grau de confiabilidade, as matérias que tratam de ciência, tecnologia, inovação, incluindo temas como meio ambiente, políticas de ciência e tecnologia, saúde e medicina”, resume um dos responsáveis pela criação da ferramenta, Yurij Castelfranchi, pesquisador do Labjor.

A principal vantagem no uso desse sistema é que dispensa a leitura integral do jornal quando se quer saber tudo o que está publicado a respeito de um assunto específico, esclarece o pesquisador. “Para quem faz estudos de análise de conteúdo ou de discurso da ciência nos jornais, a ferramenta permite economizar tempo e recursos. O invento tem como público-alvo pesquisadores, jornalistas e instituições interessadas nesse tipo de informação”.

Barômetro da mídia

Outro recurso possibilitado pelo detector científico, acrescenta Castelfranchi, é o fornecimento de estatísticas sobre a presença e o impacto da ciência e tecnologia (C&T) na mídia. Um mecanismo de busca permite analisar tópicos específicos. Isso pode ajudar quando se nota que os temas científicos e tecnológicos não estão concentrados nos cadernos de ciência dos jornais, mas dispersos por toda a publicação. Essa constatação foi obtida pelos pesquisadores ao aplicar o sistema aos diários brasileiros.

“Para quem estuda C&T na mídia, pode ser muito útil, pois separa um corpus de matérias sobre o assunto. É possível, por exemplo, analisar a linguagem usada pela mídia ao tratar de C&T, quais emoções são mobilizadas, que tipos de noticias são mais tratadas, que metáforas e imaginários comparecem e como a figura do cientista é explicada e descrita”, diz Castelfranchi.

Criado como instrumento de pesquisa de estudos de mídia, de jornalismo científico, da ciência e sociedade, ele pode fazer avaliação da cobertura jornalística em termos quantitativos e qualitativos e ser expandido para outras áreas do conhecimento em qualquer mídia eletrônica, completa o pesquisador: “O sistema funciona como uma espécie de ‘barômetro’ da C&T na mídia. Compara os diferentes veículos, mostra a porcentagem de espaço e a freqüência com que matérias científicas aparecem, permite comparar políticas editoriais e tipologias de editorias científicas, entre outras possibilidades”.

Detector científico

O campo de atuação do invento está restrito, por enquanto, à busca de conteúdo científico publicado na Internet por quatro diários brasileiros. O Sapo percorre as edições disponíveis para assinantes dos jornais Folha de S. Paulo, O Estado de S. Paulo, Jornal do Brasil e O Globo. Foram escolhidos os de maior tiragem no País, distribuídos nas duas cidades mais importantes e populosas, São Paulo e Rio de Janeiro.

A tarefa do detector eletrônico é capturar os textos que tratam de ciência e tecnologia a partir de palavras-chave que foram selecionadas pelos inventores do sistema. Os termos típicos do discurso científico foram agrupados em cinco filtros: disciplinas, instituições, prática da ciência e palavras técnicas de humanas ou exatas. Ao identificar qualquer das palavras-chaves no texto jornalístico, a ferramenta automaticamente aplica uma pontuação para definir se o conteúdo da matéria é científico ou não.

Se o programa não consegue chegar a uma conclusão, encaminha o material para inspeção de um observador humano. Do total de material classificado como indefinido, cerca de 60% é confirmado como de C&T.

Aprender com os erros

“Estamos planejando incrementar o invento com um sistema mais sofisticado de filtragem, baseado em inteligência artificial e outras tecnologias. Assim, o Sapo poderá aprender com seus próprios erros e produzir de forma dinâmica seus próprios filtros para selecionar temas gerais”, afirma Castelfranchi.

Para criar o Sapo, pesquisadores do Labjor, estagiários e bolsistas, mais os programadores da Cooperativa de Soluções Livres (Solis) trabalharam durante mais de três anos em pesquisa, desenvolvimento e aperfeiçoamento dos filtros. O projeto foi apoiado pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp).

Claudeci

01/18/2007


Artigos Relacionados


Unicamp: Técnica detecta substâncias estranhas ao mel

Unicamp: Técnica detecta substâncias estranhas ao mel

Pesquisadora da Unicamp desenvolve computador que fala

Programas de computador do painel são analisados em laboratório da Unicamp

HC da Unicamp está entre os dez hospitais da América Latina com mais citações científicas

HC da Unicamp está entre os dez hospitais da América Latina com mais citações científicas