Uma Abordagem Híbrida para Predição de Faixa Etária de Autores de Textos Escritos na Língua Portuguesa

Alice Rezende Ribeiro, Luiz Henrique de Campos Merschmann


Abstract
A crescente quantidade de textos disponíveis na Web torna as ferramentas de mineração de texto essenciais para a extração de informações valiosas para diversas aplicações. No entanto, além dos próprios textos, conhecer as características de seus autores é crucial para algumas organizações. Como os textos podem ser publicados anonimamente, é crescente o interesse em pesquisas voltadas para a criação de técnicas computacionais para inferir as características demográficas de seus autores. Apesar disso, para o problema da predição da faixa etária de autores de textos escritos na língua portuguesa, a quantidade limitada de recursos e o baixo desempenho preditivo evidenciam a necessidade de mais pesquisas focadas nessa tarefa. Assim, este trabalho propõe e avalia uma abordagem que, além de um classificador tradicional, utiliza dicionários de palavras para capturar as especificidades do domínio textual e aprimorar o desempenho preditivo da tarefa de predição da faixa etária. Os resultados experimentais obtidos com a abordagem proposta mostram que explorar as características do domínio dos textos pode contribuir positivamente para o desempenho dessa tarefa.
Anthology ID:
2026.propor-1.31
Volume:
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Month:
April
Year:
2026
Address:
Salvador, Brazil
Editors:
Marlo Souza, Iria de-Dios-Flores, Diana Santos, Larissa Freitas, Jackson Wilke da Cruz Souza, Eugénio Ribeiro
Venue:
PROPOR
SIG:
Publisher:
Association for Computational Linguistics
Note:
Pages:
311–320
Language:
URL:
https://preview.aclanthology.org/ingest-dnd/2026.propor-1.31/
DOI:
Bibkey:
Cite (ACL):
Alice Rezende Ribeiro and Luiz Henrique de Campos Merschmann. 2026. Uma Abordagem Híbrida para Predição de Faixa Etária de Autores de Textos Escritos na Língua Portuguesa. In Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 311–320, Salvador, Brazil. Association for Computational Linguistics.
Cite (Informal):
Uma Abordagem Híbrida para Predição de Faixa Etária de Autores de Textos Escritos na Língua Portuguesa (Ribeiro & Merschmann, PROPOR 2026)
Copy Citation:
PDF:
https://preview.aclanthology.org/ingest-dnd/2026.propor-1.31.pdf