Estudios y experiencias
USO DA MINERAÇÃO DE TEXTO EM FONTES INFORMACIONAIS PARA GRUPOS DE PRODUTORES RURAIS
Oct 31 2024
Abstract
Observando como necessário o uso de ferramentas tecnológicas para analisar elementos de campos informacionais, as quais possibilitem reconhecer ligações entre fontes de dados às que têm acesso determinados sujeitos, esta pesquisa se situa no contexto de dados publicados para grupos de produtores rurais, indagando em duas fontes, comunicações para grupos de produtores e em datasets disponibilizados pelo governo do Brasil para esse setor. O objetivo é constatar a aderência lexical entre unidades extraídas desde notícias publicadas em um site para grupos de produtores do Brasil, e rótulos de datasets publicados pelo governo, usando como marco de análise necessidades informacionais. Os procedimentos metodológicos incluem revisão bibliográfica, técnica 5W1H, técnicas de mineração de textos e cálculo de similaridade mediante linguagem R. Os resultados mostram que existe uma comunicação insuficiente, pois, das cinco categorias de necessidades ponderadas, houve proximidade unicamente com uma, Crédito. Desde o ponto de vista da similaridade entre as duas fontes, entende-se como favorável em um primeiro nível na busca de inteligibilidade entre estas, sem deixar de assinalar a existência de palavras que precisam de esforços adicionais para melhor contextualização e possível interpretação por parte dos sujeitos alvo. Estudos futuros objetivam contrastar o procedimento realizado com outras medidas de similaridade, reprodução em outras fontes de informação e em outros contextos socioeconômicos.
Abstract
Observing the need for technological tools to analyze elements of informational fields and recognize links between data sources accessed by certain subjects, this research examines data published for groups of rural producers. It focuses on communications for these groups and government datasets from Brazil. The objective is to verify lexical adherence between units extracted from news for producers in Brazil and government datasets, analyzing informational needs. The methods include a literature review, the 5W1H technique, text mining techniques, and similarity calculation in R. The results indicate insufficient communication, with proximity only in the Credit category. The similarity between the two sources is favorable at an initial level, but there is a need for better contextualization of some words. Future studies aim to contrast this procedure with other similarity measures and apply it to different sources and socioeconomic contexts.
Resumen
Observando la necesidad de herramientas tecnológicas para analizar elementos de campos informacionales y reconocer enlaces entre fuentes de datos a las que acceden ciertos sujetos, esta investigación examina datos publicados para grupos de productores rurales. Se enfoca en comunicaciones para estos grupos y conjuntos de datos del gobierno de Brasil. El objetivo es verificar la adherencia léxica entre unidades extraídas de noticias para productores en Brasil y conjuntos de datos gubernamentales, analizando necesidades informacionales. Los métodos incluyen una revisión bibliográfica, la técnica 5W1H, técnicas de minería de textos y el cálculo de similitud en R. Los resultados indican una comunicación insuficiente, con proximidad solo en la categoría de Crédito. La similitud entre las dos fuentes es favorable a un nivel inicial, pero se necesita una mejor contextualización de algunas palabras. Estudios futuros tienen como objetivo contrastar este procedimiento con otras medidas de similitud y aplicarlo a diferentes fuentes y contextos socioeconómicos.
1. Introdução
O campo informacional se constitui em uma alternativa para perceber caraterísticas de relações entre distintos ciclos de vida de dados que interagem, e é particularmente útil no estudo do acesso a dados, pois possibilita a construção de pontos de vista e dimensões de posicionamento para os pesquisadores (SANT’ANA, 2019). Essa alternativa surge diante das permanentes transformações nos fluxos de dados e informações, e da riqueza dos atributos que descrevem o acesso a dados, mantendo ativa a demanda por pesquisas sobre detalhes de um cenário, onde, como expressado por Barreto (2), copiosas transformações ainda nem estão sendo percebidas.
Neste enquadramento, entende-se a necessidade do uso de ferramentas para analisar elementos de campos informacionais, coletando indícios sobre a ligação entre uma e outra fonte de dados às que tem acesso determinado sujeito informacional.
Esta pesquisa se situa em dados publicados para grupos de produtores rurais, indagando em duas fontes, em comunicações para produtores vinculados ao setor associativo brasileiro, e em datasets disponibilizados pelo governo do Brasil para o mesmo setor.
O objetivo do estudo é constatar a Aderência Lexical a dados publicados pelo governo do Brasil, usando como marco de análise necessidades informacionais de pequenos produtores.
Para atingir o propósito foram utilizadas revisão bibliográfica, técnica 5W1H, técnicas de mineração de textos e cálculo de similaridade entre textos mediante linguagem R, e software para planilhas eletrônicas.
Pretende-se formular argumentos que expliquem condições de acesso baseadas em eventos regulares nas fontes de dados escolhidas, visando, mediante o uso de categorias de necessidades informacionais, uma manifestação das proximidades lexicais entre dados de duas fontes, observada como elemento de análise dos fluxos de informação (BORKO, 1968), e propendendo pelo aprimoramento da experiência humana ao participar de ambientes informacionais (CAMPEROS-REYES, 2020).
2. Percurso metodológico
Como caminho para entender os elementos circunstanciais que a perfilam a coleta dos dados, por um lado, grupos de produtores rurais, e de outro o detentor governo, foi usada a técnica 5W1H. Ela corresponde à sigla de seis questões, What, Where, Who, When, Why, How (O que, Onde, Quem, Quando, Porque, Como), ordenadas da menor à maior importância, proposta por Aristóteles, como um esquema retórico que permite descrever algo mediante enunciados coerentes (SLOAN, 2010).
O uso de 5W1H se adota como plano de ação que de forma sistemática permite considerar tarefas necessárias para a compreensão do entorno das fontes de dados, e para atingir o fim da fase de coleta em elas, de forma que os resultados da sua aplicação entreguem elementos estruturais para a fundamentação do estudo.
Uma vez definidas as fontes dos dados, foram tratadas nas fases de coleta e análise dos dados conforme as suas particularidades. A mineração de texto foi uma das ferramentas usadas em ambas as fases, ela é um conjunto de técnicas que permite o descobrimento e extração de inferências de relevância a partir de textos escritos na linguagem natural e que não se encontram estruturados. Diversas ações podem ser realizadas com a mineração de textos, recuperação de textos na fonte escolhida, identificação de unidades de análise, classificação e agrupação de textos, bem como identificação de elementos de natureza conceitual a partir dos conteúdos coletados (KAO & POTEET, 2007).
A coleta de dados em comunicações publicadas para grupos de produtores rurais foi realizada mediante mineração de texto com a linguagem R1, atividade executada no mês de março de 2021. Os dados do detentor governo foram coletados no site dados.gov.br mediante o uso dos descritores “pequeno produtor”, “desenvolvimento rural”, “associacao agricultura”, e “cooperativa agricultura”. A coleta realizada no dia 21 de abril de 2021 focou-se nos rótulos dos recursos em conjuntos de dados e nas descrições registradas pelos publicadores. Realizou-se extração manual desses objetos, justificando-se ao ser necessário discriminar a disponibilidade de cada recurso recuperado.
notas
A extensão SelectorGadget permite identificar seletores CSS em websites; foi usada durante o processo de identificação dos blocos de texto que foram coletados. Cf. https://selectorgadget.com/.
Para a análise dos dados foi também aproveitada a utilidade da Linguagem R. Consideraram-se as etapas funcionais da mineração de textos ou mineração textual, que segue as etapas da mineração de dados, onde a diferença fundamental com a primeira rege-se pela qualidade dos dados atingidos, pois, a mineração de dados trata unicamente com dados estruturados. Assim, as fases funcionais da mineração textual são pré-processamento dos dados, mineração central, camada de apresentação, e refinamento (FELDMAN & SANGER, 2006), onde as fases de pré-processamento e mineração central são as mais críticas do processo. Pré-processamento dos dados, fase também conhecida como de preparação dos dados(CASTRO & FERRARI, 2016), institui-se com técnicas que objetivam dispor os dados brutos, neste caso dados não estruturados, para assim depois serem analisados.
Uma vez pré-processados os dados obtidos das duas fontes, foram analisados na mineração central. Ambas as fases provêm as funcionalidades necessárias para atingir o objetivo desta pesquisa.
As tarefas realizadas na fase de pré-processamento, que alcançaram fins tanto da coleta como parte da análise dos dados, foram análise da estrutura dos sites, pastas e subpastas com os objetos a serem coletados, limpeza dos dados, agrupação e tokenização. Sendo que textos na linguagem natural se caracterizam por um fluxo contínuo de texto, para proceder com análises profundas é necessário que esse texto seja dividido em componentes significativos. Esses componentes significativos podem ser caracteres, fonemas, palavras, sintagmas, orações, parágrafos, seções ou capítulos; a segmentação depende do tipo de análise que o estudo demande e é conhecida como tokenização, ou divisão do texto em tokens (FELDMAN & SANGER, 2006).
Um dos aspectos tido em consideração durante a fase de pré-processamento foi a preparação dos dados para o estudo da aderência lexical que usou como marco de análise categorias de necessidades informacionais; isso direcionou para que a tokenização dos textos fosse realizada no nível de palavras.
Para a obtenção da similaridade como índice da aderência lexical entre dados publicados pelo governo e dados das comunicações para produtores, usando como marco de análise categorias de necessidades informacionais, foram usadas as bibliotecas da linguagem R ‘tidytext’, ‘tm’ e ‘philentropy’; as funções ‘findAssocs’ e ‘jaccard’ fizeram trabalho conjunto para a classificação das notícias e conjuntos de dados conforme as necessidades informacionais, e para calcular o índice de similaridade entre grupos de palavras usou-se a ‘jaccard’. Este índice entrega um valor decimal que está entre 0 e 1, sendo que um valor próximo de zero indica baixa similaridade entre os textos comparados.
Conforme a estrutura adotada para os dados durante o pré-processamento, Jaccard foi observada como a função mais pertinente para calcular a similitude entre os conjuntos de palavras que foram conformados, conjuntos de tipo assimétrico: conjuntos de palavras advindos das comunicações para produtores, conjuntos de palavras advindos de rótulos e descrições de datasets, e conjuntos de palavras que descrevem necessidades informacionais de produtores.
Na mineração textual existem diversas funções que calculam similaridade entre conjuntos de dados; a escolha da função depende tanto dos fins da análise quanto da estrutura em que se encontram os dados. Há funções direcionadas a dados simétricos, assimétricos, segundo a natureza, dados binários, categóricos, numéricos, ou para combinações de tipos de dados, ainda podendo ser orientadas para análises de dissimilaridade em dados de essas e outras naturezas. Han et al. (HAN et al., 2012) indicam jaccard como uma opção apropriada para analisar conjuntos de dados como os resultantes da fase de pré-processamento deste estudo. Ainda, considerando o fim dos estudos que usam mineração textual, Huang (10), indica que, não objetivando análises de significado nos dados coletados, Jaccard é uma das opções adequadas.
2.1 Uso da técnica 5W1H
No elemento “O que”, optou-se por coletar textos de comunicações do tipo notícias realizadas em sites de grupos de produtores rurais no Brasil. O motivo dessa escolha é observar nas comunicações alguns dos seus rasgos comuns, identificando mediante técnicas de mineração de texto, indícios da aderência lexical a elementos de dados publicados pelo detentor governo. A linguagem usada nas comunicações, por ser geradas no entorno de agrupações de produtores rurais, é uma linguagem direcionada para alcançar esse público-alvo, portanto, presumem-se escritas com um teor adequado às características de grupos de produtores.
Do lado dados do detentor governo, optou-se pelas descrições e rótulos de datasets e os seus recursos, publicados dentro de categorias relacionadas com agricultura e desenvolvimento rural no site de dados abertos do Brasil.
Abordando os elementos “Onde” e “Quem” do lado do produtor rural, foi necessário avaliar alternativas, no cenário brasileiro, de organizações que tenham como usuários predominantes a grupos de produtores, e ainda, que contem com presença na internet mediante sites que publicam notícias para membros associados, associações e/ou cooperativas. Assim sendo, observando organizações de interesse nacional, foram explorados sites do Brasil e identificadas as organizações consignadas no APÊNDICE B.
Na construção da lista, iniciou-se por considerar instituições da ordem federal na procura de maior abrangência, motivo que permitiu deparar com a Confederação da Agricultura e Pecuária do Brasil (CNA).
A CNA congrega associações e lideranças políticas e rurais em todo o país. Entre suas funções está promover a geração de novas tecnologias para auxiliar ao produtor no plantio e manejo de lavouras, bem como ao fortalecimento das agroindústrias. A CNA congrega federações filiadas no país, constituindo-se como ponte entre as necessidades dessas federações e o Governo Federal, Congresso Nacional e Tribunais Superiores do Poder Judiciário. A intenção é que produtores rurais congregados em federações vejam na CNA um ator determinante para seus interesses, e como uma ponte com estamentos da esfera federal (CONFEDERAÇÃO DA AGRICULTURA E PECUARIA DO BRASIL, 2022a).
A seguir, para os elementos “Onde” e “Quem” para dados do detentor governo, foi determinado recuperar os rótulos e as descrições de datasets no site de dados abertos do governo brasileiro, , em conjuntos de dados recuperados mediante os termos “pequeno produtor”, “desenvolvimento rural”, “associacao agricultura” e “cooperativa agricultura”.
Ao abordar o elemento “Quando”, para a coleta automática dos dados no site escolhido, o da CNA, determinou-se coletar notícias que foram publicadas nos anos de 2019 a 2020.
Do lado do detentor do governo, uma vez explorados os conjuntos de dados, optou-se por coletar todos os recursos publicados até a data da coleta, 28 de abril de 2021, sem descartar algum conjunto de dados. Tomou-se esta determinação devido a que a análise não precisa delimitar a temporalidade dos dados disponíveis desde o lado governamental pois, além de não apresentar um alto volume de recursos, é necessário esgotar as possibilidades de unidades de análises nos conjuntos de dados do lado governo.
“Porque” coletar comunicações do tipo notícias nos sites escolhidos? A coleta dos dados contidos em comunicações, publicadas em sites que divulgam informações para grupos de produtores rurais, se sustenta ao entender-se como meios de manifestação de assuntos e necessidades informacionais dos produtores e para o fortalecimento das suas empresas; considera-se que são objetos determinantes para o sucesso e viabilidade das produções.
Em relação ao “Porque” do uso dos rótulos e descrições dos conjuntos de dados, explica-se em razão de que eles são referências tangíveis ao conteúdo que têm os usuários dos sites de dados abertos. Esses rótulos manifestam as características dos dados outorgando aos usuários uma aproximação às possibilidades de uso de aqueles recursos.
O elemento “Como”, do lado do produtor rural, realizou-se mediante mineração textual. Dada a quantidade de informação que repousa nas notícias divulgadas, disponíveis como dados não estruturados, é possível desvendar inferências sobre a aderência lexical a dados publicados pelo governo ao observar esse texto em palavras como unidades significativas.
Para realizar a coleta automatizada dos dados no site CNA, foi necessário analisar a estrutura geral do site, www.cnabrasil.org.br, a arquitetura da informação do site, nos sistemas de organização e navegação (ROSENFELD et al., 2015). Era necessário descobrir os locais onde são publicadas as notícias, e na sequência, observar a estrutura seguida pelo site em relação à designação das URL das notícias e os elementos CSS contidos.
No site da CNA foi identificado o subdiretório disposto para a publicação das notícias, https://www.cnabrasil.org.br/noticias. A exemplo, nessa URL de notícia, https://www.cnabrasil.org.br/...mercado-de-lacteos, é possível observar que além do domínio aparecem os subdiretórios “notícias” e o próprio da notícia publicada.
Para coletar especificamente as notícias no período da pesquisa, atentou-se às possibilidades do site, sendo observado um sistema de busca que permite a filtragem das notícias. Possui filtros por Instituição, Área de atuação, Tipo de conteúdo, Data de início e Data fim. O único filtro aplicado foi o período 01/jan/2019 até 31/dez/2020.
Assim, em um primeiro momento, para a codificação do algoritmo da coleta dos dados, foi observada a composição das URL das notícias resultantes à aplicação da filtragem. A primeira página dos resultados apresenta o endereço https://www.cnabrasil.org.br/...enddate=31-12-2020, entregando detalhes de como o site organiza na URL os parâmetros de busca e uma possível numeração de todas as páginas recuperadas após a filtragem.
Conforme observação das URL após a filtragem, identificou-se ainda que o próprio site acrescenta o elemento “p1” à URL desde o primeiro resultado da busca, agindo como controlador das páginas no formato “pn”2, sendo esse um contador que possibilitou coletar de forma automática cada página dos resultados mediante programação em R.
Sendo n o número que se incrementa segundo a página de notícias criada na filtragem.
Assim sendo, as URL consideradas são as compreendidas entre a https://www.cnabrasil.org.br/noticias/p1?instituicao=cna&termo=undefined&firstdate=01-01-2019&enddate=31-12-2020, primeira página do resultado da filtragem, e, https://www.cnabrasil.org.br/noticias/p174?instituicao=cna&termo=undefined&firstdate=01-01-2019&enddate=31-12-2020, última página do mesmo resultado.
O texto contido nas notícias para grupos de produtores rurais, apresenta informações que se encontram marcadas apenas em atributos que o site decide usar durante o seu desenvolvimento, de modo que um uso automatizado de elementos textuais torna-se desafiante.
Diante disso, para identificar os nós que seriam coletados, foi usada a ferramenta SelectorGadget para reconhecer os elementos CSS3 nas páginas de notícias, os quais constituíram os atributos a serem coletados. Com o foco da pesquisa no conteúdo das comunicações, foram identificados três elementos para a análise: título, data e corpo da notícia, os quais têm por nome dos elementos em notação CSS, .entry-title, small e .content-body, respectivamente.
Cascading Style Sheets.
A Figura 1 apresenta a sequência de passos realizados durante a coleta e análise dos dados do lado dos produtores rurais, já descritos até aqui, e os passos realizados para a coleta e análise dos dados do lado governo.
O elemento “Como” da coleta e análise do lado governo, dados de datasets, descrições e rótulos nos conjuntos de dados, foi abordado em um primeiro momento de forma manual, coletando e organizando em planilhas eletrônicas, que foram posteriormente processadas em R para estruturar os dados e realizar análise idêntica à primeira fonte indicada.
3. Mineração textual como técnica de análise
Abordar documentos escritos na linguagem natural com ferramentas tecnológicas propicia amplas possibilidades de análise. Em um primeiro momento, pelas capacidades per se da linguagem natural como sistema de signos expressivo e predileto na comunicação (KORN et al., 1998); de outro lado, técnicas informáticas permitem revelar informações em grandes corpos textuais, que aproveitando das capacidades da linguagem natural, viabilizam a obtenção de inferências conforme interesses de pesquisa em um contexto determinado.
Apelando ao princípio da causalidade, Korn, Huss e Cumbers (13) assinalam que embora todas as situações estejam sujeitas à lógica, ela não está sempre evidente de forma imediata. Formular argumentos explicativos é uma atividade que pode alicerçar-se em condições que ocorrem com alguma regularidade, possibilitando, por exemplo, mediante descrições qualitativas, classificações em categorias que descrevem uma situação. Isto tudo no entendimento de que a riqueza obtida pelo uso da linguagem natural, pela complexidade da estrutura sintática e pelas possibilidades do uso funcional do vocabulário, pode requerer o apoio de ferramentas tecnológicas ao abordar corpus volumosos, diante da intenção de explicitar a lógica de uma situação determinada.
Nesse quadro, manifesta-se a necessidade do apoio da abordagem científica, no que pode contribuir a Ciência de Dados ou Data Science, que corresponde à articulação interdisciplinar que procura a extração de insights a partir de dados (DUTRA, 2021; RODRIGUES, 2012; SANT’ANA, 2019). Segundo a tipologia dos dados a serem abordados, podem ser usadas técnicas para mineração de dados, Data Mining, ou técnicas para mineração de textos, Text Mining. A mineração de dados usa como insumo dados estruturados, enquanto a mineração de textos tem como insumo dados semiestruturados ou não estruturados, ambos os conceitos, na procura de inferências e informações contidas em dados dentro do contexto digital (CASTRO & FERRARI, 2016; FELDMAN & SANGER, 2006; SILGE & ROBINSON, 2017).
Da mesma forma que a mineração de dados, a mineração de textos busca extrair informação útil das fontes mediante a identificação de padrões, tendências, índices, informações relevantes, segundo o interesse de estudo que aborda as coleções de textos. Assim, os padrões não se extraem a partir de registros ou do cruzamento de entidades de alguma estrutura de dados senão do texto fluido que conforma os documentos a serem minerados (FELDMAN & SANGER, 2006).
A análise automatizada de textos permite descobrir o desconhecido, encontrando pedras preciosas em corpos textuais porque seus resultados revelam insumos inéditos, que, de outra forma não automatizada, dificilmente poderiam ser descobertos. A mineração de texto objetiva “descobrir ou derivar novas informações a partir de dados, encontrar padrões em conjuntos de dados e/ou separar um sinal do ruído” (Hearst, 1999, p. 3). Em consequência, o corpus textual que age como insumo, estará disposto para a geração de reportes estatísticos que possibilitem insights acerca do ambiente informacional abordado (DUTRA, 2021; HEARST, 2003; KAO & POTEET, 2007)
Fontes de textos não estruturados vão desde livros, e-mails, documentos empresariais, notícias, web sites e post em redes sociais, que possibilitam aplicações nas ciências sociais aplicadas, administração, ciências políticas, ciências da saúde etc. Algumas práticas da mineração textual estão no monitoramento de opiniões, análise de sentimentos, estudos de psicologia, saúde pública, análises de discurso político, monitoramento de reputações, visões e atitudes, repercussão de eventos, e, como neste caso de estudo, como índice da proximidade entre dados publicados por governo e um grupo de usuários escolhido.
As técnicas usadas são amplas, podendo incluir conceitos da estatística descritiva, frequências de unidades significativas, coocurrência de palavras, análise de colocação, similaridade entre textos, classificação de textos, agrupamentos temáticos, sumarização etc. (KAO & POTEET, 2007; SILGE & ROBINSON, 2017)
4. Resultados e discussões
Efetuadas as fases de pré-processamento dos dados e a mineração central, foram obtidos os seguintes resultados do site da CNA: nas 174 páginas após filtragem permitiram recuperar 2073 notícias; a seguir, normalizando os dados e tokenizando em palavras cada notícia, resultaram 546.571 palavras.
É necessário indicar que essa quantidade de palavras é posterior à eliminação de stopwords, palavras que apareceram com frequências altas, mas que carecem de relevância ao serem palavras gramaticais, artigos, preposições, conjunções, bem como algumas outras de pouca significância, rotulagem institucional, páginas das redes sociais da CNA, números etc. Remover palavras pouco significativas potencializa o resultado de análises com mineração textual, sendo uma das práticas recomendadas e indicadas, que na maioria das vezes, implica criar listas customizadas acrescentando palavras que surgem conforme a fonte de dados escolhida (SILGE & ROBINSON, 2017).
Em seguida se apresentam os elementos recuperados na coleta de dados do lado governo estão (Quadro 1).
Foram processados 251 recursos publicados em 18 conjuntos de dados disponíveis, e como resultado do pré-processamento e mineração central dos dados, foram identificadas 4.159 palavras.
Como marco de análise na busca por identificar a aderência lexical entre as duas fontes de dados, foram consideradas categorias de necessidades informacionais no acesso a dados por produtores (CAMPEROS-REYES, 2023), a saber, Mercado, Tratos culturais, Crédito, Direitos e Oportunidades.
As categorias de necessidades informacionais foram usadas com o fim de identificar se as unidades coletadas, tanto as notícias como os datasets, têm relação com assuntos de relevância demandados por produtores rurais, elas constituem um marco de análise intermediário entre as duas fontes de dados escolhidas para identificar a proximidade lexical entre uma e outra fonte.
Para isto foi usada a função da R ‘findAssocs’, que permitiu descobrir quais palavras aparecem com maior frequência quando encontrado o nome de categoria. Para manter a análise no nível lexical, determinou-se usar as seguintes palavras para o cálculo da função: “mercado”, “cultura”, “crédito”, “direitos” e “oportunidades4”. Dessa forma, nas notícias e datasets ao aparecer, por exemplo, a palavra “mercado”, foram elencadas as palavras com que existe maior coocorrência, isto em cada categoria de necessidade informacional.
Estimou-se conveniente usar as duas palavras no plural pois durante os testes do código foi visto que dessa forma o algoritmo recuperou maior quantidade de palavras e de maior heterogeneidade temática.
Ao aplicar a função, a lista de palavras resultantes foi analisada na ordem decrescente do índice de coocorrência, que na função apresenta-se com valores entre 0 e 1, sendo que valores próximos a 1 indicam maior coocorrência. Como critério de escolha das palavras foram consideradas apenas palavras do tipo substantivo, sendo assim escolhidas as cinco mais coocorrentes em cada categoria5:
As palavras resultantes da aplicação da ‘findAssocs’ provêm do corpo das notícias e por isso elas foram mantidas na forma em que foram publicadas, portanto, algumas encontram-se no plural.
- Mercado: preço, oferta, demanda, exportações, importações;
- Cultura: beneficiadora, declividade, descaroçado, rotação, fiação;
- Crédito: financiamento, juros, financieras, custeio, taxas;
- Oportunidades: negócios, mpog8, agroexportador, carreira, exportação.Corresponde ao Ministério de Planejamento, Orçamento e Gestão (MPOG).
Algumas palavras identificadas não foram consideradas devido a que manifestam relação estreita com atividades ou atores específicos. É o caso de esalq, acopar, cotonicultores, trigo, algodão, triticultores etc., observadas nas coocorrências de ‘mercado’ e ‘cultura’. Outras, identificadas no cálculo com a palavra ‘oportunidades’, indicam casos específicos de relações com outros países, é o caso das palavras botsuana, coreanas, egípcios, marroquinos, namíbia, suazilândia, china, islâmica, asiático, halal, mexicanos e britânicos. Ainda não foram considerados nomes de cidades, países, instituições, gentílicos e sobrenomes.
O resultado da função possibilitou conformar um vetor de comparação geral para cada categoria de necessidade informacional, atentando a que a unidade de comparação são unidades lexicais e adicionando, outros descritores (CAMPEROS-REYES, 2023) por cada categoria.
Os vectores de comparação para identificar com qual categoria de necessidade informacional se relaciona cada notícia e cada dataset, foram estabelecidos como segue:
- Mercado: ("mercado", "preços", “oferta", "demanda", "exportações", "importações", "publicidade", "consumo", "comercialização");
- Tratos culturais: ("cultura", "beneficiadora", "declividade", "descaroçado", "rotação", "fiação", "irrigação", "fertilização", "pragas");
- Crédito: ("crédito", "financiamento", "juros", "financeiras", "custeio", "taxas", "microcrédito", "empréstimo", "subsídios");
- Direitos: ("direitos", "creditórios", "deveres", "consif", "oit", “violação”, "legais", "autor", “registro”);
- Oportunidades: ("oportunidades", "negócios", “mpog”, "agroexportador", "carreira", “exportação”, "associativismo", "cooperativismo", "empreendedorismo").
Em seguida foi utilizada a função ‘jaccard’ para obter a similaridade entre cada notícia e os vetores. Assim, obtiveram-se os seguintes resultados: 1170 notícias têm similaridade com a categoria Mercado, 289 com Tratos culturais, 501 com Crédito, 78 com Direitos, e 670 com Oportunidades.
O cálculo de similaridade entre cada conjunto de dados de governo e os vetores de comparação, identificou que unicamente há conjuntos de dados relacionados com a categoria Crédito, 8 no total, sendo que com as outras 4 categorias de necessidades informacionais o índice de similaridade usando a função ‘jaccard’ foi de zero, não houve similaridade.
Até este ponto, a função ‘jaccard’ (Equação 1), foi usada para determinar a proximidade entre cada unidade de análise, bem notícias, bem conjuntos de dados, e as categorias de necessidades informacionais. Logo, conforme esses resultados, foi calculada a similaridade entre as palavras usadas nos dados de governo e nas notícias, apontando que somente foi calculado onde houve relação de forma concomitante na categoria de necessidade, neste caso, com a categoria ‘Crédito’, única onde houve proximidade.
O Quadro 2 resume as quantidades de palavras extraídas e os índices Jaccard para a categoria ‘Crédito’:
Devido a que as quantidades de palavras são expressivamente diferentes, determinou-se obter o Jaccard máximo possível entre as fontes dos dados, calculando as palavras únicas dos conjuntos de dados de governo por ser o vector menor, 103 palavras, sendo possível assumi-lo como o valor máximo da intersecção com as palavras das notícias. É com esse valor que foi calculado o Jaccard máximo, o índice 0,00667098 (0,667098%). Dessa forma, a relação entre os Jaccard da categoria ‘Crédito” e o máximo possível, resulta em 0,804782, lido como que 80,5% das unidades lexicais usadas nos dados de governo, foram similarmente encontradas nas notícias mineradas do site da CNA.
Ao observar o conjunto total de palavras tanto dos dados de governo como das notícias, foi possível observar que 82,48% das unidades lexicais usadas nos dados de governo, foram similarmente encontradas nas notícias mineradas do site da CNA. Algumas das palavras similares encontradas nas duas fontes tanto na categoria Crédito como no conjunto de unidades lexicais estão no Apêndice A.
Interessa destacar algumas palavras identificadas unicamente na coleta do lado governo, as quais manifestam um nível de especificidade que merece reflexão por parte do detentor e os seus publicadores. Um exemplo é o caso de siglas como BSM9, SIATE10 , SIM11G , U12FS , que, correspondendo a atributos de programas de governo, manifestam a necessidade de aproximação por parte dos sujeitos alvo, ao menos de forma inicial, a conceitos que esclareçam essas palavras encontradas. Em alguns casos, nomes por extenso são indicados nas descrições dos datasets, porém, nem todos apresentam essa caraterística.
Brasil sem miséria (BSM).
Sistema informatizado de ATER. Cf. https://sistemas.agricultura.gov.br/siater/sys/siater/login
Sistema de monitoramento e Gestão da Secretaria Especial de Agricultura Familiar e do Desenvolvimento Agrário (SEAD). Cf. http://nead.mda.gov.br/login?si=simog
Unidades produtivas familiares UPFS.
Outros exemplos de palavras resultantes do lado governo são as observadas ao retirar caracteres especiais como o ‘_’, pois, na forma original, dito carácter permite detalhar atributos dos dados, a exemplo, os rótulos N_SOCIOS_COM_DAP_PF, N_SOCIOS_TOTAL_PJ, que uma vez limpos durante o processamento dos dados resultam em unidades lexicais como nsocioscomdappf e nsociostotalpj, onde, não havendo correspondência do lado das notícias para o produtor, também não manifestam inconveniente que leve a apontar necessidade de melhoria das estratégias de disponibilização, pelo menos dentro do escopo desta pesquisa.
Uma alternativa para calcular o índice Jaccard foi a executada mediante a extração dos lemas das palavras identificadas na coleta. A lematização refere-se à eliminação das terminações flexivas das palavras para devolver a forma base delas. O processo é realizado baseado no conjunto de palavras de um dicionário de uma língua e na morfologia das palavras (Walcheke & Wolter, 2011). Assim, por exemplo, as palavras ‘produtor’ e ‘produtores’ estarão agrupadas em um mesmo lema.
Dessa forma, analisando a coleta com as unidades na forma de lemas, obtiveram-se índices Jaccard, na categoria crédito de 0.00786304, e, no total dos dados coletados, 0.01282410. Esses valores, mais altos que os calculados nas palavras conforme coletadas nas fontes, permitem inferir que a lematização constitui uma opção conveniente para a análise de aderência entre duas fontes, conclusão equivalente ao estudo de Ross e Cruz (ROSS & CRUZ, 2021).
4.1 Relação de n-grams com as categorias de necessidades informacionais
Como uma análise derivada dos dados coletados, observou-se o corpus das notícias na forma de n-grams, iniciando com palavras únicas, totalizando o número de vezes que foi usada cada palavra, e em seguida, mediante uma análise de colocação, essas palavras tokens foram processadas junto às palavras consecutivas no corpus de notícias coletadas, sendo extraídas sequências de 2 e 3 palavras, bigramas e trigramas. As Figura 2 e 3 apresentam um informe estatístico dos bigramas coletados no site do CNA.
O bigrama mais frequente foi “assistência técnica” com mais de 400 ocorrências, seguida pelas duplas “cadeia produtiva”, “campo futuro”, “febre aftosa”, e "relacoes internacionais”.
Associando esses bigramas a temáticas de interesse nas comunicações da CNA, pode inferir-se a dedicação com aspetos práticos associados às unidades produtivas, assinalada na ação de assistência ligada à cadeia produtiva, portanto, uma forte relação com a categoria de necessidade informacional ‘Tratos culturais’.
O “campo futuro” corresponde a um projeto da CNA junto ao SENAR, cuja finalidade é “aliar a capacitação do produtor à geração de informações estratégicas do setor rural, contribuindo para as tomadas de decisão no campo” (CONFEDERAÇÃO DA AGRICULTURA E PECUARIA DO BRASIL, 2022b). Mediante ações realizadas em parceria com universidades e centros de pesquisa, o Campo Futuro realiza acompanhamento à evolução de custos, análises de rentabilidade, gerenciamento de preços e de comportamento da produção (CONFEDERAÇÃO DA AGRICULTURA E PECUARIA DO BRASIL, 2022b). Observa-se relação desse bigrama com a categoria ‘Oportunidades’.
Em relação ao bigrama “febre aftosa”, sabe-se que o Brasil é o segundo maior produtor mundial de gado bovino (PORTAL DBO, 2012), com 218,2 milhões de cabeças em 2020 (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2020). Ela é uma doença de notificação obrigatória e atinge “animais de produção como bovinos, suínos, caprinos, ovinos e outros animais, em especial os de cascos bipartidos (cascos fendidos) (AGENCIA BRASIL, 2021; MINISTÉRIO DA INDUSTRIA, COMÉRCIO EXTERIOR E SERVIÇOS, 2022). Esse bigrama se relaciona com a categoria ‘Tratos culturas’.
Várias estratégias nacionais, e por estados do Brasil, são implementas, e conformam elementos de atenção tanto do governo como dos produtores junto aos coletivos que os conglomeram, considerando sobretudo pela representatividade da renta que o setor produz, e pode, inclusive enlaça-se com o quinto bigrama, “relações internacionais” pois o setor de gado de corte, particularmente o bovino, representa o 5 lugar no ranking das exportações totais e o 2 lugar nas exportações da indústria de transformação, tendo como destinos, na ordem de importância, China, Chile, Estados Unidos e Egito (AGENCIA BRASIL, 2021; MINISTÉRIO DA INDUSTRIA, COMÉRCIO EXTERIOR E SERVIÇOS, 2022), observando assim relação com a categoria ‘Oportunidades’.
Já havendo abordado o “projeto campo futuro”, tratar-se-á o concernente ao “economia aplicada cepea”. O Centro de Estudos Avançados em Economia Aplicada (CEPEA), da Escola Superior de Agricultura Luiz de Queiroz (ESALQ), Universidade de São Paulo (USP), é um grupo de pesquisa com foco em temas como meio rural e setores econômicos relacionados ao agronegócio, fundamentalmente em instrumentos de índole econômico-administrativo. Alguns dos eixos de trabalho estão no contexto das cadeias produtivas, questões sanitárias, políticas comerciais, novas tecnologias, e desempenho macroeconômico do setor (CENTRO DE ESTUDOS AVANÇADOS EM ECONOMIA APLICADA, 2022b).
O centro fornece indicadores, índices, listas de insumos pecuários, acompanhamento ao mercado de produtos como grãos, gado de corte, ovos, produtos florestais e hortifrutis (CENTRO DE ESTUDOS AVANÇADOS EM ECONOMIA APLICADA, 2022a), elementos que constituem bens informacionais para os produtores, o que pode sustentar o porquê esse trigrama, relacionado com ‘Tratos culturais’, está alocado na segunda posição.
Dentro do “Programa de alimentos artesanais e tradicionais”, programa dos CNA/SENAR, são promovidas melhorias para produtores apoiando-os nos eixos Regulamentação, Capacitação e assistência técnica e gerencial, Comercialização e marketing, Organização coletiva, e, Tributação e crédito; no eixo Comercialização e marketing, foi implementado o Prêmio Brasil Artesanal, destacando até a data, desenvolvimentos em produtos de chocolate e charcutaria (CNA/SENA, 2022). Isto pode explicar a aparição do trigrama “premio brasil artesanal”, pois no site do CNA foram divulgadas informações sobre as fases da execução da estratégia pelo CNA/SENAR. A relação do trigrama está com a categoria ‘Mercado’.
De outro lado, na gestão de empreendimentos rurais alguns indicadores econômicos fundamentais são usados na tomada de decisão dos produtores e em relação ao processo produtivo e comercial das suas lavouras. Um desses indicadores é o que foi encontrado no trigrama “custo operacional efetivo”, portanto, relacionando-se com divulgações dirigidas aos fluxos informacionais dos produtores em um aspecto determinante como é a gestão de custos.
Interessante apontar que o trigrama “economia aplicada cepea” embora aponte a duas categorias ‘Mercado’ e ‘Tratos culturais’, como no caso de “custo operacional efetivo”, estão também assinalando aspectos sobre instrumentos de gestão económica e administrativa, os quais não estão incluídos nas categorias que esse estudo usa como marco de análise.
Em relação ao último trigrama a considerar, “peste suína africana”, trata-se de uma doença que, embora não ofereça risco para os humanos, é altamente contagiosa no gado suíno, e já causou enorme prejuízo em países como China, Polônia, Romênia e Filipinas. No Brasil, tendo aparecido na década dos anos 70, foi controlada em 1984. O Brasil é o quarto maior produtor de carne suína no nível global (EMPRESA BRASILEIRA DE PESQUISA AGROPECUÁRIA, 2022; UOL ECONOMIA, 2022). Configura-se relação desse trigrama com a categoria ‘Tratos culturais’.
O bigrama “upfs atendidas” está registrado devido à rotulagem relacionada com Unidades Produtivas Familiares (UPFS), atendidas nas chamadas do serviço de Assistência Técnica e Extensão Rural (ATER).
Nos casos de “sustentabilidade leite”, “sustentabilidade café” e “quilombolas pescadores”, correspondem a atributos que caracterizam também chamadas aos serviços do ATER. Ele classifica as chamadas segundo o tipo de contrato dos beneficiários dos serviços. Existem categorias para os contratos segundo a sua natureza, sendo que três delas são Sustentabilidade Leite, Sustentabilidade Café, e BSM - Indígenas/Quilombolas/Pescadores13.
A sigla BSM corresponde ao plano Brasil Sem Miséria. Ele tem como “objetivo erradicar a pobreza extrema no país, por meio de ações de transferência de renda, acesso a serviços públicos e inclusão produtiva” (Instituto de Pesquisa Econômica Aplicada, 2011).
Por fim, a categoria “público beneficiário”, indica o rótulo das formas de classificar os beneficiários dos serviços ATER, tendo como exemplos desses tipos de públicos beneficiários a Agricultores Familiares Tradicionais, Aquicultores Familiares, Pescadores Artesanais, Povos Indígenas e Quilombolas.
Assim sendo, frisa-se que os cinco bigramas mais frequentes se encontram dentro de datasets que apresentam resumos de chamadas aos serviços do ATER, intitulados “ATER - Chamadas em Atendimento”. O ATER foi criado dentro da Política Nacional de Assistência Técnica e Extensão Rural para a Agricultura Familiar e Reforma Agrária (PNATER), e está sob a gestão do Ministério da Agricultura, Pecuária e Abastecimento do Brasil, logo, pode se inferir que todos os bigramas do top 5 estão relacionados com a categoria ‘Tratos culturais’.
De outro lado, o processamento na forma de trigramas (Figura 5) mostra que os cinco trigramas mais representativos foram “indígenas quilombolas pescadores”, “bsm indígenas quilombolas”, “agricultores familiares tradicionais”, “mulheres pescadoras artesanais” e “mulheres agricultoras familiares.
Os trigramas “indígenas quilombolas pescadores” e “bsm indígenas quilombolas”, correspondem a rótulos que fazem referência à categoria “BSM - Indígenas/Quilombolas/Pescadores”, a qual é um tipo de contrato dos beneficiários do ATER. No caso dos trigramas “agricultores familiares tradicionais”, “mulheres pescadoras artesanais” e “mulheres agricultoras familiares”, correspondem a rótulos que representam formas de classificar aos beneficiários dos serviços ATER.
Em suma, todos os trigramas do top 5 foram extraídos de datasets onde se publicam dados sobre chamadas em atendimento do ATER, e, portanto, também relacionados com a categoria ‘Tratos culturais’.
O exemplo de identificação de unidades n-grams foi usado aqui como proposta para a descrição dos assuntos tratados nas notícias e datasets coletados, e, portanto, como uma alternativa para a valorização dos interesses nas comunicações e dados disponibilizados para produtores rurais.
5. Conclusões
As fontes de dados escolhidas para a coleta entregaram insumos suficientes para a análise proposta, cada uma em seu contexto e com as particularidades técnicas na disponibilização dos dados, permitiram gerar as unidades lexicais que indicariam um caminho para a observação da aderência entre dados de uma e outra fonte.
Os instrumentos técnicos usados para o cálculo da aderência lexical entre dados obtidos por mineração textual se manifestaram propícios para identificar indícios de interpretação por parte de grupos de produtores rurais.
Ao implementar a análise usando como marco estruturante categorias de necessidades informacionais é importante atentar que, do lado governo, unicamente houve proximidade com uma das categorias utilizadas, Crédito, o que certamente aponta para uma insuficiência de elementos de análise no caminho delineado por este estudo. Ainda mais quando as duas categorias amplamente presentes nas comunicações da CNA foram Mercado e Oportunidades, demandas que, na amostra do estudo, não foram tratadas nos dados do governo. Considera-se determinante para o aproveitamento de dados publicados pelo detentor estejam estritamente relacionados com as necessidades informacionais dos sujeitos alvo.
Os índices resultantes, tanto na única categoria de necessidade informacional que foi atingida de forma concomitante nas duas fontes, ‘Crédito’, como no total de unidades analisadas, sustentam a potencial aderência lexical como indício da probabilidade de interpretação dos dados que o governo está publicando.
A análise de colocação apresentada, identificação de n-grams, se perfila como alternativa para a descrição de assuntos tratados em corpos de origem textual, podendo ser explorada buscando relações com elementos estruturantes de análise ou como proposta de entendimento de atributos do campo informacional do contexto abordado.
Limitações do estudo são observadas nas origens dos dados. Frisa-se a parcialidade das comunicações publicadas pela CNA, pelo direcionamento para atividades econômicas de interesse particular; outro elemento limitador corresponde com aspectos da qualidade e assertividade da rotulagem dos dados do detentor governo. Frické (31) manifesta que diante da possibilidade de referir-se a um conceito de distintas formas, situação que o autor extrapola a ações de rotulagem, a assertividade na designação de rótulos com a responsabilidade de indicar um conceito com uma ou outra palavra, tem implicações determinantes nos resultados de análises deste tipo.
Outra limitação, dá-se pela possibilidade de que o procedimento técnico que permitiu formar os vetores de comparação, não considere palavras do tipo sigla que estejam no corpo das comunicações usadas.
Estudos futuros apontam à diversificação das fontes dos dados, tanto do lado detentor governo como na aproximação aos sujeitos alvo. Na continuidade ao nível lexical, propõe-se desdobrar este estudo utilizando instrumentos metodológicos que permitam obter indícios do nível semântico, apontando então à diversificação das análises junto aos instrumentos de coleta, sobretudo do lado do pequeno e médio produtor, pois, seguindo a premissa dos Santos e Sant’Ana (32), na camada de localização dos dados, o acesso a eles está atrelado ao ponto de vista das necessidades dos usuários.
Por outro lado, a Mineração Textual oferece técnicas de extração não supervisionada como o Topic Modelling, que poderia ser usada de forma alternativa para modelagem temático de corpus.
Espera-se ter contribuído na busca da resposta ao interrogante sobre o aproveitamento, desde o ponto de vista do sujeito alvo dessa pesquisa, de dados publicados pelo detentor governo no contexto de grupos de produtores rurais, sobre se o governo traça de forma intrínseca um uso potencial dos dados por parte dos produtores, considerando fatores de acesso a dados do lado de quem precisa deles (SANTOS & SANT’ANA, 2019), tais como conhecimento prévio, domínio, interesses e valores.
Agradecimentos
O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior – Brasil (CAPES) - Código de Financiamento 001.
Fonte: dados da pesquisa.
Instituições gremiais identificadas. Fonte: dados da pesquisa.
Abstract
Abstract
Resumen
1. Introdução
2. Percurso metodológico
2.1 Uso da técnica 5W1H
3. Mineração textual como técnica de análise
4. Resultados e discussões
4.1 Relação de n-grams com as categorias de necessidades informacionais
5. Conclusões
Agradecimentos