O GovBR News Dataset é um conjunto de dados resultante da raspagem automatizada de notícias publicadas por agências governamentais no domínio gov.br. Este dataset é atualizado regularmente para incluir as notícias mais recentes, facilitando o monitoramento, análise e pesquisa de informações governamentais.
Os dados incluem notícias com seus metadados, como título, data de publicação, categoria, tags, URL original e conteúdo. Este projeto é mantido pelo Ministério da Gestão e Inovação em Serviços Públicos (MGI) como parte de um esforço experimental para centralizar e estruturar informações governamentais.
Conteúdo do Dataset
O dataset inclui os seguintes campos estruturados:
unique_id: Identificador único de cada notícia.
agency: Nome da agência governamental que publicou a notícia.
published_at: Data de publicação da notícia.
title: Título da notícia.
url: URL da notícia original.
category: Categoria da notícia (se disponível).
tags: Lista de tags associadas à notícia (se disponíveis).
content: Conteúdo completo da notícia.
extracted_at: Data e hora em que a notícia foi extraída.
Além disso, os dados estão disponíveis em dois formatos: dataset estruturado (compatível com a biblioteca datasets) e arquivos CSV para facilitar o uso em outras ferramentas e contextos.
Dados Disponíveis em CSV
Para maior flexibilidade, os dados também estão publicados em formato CSV diretamente neste repositório no Hugging Face:
Esses formatos oferecem conveniência para análises rápidas e para aqueles que preferem manipular os dados diretamente.
Como Utilizar
Utilizando o Dataset Estruturado
O dataset está disponível publicamente no Hugging Face e pode ser carregado diretamente em seu código Python utilizando a biblioteca datasets:
Instale a Biblioteca datasets:
Certifique-se de ter a biblioteca datasets instalada:
bash
pip install datasets
Carregue o Dataset:
Use o seguinte código para carregar o dataset em seu script:
python
from datasets import load_dataset
dataset = load_dataset("nitaibezerra/govbrnews")
Explore os Dados:
Você pode usar as funcionalidades da biblioteca datasets para explorar, filtrar e analisar os dados conforme necessário.
Processo de Atualização
O dataset é atualizado automaticamente por meio de um processo programado que inclui:
Raspagem Automatizada:
Notícias são raspadas diariamente de sites de agências governamentais listadas no repositório oficial do projeto.
Deduplicação e Ordenação:
Antes de ser publicado, o dataset passa por um processo de deduplicação e é ordenado por agency (ordem ascendente) e published_at (ordem descendente).
Publicação no Hugging Face:
As atualizações são feitas diretamente neste repositório.
Com essas opções e funcionalidades, o GovBR News Dataset é uma ferramenta versátil e de fácil acesso para diversos tipos de análises e pesquisas relacionadas a notícias governamentais.