govbrnews
| Entity Passport | |
| Registry ID | hf-dataset--nitaibezerra--govbrnews |
| License | Apache-2.0 |
| Provider | huggingface |
Cite this dataset
Academic & Research Attribution
@misc{hf_dataset__nitaibezerra__govbrnews,
author = {nitaibezerra},
title = {govbrnews Dataset},
year = {2026},
howpublished = {\url{https://huggingface.co/datasets/nitaibezerra/govbrnews}},
note = {Accessed via Free2AITools Knowledge Fortress}
} 🔬Technical Deep Dive
Full Specifications [+]▾
⚖️ Nexus Index V2.0
💬 Index Insight
FNI V2.0 for govbrnews: Semantic (S:50), Authority (A:0), Popularity (P:55), Recency (R:92), Quality (Q:30).
Verification Authority
👁️ Data Preview
Row-level preview not available for this dataset.
Schema structure is shown in the Field Logic panel when available.
🔗 Explore Full Dataset ↗🧬 Field Logic
Schema not yet indexed for this dataset.
Dataset Specification
GovBR News Dataset
Introdução
O GovBR News Dataset é um conjunto de dados resultante da raspagem automatizada de notícias publicadas por agências governamentais no domínio gov.br. Este dataset é atualizado regularmente para incluir as notícias mais recentes, facilitando o monitoramento, análise e pesquisa de informações governamentais.
Os dados incluem notícias com seus metadados, como título, data de publicação, categoria, tags, URL original e conteúdo. Este projeto é mantido pelo Ministério da Gestão e Inovação em Serviços Públicos (MGI) como parte de um esforço experimental para centralizar e estruturar informações governamentais.
Conteúdo do Dataset
O dataset inclui os seguintes campos estruturados:
unique_id: Identificador único de cada notícia.agency: Nome da agência governamental que publicou a notícia.published_at: Data de publicação da notícia.title: Título da notícia.url: URL da notícia original.category: Categoria da notícia (se disponível).tags: Lista de tags associadas à notícia (se disponíveis).content: Conteúdo completo da notícia.extracted_at: Data e hora em que a notícia foi extraída.
Além disso, os dados estão disponíveis em dois formatos: dataset estruturado (compatível com a biblioteca datasets) e arquivos CSV para facilitar o uso em outras ferramentas e contextos.
Dados Disponíveis em CSV
Para maior flexibilidade, os dados também estão publicados em formato CSV diretamente neste repositório no Hugging Face:
Arquivo Global CSV:
- Contém todas as notícias em um único arquivo.
- Acesse aqui: govbr_news_dataset.csv
Arquivos CSV por Agência:
- Dados organizados por cada agência governamental (Órgão).
- Acesse os arquivos nesta pasta: Agências
Arquivos CSV por Ano:
- Dados separados por ano de publicação.
- Acesse os arquivos nesta pasta: Anos
Esses formatos oferecem conveniência para análises rápidas e para aqueles que preferem manipular os dados diretamente.
Como Utilizar
Utilizando o Dataset Estruturado
O dataset está disponível publicamente no Hugging Face e pode ser carregado diretamente em seu código Python utilizando a biblioteca datasets:
Instale a Biblioteca
datasets:Certifique-se de ter a biblioteca
datasetsinstalada:bashpip install datasetsCarregue o Dataset:
Use o seguinte código para carregar o dataset em seu script:
pythonfrom datasets import load_dataset dataset = load_dataset("nitaibezerra/govbrnews")Explore os Dados:
Você pode usar as funcionalidades da biblioteca
datasetspara explorar, filtrar e analisar os dados conforme necessário.
Processo de Atualização
O dataset é atualizado automaticamente por meio de um processo programado que inclui:
Raspagem Automatizada:
- Notícias são raspadas diariamente de sites de agências governamentais listadas no repositório oficial do projeto.
Deduplicação e Ordenação:
- Antes de ser publicado, o dataset passa por um processo de deduplicação e é ordenado por
agency(ordem ascendente) epublished_at(ordem descendente).
- Antes de ser publicado, o dataset passa por um processo de deduplicação e é ordenado por
Publicação no Hugging Face:
- As atualizações são feitas diretamente neste repositório.
Com essas opções e funcionalidades, o GovBR News Dataset é uma ferramenta versátil e de fácil acesso para diversos tipos de análises e pesquisas relacionadas a notícias governamentais.
📊 Structured Schema (Zero-Fabrication)
| Feature Key | Data Type |
|---|---|
unique_id |
string |
agency |
string |
published_at |
timestamp[us, tz=-03:00] |
updated_datetime |
timestamp[us, tz=-03:00] |
extracted_at |
timestamp[ns] |
title |
string |
subtitle |
string |
editorial_lead |
string |
url |
string |
content |
string |
image |
string |
video_url |
string |
category |
string |
tags |
unknown |
theme_1_level_1 |
string |
theme_1_level_1_code |
string |
theme_1_level_1_label |
string |
theme_1_level_2_code |
string |
theme_1_level_2_label |
string |
theme_1_level_3_code |
string |
theme_1_level_3_label |
string |
most_specific_theme_code |
string |
most_specific_theme_label |
string |
summary |
string |
Estimated Rows: 322,008
Social Proof
AI Summary: Based on Hugging Face metadata. Not a recommendation.
🛡️ Dataset Transparency Report
Technical metadata sourced from upstream repositories.
🆔 Identity & Source
- id
- hf-dataset--nitaibezerra--govbrnews
- slug
- nitaibezerra--govbrnews
- source
- huggingface
- author
- nitaibezerra
- license
- Apache-2.0
- tags
- license:apache-2.0, size_categories:100k<n<1m, format:parquet, format:optimized-parquet, modality:image, modality:text, library:datasets, library:dask, library:polars, library:mlcroissant, region:us
⚙️ Technical Specs
- architecture
- null
- params billions
- null
- context length
- null
- pipeline tag
📊 Engagement & Metrics
- downloads
- 64,748
- stars
- 0
- forks
- 0
Data indexed from public sources. Updated daily.