📊
Dataset

govbrnews

by nitaibezerra hf-dataset--nitaibezerra--govbrnews
Nexus Index
43.2 Top 100%
S / A / P / R / Q Breakdown Calibration Pending

Pillar scores are computed during the next indexing cycle.

Tech Context
Vital Performance
0 DL / 30D
0.0%
Data Integrity 43.2 FNI Score
- Size
- Rows
Parquet Format
- Tokens
Dataset Information Summary
Entity Passport
Registry ID hf-dataset--nitaibezerra--govbrnews
License Apache-2.0
Provider huggingface
📜

Cite this dataset

Academic & Research Attribution

BibTeX
@misc{hf_dataset__nitaibezerra__govbrnews,
  author = {nitaibezerra},
  title = {govbrnews Dataset},
  year = {2026},
  howpublished = {\url{https://huggingface.co/datasets/nitaibezerra/govbrnews}},
  note = {Accessed via Free2AITools Knowledge Fortress}
}
APA Style
nitaibezerra. (2026). govbrnews [Dataset]. Free2AITools. https://huggingface.co/datasets/nitaibezerra/govbrnews

🔬Technical Deep Dive

Full Specifications [+]

⚖️ Nexus Index V2.0

43.2
ESTIMATED IMPACT TIER
Semantic (S) 0
Authority (A) 0
Popularity (P) 0
Recency (R) 0
Quality (Q) 0

💬 Index Insight

FNI V2.0 for govbrnews: Semantic (S:0), Authority (A:0), Popularity (P:0), Recency (R:0), Quality (Q:0).

Free2AITools Nexus Index

Verification Authority

Unbiased Data Node Refresh: VFS Live
⬇️
Downloads
64,748

👁️ Data Preview

📊

Row-level preview not available for this dataset.

Schema structure is shown in the Field Logic panel when available.

🔗 Explore Full Dataset ↗

🧬 Field Logic

🧬

Schema not yet indexed for this dataset.

Dataset Specification

GovBR News Dataset

Introdução

O GovBR News Dataset é um conjunto de dados resultante da raspagem automatizada de notícias publicadas por agências governamentais no domínio gov.br. Este dataset é atualizado regularmente para incluir as notícias mais recentes, facilitando o monitoramento, análise e pesquisa de informações governamentais.

Os dados incluem notícias com seus metadados, como título, data de publicação, categoria, tags, URL original e conteúdo. Este projeto é mantido pelo Ministério da Gestão e Inovação em Serviços Públicos (MGI) como parte de um esforço experimental para centralizar e estruturar informações governamentais.


Conteúdo do Dataset

O dataset inclui os seguintes campos estruturados:

  • unique_id: Identificador único de cada notícia.
  • agency: Nome da agência governamental que publicou a notícia.
  • published_at: Data de publicação da notícia.
  • title: Título da notícia.
  • url: URL da notícia original.
  • category: Categoria da notícia (se disponível).
  • tags: Lista de tags associadas à notícia (se disponíveis).
  • content: Conteúdo completo da notícia.
  • extracted_at: Data e hora em que a notícia foi extraída.

Além disso, os dados estão disponíveis em dois formatos: dataset estruturado (compatível com a biblioteca datasets) e arquivos CSV para facilitar o uso em outras ferramentas e contextos.


Dados Disponíveis em CSV

Para maior flexibilidade, os dados também estão publicados em formato CSV diretamente neste repositório no Hugging Face:

  1. Arquivo Global CSV:

  2. Arquivos CSV por Agência:

    • Dados organizados por cada agência governamental (Órgão).
    • Acesse os arquivos nesta pasta: Agências
  3. Arquivos CSV por Ano:

    • Dados separados por ano de publicação.
    • Acesse os arquivos nesta pasta: Anos

Esses formatos oferecem conveniência para análises rápidas e para aqueles que preferem manipular os dados diretamente.


Como Utilizar

Utilizando o Dataset Estruturado

O dataset está disponível publicamente no Hugging Face e pode ser carregado diretamente em seu código Python utilizando a biblioteca datasets:

  1. Instale a Biblioteca datasets:

    Certifique-se de ter a biblioteca datasets instalada:

    bash
    pip install datasets
  2. Carregue o Dataset:

    Use o seguinte código para carregar o dataset em seu script:

    python
    from datasets import load_dataset
    
    dataset = load_dataset("nitaibezerra/govbrnews")
  3. Explore os Dados:

    Você pode usar as funcionalidades da biblioteca datasets para explorar, filtrar e analisar os dados conforme necessário.


Processo de Atualização

O dataset é atualizado automaticamente por meio de um processo programado que inclui:

  1. Raspagem Automatizada:

    • Notícias são raspadas diariamente de sites de agências governamentais listadas no repositório oficial do projeto.
  2. Deduplicação e Ordenação:

    • Antes de ser publicado, o dataset passa por um processo de deduplicação e é ordenado por agency (ordem ascendente) e published_at (ordem descendente).
  3. Publicação no Hugging Face:

    • As atualizações são feitas diretamente neste repositório.

Com essas opções e funcionalidades, o GovBR News Dataset é uma ferramenta versátil e de fácil acesso para diversos tipos de análises e pesquisas relacionadas a notícias governamentais.

📊 Structured Schema (Zero-Fabrication)

Feature Key Data Type
unique_id string
agency string
published_at timestamp[us, tz=-03:00]
updated_datetime timestamp[us, tz=-03:00]
extracted_at timestamp[ns]
title string
subtitle string
editorial_lead string
url string
content string
image string
video_url string
category string
tags unknown
theme_1_level_1 string
theme_1_level_1_code string
theme_1_level_1_label string
theme_1_level_2_code string
theme_1_level_2_label string
theme_1_level_3_code string
theme_1_level_3_label string
most_specific_theme_code string
most_specific_theme_label string
summary string

Estimated Rows: 322,008

Social Proof

HuggingFace Hub
64.7KDownloads
🔄 Daily sync (03:00 UTC)

AI Summary: Based on Hugging Face metadata. Not a recommendation.

📊 FNI Methodology 📚 Knowledge Baseℹ️ Verify with original source

🛡️ Dataset Transparency Report

Verified data manifest for traceability and transparency.

100% Data Disclosure Active

🆔 Identity & Source

id
hf-dataset--nitaibezerra--govbrnews
slug
nitaibezerra--govbrnews
source
huggingface
author
nitaibezerra
license
Apache-2.0
tags
license:apache-2.0, size_categories:100k<n<1m, format:parquet, format:optimized-parquet, modality:image, modality:text, library:datasets, library:dask, library:polars, library:mlcroissant, region:us

⚙️ Technical Specs

architecture
null
params billions
null
context length
null
pipeline tag

📊 Engagement & Metrics

downloads
64,748
stars
0
forks
0

Free2AITools Constitutional Data Pipeline: Curated disclosure mode active. (V15.x Standard)