📊

Dataset

govbrnews

Name: govbrnews
Creator: nitaibezerra
License: Apache-2.0

by nitaibezerra hf-dataset--nitaibezerra--govbrnews

Nexus Index

41.7 Top 100%

S: Semantic 50

A: Authority 0

P: Popularity 55

R: Recency 92

Q: Quality 30

Tech Context

Vital Performance

0 DL / 30D

0.0%

Source →

Data Integrity 41.7 FNI Score

- Size

- Rows

Parquet Format

- Tokens

Dataset Information Summary
Entity Passport
Registry ID	hf-dataset--nitaibezerra--govbrnews
License	Apache-2.0
Provider	huggingface

📜

Cite this dataset

Academic & Research Attribution

BibTeX

@misc{hf_dataset__nitaibezerra__govbrnews,
  author = {nitaibezerra},
  title = {govbrnews Dataset},
  year = {2026},
  howpublished = {\url{https://huggingface.co/datasets/nitaibezerra/govbrnews}},
  note = {Accessed via Free2AITools Knowledge Fortress}
}

APA Style

nitaibezerra. (2026). govbrnews [Dataset]. Free2AITools. https://huggingface.co/datasets/nitaibezerra/govbrnews

🔬Technical Deep Dive

Full Specifications [+]

⚖️ Nexus Index V2.0

Methodology Index Protocol

41.7

TOP 100% SYSTEM IMPACT

Semantic (S) 50

Authority (A) 0

Popularity (P) 55

Recency (R) 92

Quality (Q) 30

💬 Index Insight

FNI V2.0 for govbrnews: Semantic (S:50), Authority (A:0), Popularity (P:55), Recency (R:92), Quality (Q:30).

Free2AITools Nexus Index

Verification Authority

HuggingFace API GitHub Metadata Arxiv Citation DB System Audit

Unbiased Data Node Refresh: VFS Live

⬇️

Downloads

64,748

👁️ Data Preview

📊

Row-level preview not available for this dataset.

Schema structure is shown in the Field Logic panel when available.

🔗 Explore Full Dataset ↗

🧬 Field Logic

🧬

Schema not yet indexed for this dataset.

Dataset Specification

GovBR News Dataset

Introdução

O GovBR News Dataset é um conjunto de dados resultante da raspagem automatizada de notícias publicadas por agências governamentais no domínio gov.br. Este dataset é atualizado regularmente para incluir as notícias mais recentes, facilitando o monitoramento, análise e pesquisa de informações governamentais.

Os dados incluem notícias com seus metadados, como título, data de publicação, categoria, tags, URL original e conteúdo. Este projeto é mantido pelo Ministério da Gestão e Inovação em Serviços Públicos (MGI) como parte de um esforço experimental para centralizar e estruturar informações governamentais.

Conteúdo do Dataset

O dataset inclui os seguintes campos estruturados:

unique_id: Identificador único de cada notícia.
agency: Nome da agência governamental que publicou a notícia.
published_at: Data de publicação da notícia.
title: Título da notícia.
url: URL da notícia original.
category: Categoria da notícia (se disponível).
tags: Lista de tags associadas à notícia (se disponíveis).
content: Conteúdo completo da notícia.
extracted_at: Data e hora em que a notícia foi extraída.

Além disso, os dados estão disponíveis em dois formatos: dataset estruturado (compatível com a biblioteca datasets) e arquivos CSV para facilitar o uso em outras ferramentas e contextos.

Dados Disponíveis em CSV

Para maior flexibilidade, os dados também estão publicados em formato CSV diretamente neste repositório no Hugging Face:

Arquivo Global CSV:
- Contém todas as notícias em um único arquivo.
- Acesse aqui: govbr_news_dataset.csv
Arquivos CSV por Agência:
- Dados organizados por cada agência governamental (Órgão).
- Acesse os arquivos nesta pasta: Agências
Arquivos CSV por Ano:
- Dados separados por ano de publicação.
- Acesse os arquivos nesta pasta: Anos

Esses formatos oferecem conveniência para análises rápidas e para aqueles que preferem manipular os dados diretamente.

Como Utilizar

Utilizando o Dataset Estruturado

O dataset está disponível publicamente no Hugging Face e pode ser carregado diretamente em seu código Python utilizando a biblioteca datasets:

Instale a Biblioteca datasets:

Certifique-se de ter a biblioteca datasets instalada:
bash
```
pip install datasets
```
Carregue o Dataset:

Use o seguinte código para carregar o dataset em seu script:
python
```
from datasets import load_dataset

dataset = load_dataset("nitaibezerra/govbrnews")
```
Explore os Dados:

Você pode usar as funcionalidades da biblioteca datasets para explorar, filtrar e analisar os dados conforme necessário.

Processo de Atualização

O dataset é atualizado automaticamente por meio de um processo programado que inclui:

Raspagem Automatizada:
- Notícias são raspadas diariamente de sites de agências governamentais listadas no repositório oficial do projeto.
Deduplicação e Ordenação:
- Antes de ser publicado, o dataset passa por um processo de deduplicação e é ordenado por agency (ordem ascendente) e published_at (ordem descendente).
Publicação no Hugging Face:
- As atualizações são feitas diretamente neste repositório.

Com essas opções e funcionalidades, o GovBR News Dataset é uma ferramenta versátil e de fácil acesso para diversos tipos de análises e pesquisas relacionadas a notícias governamentais.

📊 Structured Schema (Zero-Fabrication)

Feature Key	Data Type
`unique_id`	`string`
`agency`	`string`
`published_at`	`timestamp[us, tz=-03:00]`
`updated_datetime`	`timestamp[us, tz=-03:00]`
`extracted_at`	`timestamp[ns]`
`title`	`string`
`subtitle`	`string`
`editorial_lead`	`string`
`url`	`string`
`content`	`string`
`image`	`string`
`video_url`	`string`
`category`	`string`
`tags`	`unknown`
`theme_1_level_1`	`string`
`theme_1_level_1_code`	`string`
`theme_1_level_1_label`	`string`
`theme_1_level_2_code`	`string`
`theme_1_level_2_label`	`string`
`theme_1_level_3_code`	`string`
`theme_1_level_3_label`	`string`
`most_specific_theme_code`	`string`
`most_specific_theme_label`	`string`
`summary`	`string`

Estimated Rows: 322,008

Social Proof

HuggingFace Hub

64.7KDownloads

Hub Discussions

🤗 Data Source: Hugging Face ↗

🔄 Daily sync (03:00 UTC)

AI Summary: Based on Hugging Face metadata. Not a recommendation.

📊 FNI Methodology 📚 Knowledge Baseℹ️ Verify with original source

🛡️ Dataset Transparency Report

Technical metadata sourced from upstream repositories.

Open Metadata

🆔 Identity & Source

id: hf-dataset--nitaibezerra--govbrnews
slug: nitaibezerra--govbrnews
source: huggingface
author: nitaibezerra
license: Apache-2.0
tags: license:apache-2.0, size_categories:100k<n<1m, format:parquet, format:optimized-parquet, modality:image, modality:text, library:datasets, library:dask, library:polars, library:mlcroissant, region:us

⚙️ Technical Specs

architecture: null
params billions: null
context length: null
pipeline tag

📊 Engagement & Metrics

downloads: 64,748
stars: 0
forks: 0

Data indexed from public sources. Updated daily.

Welcome to Free2AI Tools!

Smart Search

FNI Score

You're All Set!