🧠

Model

Gigachat3 702b A36b Preview

Name: Gigachat3 702b A36b Preview
Author: Ai Sage

by Ai Sage hf-model--ai-sage--gigachat3-702b-a36b-preview

Free2AITools Nexus Index

37.0 Top 100%

S: Semantic 50

A: Authority 0

P: Popularity 23

R: Recency 73

Q: Quality 50

Tech Context

715.48 Params

4.096K Ctx

Vital Performance

683 DL / 30D

0.0%

Source →

Audited 37 FNI Score

Massive 715.48B Params

4k Context

683 Downloads

H100+ ~540GB Est. VRAM

Dense DEEPSEEKV3FORCAUSALLM Architecture

Commercial MIT License

Model Information Summary
Entity Passport
Registry ID	hf-model--ai-sage--gigachat3-702b-a36b-preview
License	MIT
Provider	huggingface

💾

Compute Threshold

~539.1GB VRAM

Interactive

Analyze Hardware

Hardware Compatibility Test

▼

* Static estimation for 4-Bit Quantization. [Multi-GPU / Unified Memory Required]

📜

Cite this model

Academic & Research Attribution

BibTeX

@misc{hf_model__ai_sage__gigachat3_702b_a36b_preview,
  author = {Ai Sage},
  title = {Gigachat3 702b A36b Preview Model},
  year = {2026},
  howpublished = {\url{https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview}},
  note = {Accessed via Free2AITools Knowledge Fortress}
}

APA Style

Ai Sage. (2026). Gigachat3 702b A36b Preview [Model]. Free2AITools. https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview

🔬Technical Deep Dive

Full Specifications [+]

Quick Commands

🤗 HF Download

huggingface-cli download ai-sage/gigachat3-702b-a36b-preview

📦 Install Lib

pip install -U transformers

⚖️ Free2AITools Nexus Index V2.0

Methodology Index Protocol

Semantic (S) 50

Authority (A) 0

Popularity (P) 23

Recency (R) 73

Quality (Q) 50

💬 Index Insight

FNI V2.0 for Gigachat3 702b A36b Preview: Semantic (S:50), Authority (A:0), Popularity (P:23), Recency (R:73), Quality (Q:50).

Free2AITools Nexus Index

Verification Authority

HuggingFace API GitHub Metadata Arxiv Citation DB System Audit

Unbiased Data Node Refresh: VFS Live

---

🚀 What's Next?

📊

Find Training Datasets

Discover datasets compatible with this model

📈

Compare Benchmarks

See how this model ranks on standard tests

⚡

Technical Deep Dive

GigaChat 3 Ultra Preview

Представляем GigaChat 3 Ultra Preview — флагманскую instruct-модель семейства GigaChat.
Модель основана на архитектуре Mixture-of-Experts (MoE) с 702B общих и 36B активных параметров. Архитектура включает Multi-head Latent Attention (MLA) и Multi-Token Prediction (MTP), за счет чего модель оптимизирована для высокой пропускной способности (throughput) при инференсе. Данная версия предназначена для высокопроизводительного инференса в fp8, модель в bf16 — GigaChat3-702B-A36B-preview-bf16.

Больше подробностей в хабр статье.

Архитектура модели

GigaChat 3 Ultra Preview использует кастомную MoE-архитектуру:

Multi-head Latent Attention (MLA)

Вместо стандартного Multi-head Attention модель использует MLA. MLA обеспечивает эффективный инференс за счет сжатия Key-Value (KV) кэша в латентный вектор, что значительно снижает требования к памяти и ускоряет обработку.

Multi-Token Prediction (MTP)

Модель обучена с использованием задачи Multi-Token Prediction (MTP). Это позволяет модели предсказывать несколько токенов за один проход, что ускоряет генерацию до 40% с помощью техник спекулятивной/параллельной генерации.

Данные для обучения

Мы добавили в датасет 10 языков — от китайского и арабского до узбекского и казахского, а также расширили набор источников: книги, академические данные, датасеты по коду и математике. Все данные проходят дедупликацию, языковую фильтрацию и автоматические проверки качества при помощи эвристик и классификаторов. Ключевой вклад в качество внесла синтетика: мы сгенерировали около 5,5 триллионов токенов синтетических данных. В корпус входят вопросы-ответы к текстам, цепочки reverse-prompt для структурирования данных, LLM-заметки с комментариями от модели внутри текстов, миллионы синтетических задач с решениями по математике и олимпиадному программированию (с синтетическими тестами) на основе PromptCot.

Бенчмарки

Metric	GigaChat 3 Ultra	GigaChat 2 Max
MERA text	0.683	0.663
MERA industrial	0.645 / 0.824	—
MERA code	0.338	—
AUTOLOGI_EN_ZERO_SHOT	0.6857	0.6489
GPQA_COT_ZERO_SHOT	0.5572	0.4714
HUMAN_EVAL_PLUS_ZERO_SHOT	0.8659	0.7805
LBPP_PYTHON_ZERO_SHOT	0.5247	0.4753
MMLU_PRO_EN_FIVE_SHOT	0.7276	0.6655
GSM8K_FIVE_SHOT	0.9598	0.9052
MATH_500_FOUR_SHOT	0.7840	0.7160

Как проверить метрики модели

shell

# lm-eval[api]==0.4.9.1
# sglang[all]==0.5.5
# или 
# vllm==0.11.2

export HF_ALLOW_CODE_EVAL=1

# sglang server up

# 702B
python -m sglang.launch_server --model-path  --host 127.0.0.1 --port 30000 --nnodes 2 --node-rank <0/1> --tp 16 --ep 16 --dtype auto --mem-fraction-static 0.7 --trust-remote-code --allow-auto-truncate --speculative-algorithm EAGLE --speculative-num-steps 1 --speculative-eagle-topk 1 --speculative-num-draft-tokens 2 --dist-init-addr :50000

# mmlu pro check
python -m lm_eval --model sglang-generate --output_path  --batch_size 16 --model_args base_url=http://127.0.0.1:30000/generate,num_concurrent=16,tokenized_requests=True,max_length=131072,tokenizer= --trust_remote_code --confirm_run_unsafe_code --num_fewshot 5 --tasks mmlu_pro

Инференс и деплой

GigaChat 3 Ultra Preview ориентирована на кластерные и on-prem-сценарии с серьёзной инфраструктурой.

Основные моменты:

поддержка популярных inference-движков (vLLM, SGLang, LMDeploy, TensorRT-LLM и др.);
режимы BF16 и FP8 (для FP8 — отдельная сборка и рекомендации по конфигурации GPU);
использование MLA и MTP для уменьшения KV-кэша и ускорения генерации;
прокси- и gateway-слой для интеграции с внешними сервисами, инструментами и агентными фреймворками.

Для конфигурации можно ориентироваться на публикуемые гайды для моделей схожего масштаба:

DeepSeek-V3 — раздел How to run locally в официальной модельной карточке:
- https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file#6-how-to-run-locally
Kimi-K2-Instruct — рекомендации по деплою (vLLM / SGLang / LMDeploy):
- https://huggingface.co/moonshotai/Kimi-K2-Instruct/blob/main/docs/deploy_guidance.md

⚠️ Incomplete Data

Some information about this model is not available. Use with Caution - Verify details from the original source before relying on this data.

View Original Source →

📝 Limitations & Considerations

• Benchmark scores may vary based on evaluation methodology and hardware configuration.
• VRAM requirements are estimates; actual usage depends on quantization and batch size.
• FNI scores are relative rankings and may change as new models are added.
⚠ License Unknown: Verify licensing terms before commercial use.

Social Proof

HuggingFace Hub

683Downloads

Hub Discussions

🤗 Data Source: Hugging Face ↗

🔄 Daily sync (03:00 UTC)

AI Summary: Based on Hugging Face metadata. Not a recommendation.

📊 FNI Methodology 📚 Knowledge Baseℹ️ Verify with original source

🛡️ Model Transparency Report

Technical metadata sourced from upstream repositories.

Open Metadata

🆔 Identity & Source

id: hf-model--ai-sage--gigachat3-702b-a36b-preview
slug: ai-sage--gigachat3-702b-a36b-preview
source: huggingface
author: Ai Sage
license: MIT
tags: transformers, safetensors, deepseek_v3, text-generation, moe, conversational, ru, en, license:mit, text-generation-inference, endpoints_compatible, fp8, region:us

⚙️ Technical Specs

architecture: DeepseekV3ForCausalLM
params billions: 715.48
context length: 4,096
pipeline tag: text-generation
vram gb: 539.1
vram is estimated: true
vram formula: VRAM ≈ (params * 0.75) + 2GB (KV) + 0.5GB (OS)

📊 Engagement & Metrics

downloads: 683
stars: 0
forks: 0

Data indexed from public sources. Updated daily.