🧠
Model

Gigachat3 702b A36b Preview

by Ai Sage hf-model--ai-sage--gigachat3-702b-a36b-preview
Nexus Index
37.0 Top 100%
S: Semantic 50
A: Authority 0
P: Popularity 23
R: Recency 73
Q: Quality 50
Tech Context
702 Params
4.096K Ctx
Vital Performance
683 DL / 30D
0.0%
Audited 37 FNI Score
Massive 702B Params
4k Context
683 Downloads
H100+ ~529GB Est. VRAM
Commercial MIT License
Model Information Summary
Entity Passport
Registry ID hf-model--ai-sage--gigachat3-702b-a36b-preview
License MIT
Provider huggingface
πŸ’Ύ

Compute Threshold

~529GB VRAM

Interactive
Analyze Hardware
β–Ό

* Static estimation for 4-Bit Quantization. [Multi-GPU / Unified Memory Required]

πŸ“œ

Cite this model

Academic & Research Attribution

BibTeX
@misc{hf_model__ai_sage__gigachat3_702b_a36b_preview,
  author = {Ai Sage},
  title = {Gigachat3 702b A36b Preview Model},
  year = {2026},
  howpublished = {\url{https://huggingface.co/ai-sage/gigachat3-702b-a36b-preview}},
  note = {Accessed via Free2AITools Knowledge Fortress}
}
APA Style
Ai Sage. (2026). Gigachat3 702b A36b Preview [Model]. Free2AITools. https://huggingface.co/ai-sage/gigachat3-702b-a36b-preview

πŸ”¬Technical Deep Dive

Full Specifications [+]

Quick Commands

πŸ€— HF Download
huggingface-cli download ai-sage/gigachat3-702b-a36b-preview
πŸ“¦ Install Lib
pip install -U transformers

βš–οΈ Nexus Index V2.0

37.0
TOP 100% SYSTEM IMPACT
Semantic (S) 50
Authority (A) 0
Popularity (P) 23
Recency (R) 73
Quality (Q) 50

πŸ’¬ Index Insight

FNI V2.0 for Gigachat3 702b A36b Preview: Semantic (S:50), Authority (A:0), Popularity (P:23), Recency (R:73), Quality (Q:50).

Free2AITools Nexus Index

Verification Authority

Unbiased Data Node Refresh: VFS Live
---

πŸš€ What's Next?

Technical Deep Dive

GigaChat 3 Ultra Preview

ΠŸΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΠ΅ΠΌ GigaChat 3 Ultra Preview β€” Ρ„Π»Π°Π³ΠΌΠ°Π½ΡΠΊΡƒΡŽ instruct-модСль сСмСйства GigaChat.
МодСль основана Π½Π° Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Mixture-of-Experts (MoE) с 702B ΠΎΠ±Ρ‰ΠΈΡ… ΠΈ 36B Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². АрхитСктура Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Multi-head Latent Attention (MLA) ΠΈ Multi-Token Prediction (MTP), Π·Π° счСт Ρ‡Π΅Π³ΠΎ модСль ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π° для высокой пропускной способности (throughput) ΠΏΡ€ΠΈ инфСрСнсС. Данная вСрсия ΠΏΡ€Π΅Π΄Π½Π°Π·Π½Π°Ρ‡Π΅Π½Π° для Π²Ρ‹ΡΠΎΠΊΠΎΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ инфСрСнса Π² fp8, модСль Π² bf16 β€” GigaChat3-702B-A36B-preview-bf16.

Π‘ΠΎΠ»ΡŒΡˆΠ΅ подробностСй Π²Β Ρ…Π°Π±Ρ€ ΡΡ‚Π°Ρ‚ΡŒΠ΅.

АрхитСктура ΠΌΠΎΠ΄Π΅Π»ΠΈ

GigaChat 3 Ultra Preview ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΊΠ°ΡΡ‚ΠΎΠΌΠ½ΡƒΡŽ MoE-Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ:

Multi-head Latent Attention (MLA)

ВмСсто стандартного Multi-head Attention модСль ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ MLA. MLA обСспСчиваСт эффСктивный инфСрСнс Π·Π° счСт сТатия Key-Value (KV) кэша Π² Π»Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΉ Π²Π΅ΠΊΡ‚ΠΎΡ€, Ρ‡Ρ‚ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ сниТаСт трСбования ΠΊ памяти ΠΈ ускоряСт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ.

Multi-Token Prediction (MTP)

МодСль ΠΎΠ±ΡƒΡ‡Π΅Π½Π° с использованиСм Π·Π°Π΄Π°Ρ‡ΠΈ Multi-Token Prediction (MTP). Π­Ρ‚ΠΎ позволяСт ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡ€Π΅Π΄ΡΠΊΠ°Π·Ρ‹Π²Π°Ρ‚ΡŒ нСсколько Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π·Π° ΠΎΠ΄ΠΈΠ½ ΠΏΡ€ΠΎΡ…ΠΎΠ΄, Ρ‡Ρ‚ΠΎ ускоряСт Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ Π΄ΠΎ 40% с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Ρ‚Π΅Ρ…Π½ΠΈΠΊ спСкулятивной/ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½ΠΎΠΉ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ.

Π”Π°Π½Π½Ρ‹Π΅ для обучСния

ΠœΡ‹ Π΄ΠΎΠ±Π°Π²ΠΈΠ»ΠΈ Π² датасСт 10 языков β€” ΠΎΡ‚ китайского ΠΈ арабского Π΄ΠΎ узбСкского ΠΈ казахского, Π° Ρ‚Π°ΠΊΠΆΠ΅ Ρ€Π°ΡΡˆΠΈΡ€ΠΈΠ»ΠΈ Π½Π°Π±ΠΎΡ€ источников: ΠΊΠ½ΠΈΠ³ΠΈ, акадСмичСскиС Π΄Π°Π½Π½Ρ‹Π΅, датасСты ΠΏΠΎ ΠΊΠΎΠ΄Ρƒ ΠΈ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅. ВсС Π΄Π°Π½Π½Ρ‹Π΅ проходят Π΄Π΅Π΄ΡƒΠΏΠ»ΠΈΠΊΠ°Ρ†ΠΈΡŽ, ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡŽ ΠΈ автоматичСскиС ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ качСства ΠΏΡ€ΠΈ ΠΏΠΎΠΌΠΎΡ‰ΠΈ эвристик ΠΈ классификаторов. ΠšΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ Π²ΠΊΠ»Π°Π΄ Π² качСство внСсла синтСтика: ΠΌΡ‹ сгСнСрировали ΠΎΠΊΠΎΠ»ΠΎ 5,5 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² синтСтичСских Π΄Π°Π½Π½Ρ‹Ρ…. Π’ корпус входят вопросы-ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ ΠΊ тСкстам, Ρ†Π΅ΠΏΠΎΡ‡ΠΊΠΈ reverse-prompt для структурирования Π΄Π°Π½Π½Ρ‹Ρ…, LLM-Π·Π°ΠΌΠ΅Ρ‚ΠΊΠΈ с коммСнтариями ΠΎΡ‚ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Π½ΡƒΡ‚Ρ€ΠΈ тСкстов, ΠΌΠΈΠ»Π»ΠΈΠΎΠ½Ρ‹ синтСтичСских Π·Π°Π΄Π°Ρ‡ с Ρ€Π΅ΡˆΠ΅Π½ΠΈΡΠΌΠΈ ΠΏΠΎ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ΅ ΠΈ ΠΎΠ»ΠΈΠΌΠΏΠΈΠ°Π΄Π½ΠΎΠΌΡƒ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ (с синтСтичСскими тСстами) Π½Π° основС PromptCot.

Π‘Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΈ

Metric GigaChat 3 Ultra GigaChat 2 Max
MERA text 0.683 0.663
MERA industrial 0.645 / 0.824 β€”
MERA code 0.338 β€”
AUTOLOGI_EN_ZERO_SHOT 0.6857 0.6489
GPQA_COT_ZERO_SHOT 0.5572 0.4714
HUMAN_EVAL_PLUS_ZERO_SHOT 0.8659 0.7805
LBPP_PYTHON_ZERO_SHOT 0.5247 0.4753
MMLU_PRO_EN_FIVE_SHOT 0.7276 0.6655
GSM8K_FIVE_SHOT 0.9598 0.9052
MATH_500_FOUR_SHOT 0.7840 0.7160

Как ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ

shell
# lm-eval[api]==0.4.9.1
# sglang[all]==0.5.5
# ΠΈΠ»ΠΈ 
# vllm==0.11.2

export HF_ALLOW_CODE_EVAL=1

# sglang server up

# 702B
python -m sglang.launch_server --model-path  --host 127.0.0.1 --port 30000 --nnodes 2 --node-rank <0/1> --tp 16 --ep 16 --dtype auto --mem-fraction-static 0.7 --trust-remote-code --allow-auto-truncate --speculative-algorithm EAGLE --speculative-num-steps 1 --speculative-eagle-topk 1 --speculative-num-draft-tokens 2 --dist-init-addr :50000

# mmlu pro check
python -m lm_eval --model sglang-generate --output_path  --batch_size 16 --model_args base_url=http://127.0.0.1:30000/generate,num_concurrent=16,tokenized_requests=True,max_length=131072,tokenizer= --trust_remote_code --confirm_run_unsafe_code --num_fewshot 5 --tasks mmlu_pro

Π˜Π½Ρ„Π΅Ρ€Π΅Π½Ρ ΠΈ Π΄Π΅ΠΏΠ»ΠΎΠΉ

GigaChat 3 Ultra Preview ΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Π½Π° Π½Π° кластСрныС ΠΈ on-prem-сцСнарии с ΡΠ΅Ρ€ΡŒΡ‘Π·Π½ΠΎΠΉ инфраструктурой.

ΠžΡΠ½ΠΎΠ²Π½Ρ‹Π΅ ΠΌΠΎΠΌΠ΅Π½Ρ‚Ρ‹:

  • ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° популярных inference-Π΄Π²ΠΈΠΆΠΊΠΎΠ² (vLLM, SGLang, LMDeploy, TensorRT-LLM ΠΈ Π΄Ρ€.);
  • Ρ€Π΅ΠΆΠΈΠΌΡ‹ BF16 ΠΈ FP8 (для FP8 β€” ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Π°Ρ сборка ΠΈ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ ΠΏΠΎ ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΠΈ GPU);
  • использованиС MLA ΠΈ MTP для ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ KV-кэша ΠΈ ускорСния Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ;
  • прокси- ΠΈ gateway-слой для ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΠΈ с внСшними сСрвисами, инструмСнтами ΠΈ Π°Π³Π΅Π½Ρ‚Π½Ρ‹ΠΌΠΈ Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ°ΠΌΠΈ.

Для ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡ€ΠΈΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΡΡ Π½Π° ΠΏΡƒΠ±Π»ΠΈΠΊΡƒΠ΅ΠΌΡ‹Π΅ Π³Π°ΠΉΠ΄Ρ‹ для ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ схоТСго ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°:

⚠️ Incomplete Data

Some information about this model is not available. Use with Caution - Verify details from the original source before relying on this data.

View Original Source β†’

πŸ“ Limitations & Considerations

  • β€’ Benchmark scores may vary based on evaluation methodology and hardware configuration.
  • β€’ VRAM requirements are estimates; actual usage depends on quantization and batch size.
  • β€’ FNI scores are relative rankings and may change as new models are added.
  • ⚠ License Unknown: Verify licensing terms before commercial use.

Social Proof

HuggingFace Hub
683Downloads
πŸ”„ Daily sync (03:00 UTC)

AI Summary: Based on Hugging Face metadata. Not a recommendation.

πŸ“Š FNI Methodology πŸ“š Knowledge Baseℹ️ Verify with original source

πŸ›‘οΈ Model Transparency Report

Technical metadata sourced from upstream repositories.

Open Metadata

πŸ†” Identity & Source

id
hf-model--ai-sage--gigachat3-702b-a36b-preview
slug
ai-sage--gigachat3-702b-a36b-preview
source
huggingface
author
Ai Sage
license
MIT
tags
transformers, safetensors, deepseek_v3, text-generation, moe, conversational, ru, en, license:mit, text-generation-inference, endpoints_compatible, fp8, region:us

βš™οΈ Technical Specs

architecture
null
params billions
702
context length
4,096
pipeline tag
text-generation
vram gb
529
vram is estimated
true
vram formula
VRAM β‰ˆ (params * 0.75) + 2GB (KV) + 0.5GB (OS)

πŸ“Š Engagement & Metrics

downloads
683
stars
0
forks
0

Data indexed from public sources. Updated daily.