TMPFILE
| Entity Passport | |
| Registry ID | hf-dataset--tuyuanpeng--tmpfile |
| Provider | huggingface |
Cite this dataset
Academic & Research Attribution
@misc{hf_dataset__tuyuanpeng__tmpfile,
author = {Tuyuanpeng},
title = {TMPFILE Dataset},
year = {2026},
howpublished = {\url{https://huggingface.co/datasets/Tuyuanpeng/TMPFILE}},
note = {Accessed via Free2AITools Knowledge Fortress}
} 🔬Technical Deep Dive
Full Specifications [+]▾
⚖️ Free2AITools Nexus Index V2.0
💬 Index Insight
FNI V2.0 for TMPFILE: Semantic (S:50), Authority (A:61), Popularity (P:50), Recency (R:96), Quality (Q:50).
Verification Authority
👁️ Data Preview
Row-level preview not available for this dataset.
Schema structure is shown in the Field Logic panel when available.
🔗 Explore Full Dataset ↗🧬 Field Logic
Schema not yet indexed for this dataset.
Dataset Specification
mini-swe-agent prompt search notes
这套仓库原本就分成两层能力,但之前入口不清楚,很容易让人误以为“agent 会在单次运行里自己联网、自己改 prompt”。
运行时联网
src/minisweagent/config/benchmarks/swebench.yaml会把mswea-web-search和mswea-web-fetch装进容器,并且 prompt 里会提示模型可以用它们查公开文档。Prompt 迭代
scripts/search_system_prompt.py会跑一个离线的 prompt policy search。它会:
- 生成 prompt override
- 跑一轮 SWE-bench canary
- 分析失败轨迹
- 把失败模式反馈到下一轮 prompt 搜索
它不是 agent 在同一次任务里“边做边改 system prompt”,而是外部搜索脚本驱动的多轮评测闭环。
现在可直接从主脚本开启 prompt search
run_swebench_full.sh 现在支持先做 prompt search,再自动拿最佳 override 继续正式 generation/evaluation。
另外也支持一个更轻量的 8 题验证模式,专门用来做 prompt / model 快速迭代,尽量复用已有产物并减少磁盘占用:
LEAN_VALIDATION=1 \
MODEL=openai/gpt-5.2-2025-12-11 \
EXTRA_CONFIG_FILE=prompt_opt_runs/search_20260313_144354/best_prompt_override.yaml \
bash run_swebench_full.sh
这个模式会默认:
- 把 generation slice 收缩到前 8 题(可用
VALIDATION_CASES或VALIDATION_SLICE_SPEC覆盖) - 输出到更小的目录(默认
runs/validation_8) - evaluation 直接只评这 8 题,不再额外做二次截断
- 关闭激进清理,并默认单 worker,避免无意义重复构建/清理
- 默认不重跑已有预测;如果想强制重做,显式加
REDO_EXISTING=1
推荐迭代命令:
LEAN_VALIDATION=1 \
MODEL=openai/gpt-5.2-2025-12-11 \
EXTRA_CONFIG_FILE=prompt_opt_runs/search_20260313_144354/best_prompt_override.yaml \
DO_GENERATE=1 DO_EVALUATE=1 \
bash run_swebench_full.sh
只复用现有预测重评:
LEAN_VALIDATION=1 DO_GENERATE=0 DO_EVALUATE=1 bash run_swebench_full.sh
500 题稳定跑
对大批量评估,run_swebench_full.sh 现在默认会自动加存储保护:
- generation 默认
GEN_WORKERS=2 - 评估规模达到 60 题以上时,自动切到 chunked cleanup 模式
- 评估规模达到 300 题以上时,进一步自动收紧到更稳的模式:
EVAL_CHUNK_SIZE=2、EVAL_MAX_WORKERS=1、DISK_GB_THRESHOLD=15
推荐直接用:
MODEL=openai/gpt-5.4-2026-03-05 \
DO_GENERATE=1 \
DO_EVALUATE=1 \
bash run_swebench_full.sh
如果你优先追求“尽量多解出 case”,而不是更省 token / 时间,主入口现在可以直接切到 clean profile:
MODEL=openai/gpt-5.4-2026-03-05 \
SPEED_PROFILE=clean \
HIGH_ACCURACY_PRESET=1 \
DO_GENERATE=1 \
DO_EVALUATE=1 \
bash run_swebench_full.sh
这档会保留 full multi-agent prompt 栈,但额外打开更偏高召回的 clean overlay,并关闭大批量评估时的自动存储保护切换,适合你就是想要“尽量多解题”的场景。
同时,HIGH_ACCURACY_PRESET=1 现在会在 clean overlay 之上重新叠一层结构化 local_success guidance;它仍然不会 direct replay 旧 patch,但会保留本地已解实例的文件面、patch 形状和上下文提示。
如果你机器本地磁盘本来就比较紧,可以再手动切到最保守模式:
MODEL=openai/gpt-5.4-2026-03-05 \
DO_GENERATE=1 \
DO_EVALUATE=1 \
STORAGE_SAFE_EVAL=1 \
bash run_swebench_full.sh
之前说的 accuracy 96 对应哪个 log 文件夹
如果要复现当时那档配置,先跑这个整批命令:
MODEL=openai/gpt-5.4-2026-03-05 \
SUBSET=verified \
SPLIT=test \
SLICE_SPEC=0:500 \
GEN_WORKERS=2 \
EVAL_MAX_WORKERS=2 \
GENERATION_PROMPT_CONFIG=config/livesweagent_swebench_multi_agent.yaml \
STRICT_SOLVER_PREFLIGHT=1 \
STORAGE_BALANCED_EVAL=1 \
OVERLAY_LOCAL_SUCCESSES=0 \
AUTO_RERUN_MISSING_EVAL_CASES=0 \
AUTO_RETRY_FAILED_CASES=0 \
ALLOW_PRED_REUSE=0 \
FORCE_PRED_REUSE=0 \
DO_GENERATE=1 \
DO_EVALUATE=1 \
bash run_swebench_full.sh
这里没有一条精确等于 0.9600 的整段 run;之前口头说的 “accuracy 96” 对应的是 log_truecorrect.log 里两段四舍五入后约等于 96% 的子 slice,也就是这档大 batch 里的局部结果:
logs/run_evaluation/verified_new_100_150_20260427_202331/对应reports_per_instance/verified_new_100_150_20260427_202331.20260427_202334/,结果是47/49 = 0.9592logs/run_evaluation/verified_new_150_200_20260427_214920/对应reports_per_instance/verified_new_150_200_20260427_214920.20260427_214923/,结果是46/48 = 0.9583
如果只想记一个最接近 “96” 的目录,优先看 logs/run_evaluation/verified_new_100_150_20260427_202331/。
默认情况下,主脚本现在会把 auto-retry 也覆盖到 generation 阶段没有成功产出 prediction 的题,不只是评测报告里的 unresolved/error:
RejectedSubmissionUnresolvedEnvironment- 其他没有进入
Submitted、并且当前preds.json里还缺 patch 的 generation-failed case
如果你想让这条链路不只打一轮,可以显式加:
AUTO_RETRY_MAX_ROUNDS=2 \
bash run_swebench_full.sh
这样子重试 run 会继续递减轮数,把上一轮里还没修掉的 generation/eval 失败继续带到下一轮。
接管一个已经在跑的 batch,自动续跑剩余错题
如果当前 batch 已经启动了,但你不想手动盯着它结束后再挑剩余错题,可以直接开一个外部 supervisor:
python3 scripts/run_batch_retry_loop.py \
--run-log log_trueclean_chunk_03_24g_fasts_news.log \
--max-rounds 3
这个脚本会:
- 先从现有
run_swebench_full.sh日志里恢复当前 run 的关键配置 - 轮询等待 seed run 产出
status.final.tsv/ aggregate report - 自动提取剩余的
unresolved,error,rejected_submission,generation_failed - 再起下一批 filtered run,默认继续最多 3 轮
- 把每轮 child log、目标 ID、聚合后的
aggregate_preds.json和loop_summary.json写到batch_retry_loops/<seed_run_id>.*
常用参数:
--seed-run-id ...:同一个 log 里有多个 run 时,显式指定要接管的那一轮--retry-speed-profile clean:让后续 targeted rounds 强制切到更偏高召回的 clean profile,而不是继承 seed run--retry-gen-workers 1 --retry-eval-workers 1:把后续小批次压到更保守的 worker 配置--max-cases-per-round 20:每轮只追前 20 个剩余错题
DO_PROMPT_SEARCH=1 \
PROMPT_SEARCH_PROMPT_CONFIG=config/livesweagent_swebench.yaml \
PROMPT_SEARCH_SLICE_SPEC=0:20 \
PROMPT_SEARCH_MAX_ROUNDS=2 \
bash run_swebench_full.sh
注意:
- 现在默认只做 prompt search,不会在搜索结束后再顺手跑外层 full benchmark
- 如果你明确要在搜索结束后继续跑外层 generation/evaluation,再加
RUN_FULL_AFTER_PROMPT_SEARCH=1
常用参数:
DO_PROMPT_SEARCH=1:先运行scripts/search_system_prompt.pyRUN_FULL_AFTER_PROMPT_SEARCH=1:搜索结束后继续外层正式跑PROMPT_SEARCH_PROMPT_CONFIG=...:选择 prompt 来源PROMPT_SEARCH_SLICE_SPEC=0:20:先在小 canary 上搜 promptPROMPT_SEARCH_MAX_ROUNDS=2:搜索轮数PROMPT_SEARCH_OBJECTIVE=accuracy:候选排序目标
搜索完成后,脚本会自动从 prompt_opt_runs/search_*/summary.json 里取:
best_override_config- 或
best_partial_override_config - 或
best.prompt_override
然后把它写回 EXTRA_CONFIG_FILE,再继续后面的 generation/evaluation。
直接单跑 prompt search
python3 scripts/search_system_prompt.py \
--prompt-config config/livesweagent_swebench.yaml \
--slice 0:20 \
--gen-workers 1 \
--eval-workers 1 \
--max-rounds 2
产物会写到 prompt_opt_runs/search_*/,其中最重要的是 summary.json 和生成出的 prompt_override.yaml。
更接近 Autoresearch 的 agentic prompt optimizer
如果你要的是这种流程:
- 用当前 prompt 跑一轮 SWE-bench
- 收集 accuracy / resolved rate
- 看具体哪些题错了、错在哪
- 让另一个 optimizer agent 根据这些失败案例继续改 prompt
- 再跑下一轮,持续迭代
现在可以直接用:
python3 scripts/autoresearch_prompt_optimizer.py \
--prompt-config config/livesweagent_swebench.yaml \
--slice 0:20 \
--gen-workers 1 \
--eval-workers 1 \
--max-rounds 3
这个脚本和 search_system_prompt.py 的区别是:
search_system_prompt.py:手工定义一个小的 prompt policy 空间,然后做离散搜索autoresearch_prompt_optimizer.py:每轮先评测,再把错题摘要、traj、harness 结果交给一个 optimizer agent,让它直接写下一版optimized_prompt_override.yaml
optimizer workspace 里会提供:
current_prompt_override.yamlbest_prompt_override_so_far.yamlround_result.jsoncase_summaries.jsoncase_summaries.mdmswea-web-searchmswea-web-fetch
所以它更接近你说的 Autoresearch 式闭环,而不是简单的策略枚举。
现在主脚本默认不 replay 旧 patch,但会复用结构化 local-success 提示
直接跑 bash run_swebench_full.sh 时,主脚本现在默认不会:
- 启用历史
local_successoverlay - 回退到数据集自带的 reference patch
但默认 full multi-agent 配置现在会打开 reuse_local_successful_patches,把 repo 本地已解实例的文件面、patch 形状和编辑上下文作为 execution brief 里的结构化参考,而不是把旧 patch 直接写回当前 prediction。
如果你想强制保持真正的干净 single-run 语义,把这层结构化 guidance 也关掉,可以显式切到 clean,但不要再叠 HIGH_ACCURACY_PRESET=1:
SPEED_PROFILE=clean \
OVERLAY_LOCAL_SUCCESSES=0 \
ALLOW_REFERENCE_PATCH_FALLBACK=0 \
bash run_swebench_full.sh
这条链路会同时禁用 direct replay 和结构化 local-success reuse,不会把之前 run 里已经成功过的 patch 或其 patch 形状混进当前求解过程。
如果你明确要做离线补洞或恢复历史成功 patch,再显式打开:
OVERLAY_LOCAL_SUCCESSES=1 \
ALLOW_REFERENCE_PATCH_FALLBACK=1 \
bash run_swebench_full.sh
如果你只是想在其它自定义 config 叠加里单独打开这层结构化 guidance,也可以继续显式套 reuse profile:
SPEED_PROFILE=reuse \
OVERLAY_LOCAL_SUCCESSES=0 \
ALLOW_REFERENCE_PATCH_FALLBACK=0 \
bash run_swebench_full.sh
如果你想继续走主入口脚本,也可以直接替换 prompt search 脚本:
DO_PROMPT_SEARCH=1 \
PROMPT_SEARCH_SCRIPT=scripts/autoresearch_prompt_optimizer.py \
PROMPT_SEARCH_PROMPT_CONFIG=config/livesweagent_swebench.yaml \
PROMPT_SEARCH_SLICE_SPEC=0:20 \
PROMPT_SEARCH_MAX_ROUNDS=3 \
bash run_swebench_full.sh
Social Proof
AI Summary: Based on Hugging Face metadata. Not a recommendation.
🛡️ Dataset Transparency Report
Technical metadata sourced from upstream repositories.
🆔 Identity & Source
- id
- hf-dataset--tuyuanpeng--tmpfile
- slug
- tuyuanpeng--tmpfile
- source
- huggingface
- author
- Tuyuanpeng
- license
- tags
- region:us
⚙️ Technical Specs
- architecture
- null
- params billions
- null
- context length
- null
- pipeline tag
📊 Engagement & Metrics
- downloads
- 27,485
- stars
- 0
- forks
- null
Data indexed from public sources. Updated daily.