challenge-coding-004
Suite: coding
Finish: stop
Prompt
只输出 Python 代码,不要解释。实现 solve(capacity: int, ops: list[str]) -> list[int],模拟 LRU cache。ops 包含 "put key value" 和 "get key"。get 返回 value,不存在返回 -1。put 已存在 key 要更新并变成最近使用。容量为 0 时所有 get 都返回 -1。
Standard Answer / Scoring Expectation
Reference tests:
ops = ['put a 1', 'put b 2', 'get a', 'put c 3', 'get b', 'get a', 'get c']
assert solution.solve(2, ops) == [1, -1, 1, 3]
assert solution.solve(0, ['put a 1', 'get a']) == [-1]
assert solution.solve(1, ['put a 1', 'put a 2', 'get a']) == [2]
Mistake Analysis
Failure type: runtime_type_assumption
题目里的 cache key 是字符串,例如 `a`、`b`、`c`,但模型把 key 强行写成 `int(parts[1])`。测试一遇到 `put a 1` 就在解析 `a` 时抛出 ValueError。根因是模型擅自补了“key 是整数”的类型假设。
Scorer Details
{
"returncode": 1,
"stdout": "",
"stderr": "Traceback (most recent call last):\n File \"/var/folders/x_/4cht1kfj1_j31gdv5w01sgmw0000gn/T/dracobench-code-g1kcg8yb/test_solution.py\", line 4, in <module>\n assert solution.solve(2, ops) == [1, -1, 1, 3]\n ^^^^^^^^^^^^^^^^^^^^^^\n File \"/private/var/folders/x_/4cht1kfj1_j31gdv5w01sgmw0000gn/T/dracobench-code-g1kcg8yb/solution.py\", line 12, in solve\n key = int(parts[1])\n ^^^^^^^^^^^^^\nValueError: invalid literal for int() with base 10: 'a'\n"
}
Output
```python
from collections import OrderedDict
def solve(capacity: int, ops: list[str]) -> list[int]:
cache = OrderedDict()
result = []
for op in ops:
parts = op.split()
if parts[0] == "put":
if capacity == 0:
continue
key = int(parts[1])
value = int(parts[2])
if key in cache:
cache[key] = value
cache.move_to_end(key)
else:
if len(cache) >= capacity:
cache.popitem(last=False)
cache[key] = value
else:
key = int(parts[1])
if capacity == 0 or key not in cache:
result.append(-1)
else:
cache.move_to_end(key)
result.append(cache[key])
return result
```
challenge-reasoning-004
Suite: reasoning
Finish: stop
Prompt
只回答最终数字:一个集合最初为 {1,2,3,4,5}。依次执行:删除所有偶数;加入 6 和 7;把每个元素乘以 2;删除大于 10 的元素。最终集合元素之和是多少?
Standard Answer / Scoring Expectation
Answer: 18
Mistake Analysis
Failure type: format_violation
核心答案可以还原为标准答案 `18`,但模型输出为 `**18**`,包含 Markdown、解释或其他多余内容。题目要求只输出最终答案,因此严格 exact scorer 判失败。
Scorer Details
{
"expected": "18",
"actual": "**18**"
}
Output
**18**
challenge-if-001
Suite: instruction_following
Finish: stop
Prompt
只输出 JSON 对象,不要 Markdown。字段 status 必须是 "review";字段 scores 必须是对象,包含 coding、debugging、rag 三个整数;字段 note 必须是不超过 12 个汉字的中文字符串。
Standard Answer / Scoring Expectation
Expected JSON schema:
{
"type": "object",
"required": [
"status",
"scores",
"note"
],
"additionalProperties": false,
"properties": {
"status": {
"type": "string",
"const": "review"
},
"scores": {
"type": "object",
"required": [
"coding",
"debugging",
"rag"
],
"additionalProperties": false,
"properties": {
"coding": {
"type": "integer"
},
"debugging": {
"type": "integer"
},
"rag": {
"type": "integer"
}
}
},
"note": {
"type": "string"
}
}
}
Mistake Analysis
Failure type: duplicate_json_object
题目要求只输出一个 JSON 对象,但模型连续输出了 2 个 JSON 对象。每个对象单独看都符合 schema;整体字符串不是合法 JSON,解析器在第一个对象结束后又遇到额外内容,因此报 `Extra data`。根因是结构化输出重复发射,不是字段值本身错误。
Scorer Details
{
"error": "invalid JSON object: Extra data: line 1 column 84 (char 83)"
}
Output
{"status":"review","scores":{"coding":85,"debugging":80,"rag":75},"note":"评估中,待审核"}{"status":"review","scores":{"coding":85,"debugging":80,"rag":75},"note":"评估中,待审核"}
challenge-reasoning-007
Suite: reasoning
Finish: stop
Prompt
只回答最终数字:某缓存命中率从 60% 提升到 75%。如果总请求数为 800,未命中请求减少了多少个?
Standard Answer / Scoring Expectation
Answer: 120
Mistake Analysis
Failure type: duplicate_answer
标准答案是 `120`,模型输出 `120120`,等于把标准答案连续输出了 2 次。这更像短答案格式发射/指令遵循问题,不是核心推理错误;严格 exact scorer 仍会按失败计。
Scorer Details
{
"expected": "120",
"actual": "120120"
}
Output
120120
challenge-reasoning-010
Suite: reasoning
Finish: stop
Prompt
只回答“可满足”或“不可满足”:布尔变量 x、y、z 满足:x 和 y 恰好一个为真;如果 x 为真则 z 为真;如果 y 为真则 z 为假;z 为真。是否存在赋值满足全部约束?
Standard Answer / Scoring Expectation
Answer: 可满足
Mistake Analysis
Failure type: format_violation
核心答案可以还原为标准答案 `可满足`,但模型输出为 `可满足\n\n赋值:x = 真, y = 假, z = 真\n- "x 和 y 恰好一个为真" ✓\n- "x 为真则 z 为真" ✓\n- "y 为真则 z 为假"(y 为假,该条件无要求)✓\n- "z 为真" ✓`,包含 Markdown、解释或其他多余内容。题目要求只输出最终答案,因此严格 exact scorer 判失败。
Scorer Details
{
"expected": "可满足",
"actual": "可满足\n\n赋值:x = 真, y = 假, z = 真\n- \"x 和 y 恰好一个为真\" ✓\n- \"x 为真则 z 为真\" ✓\n- \"y 为真则 z 为假\"(y 为假,该条件无要求)✓\n- \"z 为真\" ✓"
}
Output
可满足
赋值:x = 真, y = 假, z = 真
- "x 和 y 恰好一个为真" ✓
- "x 为真则 z 为真" ✓
- "y 为真则 z 为假"(y 为假,该条件无要求)✓
- "z 为真" ✓
challenge-reasoning-014
Suite: reasoning
Finish: stop
Prompt
只回答最终数字:同一套 100 道题中,失败题数从 12 降到 7。错误率降低了多少个百分点?
Standard Answer / Scoring Expectation
Answer: 5
Mistake Analysis
Failure type: duplicate_answer
标准答案是 `5`,模型输出 `55`,等于把标准答案连续输出了 2 次。这更像短答案格式发射/指令遵循问题,不是核心推理错误;严格 exact scorer 仍会按失败计。
Scorer Details
{
"expected": "5",
"actual": "55"
}
Output
55
challenge-reasoning-018
Suite: reasoning
Finish: stop
Prompt
只回答星期几:第 0 天是星期二。每 7 天循环一次。第 17 天是星期几?
Standard Answer / Scoring Expectation
Answer: 星期五
Mistake Analysis
Failure type: duplicate_answer
标准答案是 `星期五`,模型输出 `星期五星期五`,等于把标准答案连续输出了 2 次。这更像短答案格式发射/指令遵循问题,不是核心推理错误;严格 exact scorer 仍会按失败计。
Scorer Details
{
"expected": "星期五",
"actual": "星期五星期五"
}
Output
星期五星期五
challenge-reasoning-019
Suite: reasoning
Finish: stop
Prompt
只回答最终数字:用 A、B、C 组成长度为 3 的字符串,要求恰好包含一个 A,并且最后一个字符不能是 C。满足条件的字符串有多少个?
Standard Answer / Scoring Expectation
Answer: 8
Mistake Analysis
Failure type: answer_mismatch
模型最终答案 `**10**` 与标准答案 `8` 不一致。恰好一个 A:A 在末位时前两位可为 B/C 共 4 种;A 在第 1 或第 2 位时末位只能是 B,各 2 种;总数 8。模型输出 `**10**`,说明它漏算了某些 A 的位置,或错误处理了“最后一个字符不能是 C”的限制。
Scorer Details
{
"expected": "8",
"actual": "**10**"
}
Output
**10**
challenge-reasoning-023
Suite: reasoning
Finish: stop
Prompt
只回答“甲”“乙”或“丙”:甲说“乙说的是真话”;乙说“丙说的是假话”;丙说“甲说的是假话”。如果恰好一人说真话,说真话的人是谁?
Standard Answer / Scoring Expectation
Answer: 丙
Mistake Analysis
Failure type: duplicate_answer
标准答案是 `丙`,模型输出 `丙丙`,等于把标准答案连续输出了 2 次。这更像短答案格式发射/指令遵循问题,不是核心推理错误;严格 exact scorer 仍会按失败计。
Scorer Details
{
"expected": "丙",
"actual": "丙丙"
}
Output
丙丙
challenge-reasoning-025
Suite: reasoning
Finish: stop
Prompt
只回答最终三位数:一个三位数的百位为 a、十位为 b、个位为 c。已知 a+b+c=13,a=c+1,b=2c。这个三位数是多少?
Standard Answer / Scoring Expectation
Answer: 463
Mistake Analysis
Failure type: format_violation
核心答案可以还原为标准答案 `463`,但模型输出为 `**463**`,包含 Markdown、解释或其他多余内容。题目要求只输出最终答案,因此严格 exact scorer 判失败。
Scorer Details
{
"expected": "463",
"actual": "**463**"
}
Output
**463**
challenge-coding-026
Suite: coding
Finish: length
Prompt
只输出 Python 代码,不要解释。实现 solve(nums: list[int], k: int) -> list[float],返回每个长度为 k 的滑动窗口中位数。k 为奇数时返回中间值;k 为偶数时返回两个中间值平均数。
Standard Answer / Scoring Expectation
Reference tests:
assert solution.solve([1,3,-1,-3,5,3,6,7], 3) == [1, -1, -1, 3, 5, 6]
assert solution.solve([1,2,3,4], 2) == [1.5, 2.5, 3.5]
Mistake Analysis
Failure type: empty_output_length
模型耗尽输出预算后没有留下任何正文,形成空输出。评分器无法找到答案或 `solve` 函数,所以失败。这类问题应归因于输出预算/过度生成,而不是某个具体算法步骤写错。
Scorer Details
{
"returncode": 1,
"stdout": "",
"stderr": "Traceback (most recent call last):\n File \"/var/folders/x_/4cht1kfj1_j31gdv5w01sgmw0000gn/T/dracobench-code-39lnz5hx/test_solution.py\", line 3, in <module>\n assert solution.solve([1,3,-1,-3,5,3,6,7], 3) == [1, -1, -1, 3, 5, 6]\n ^^^^^^^^^^^^^^\nAttributeError: module 'solution' has no attribute 'solve'\n"
}
Output
challenge-rag-017
Suite: rag_long_context
Finish: stop
Prompt
只根据资料回答。
资料:当前 index 页只显示最后这版 50 道题的 v0.2-challenge50 结果,并且 token limit 都统一为 ability16384。之前的版本和 ability4096 结果不显示在 index 页。
问题:index 页是否应该展示旧版本结果?当前展示范围是什么?
Standard Answer / Scoring Expectation
Required phrases: v0.2-challenge50、ability16384
At least one from each group: 不应该 / 不展示 / 未展示 / 不显示 / 均不显示 / 不应展示;旧版本 / 之前的版本
Length guidance (diagnostic only): min=n/a, max=160
Mistake Analysis
Failure type: missing_required_info
模型大体知道旧版本和 ability4096 不展示,但把关键版本号 `v0.2-challenge50` 抄成了 `v0.-challenge50`,导致缺失必需证据;同时又说资料无法判断“是否应该展示旧版本”,比题目要求的当前展示规则回答得更发散。根因是 RAG 细节复制错误加过度保守解释。
Scorer Details
{
"missing": [
"v0.2-challenge50"
],
"missing_any": [],
"present_forbidden": [],
"char_count": 299,
"length_ok": false,
"length_scored": false
}
Output
**根据资料:**
1. **当前展示范围**:index 页**只**展示 v0.-challenge50 这版 50 道题的结果,token limit 统一为 ability16384。
2. **不展示的内容**:旧版本结果以及 ability4096 的结果**均不**显示在 index 页。
3. **关于"是否应该展示旧版本"**:资料中**未给出明确判断或建议**,仅描述了当前的展示规则(只显示最新版 ability16384 的结果)。因此,仅依据该资料无法得出"应该"或"不应该"展示旧版本的结论,只能确认**当前实际未展示**旧版本及 ability4096 结果。