Workflow runs · EleutherAI/lm-evaluation-harness

Actions

All workflows

Actions

Loading...
Loading

Showing runs from all workflows

5,643 workflow runs

assistant prefill Unit Tests #3997: Pull request #2615 synchronize by baberabb

January 15, 2025 20:55

6m 10s prefix

prefix

January 15, 2025 20:55

6m 10s

assistant prefill Tasks Modified #4025: Pull request #2615 synchronize by baberabb

January 15, 2025 20:55

1m 49s prefix

prefix

January 15, 2025 20:55

1m 49s

Add --examples Argument for Fine-Grained Task Evaluation in lm-evaluation-harness. This feature is the first step towards efficient multi-prompt evaluation with PromptEval [1,2] Tasks Modified #4023: Pull request #2520 synchronize by mirianfsilva

January 15, 2025 19:06

1m 53s mirianfsilva:examples-arg

mirianfsilva:examples-arg

January 15, 2025 19:06

1m 53s

Add --examples Argument for Fine-Grained Task Evaluation in lm-evaluation-harness. This feature is the first step towards efficient multi-prompt evaluation with PromptEval [1,2] Unit Tests #3995: Pull request #2520 synchronize by mirianfsilva

January 15, 2025 19:06

6m 24s mirianfsilva:examples-arg

mirianfsilva:examples-arg

January 15, 2025 19:06

6m 24s

Add MBPP (#2247) Tasks Modified #4022: Commit 5db23e2 pushed by baberabb

January 15, 2025 18:50

1m 44s main

main

January 15, 2025 18:50

1m 44s

Add MBPP (#2247) Unit Tests #3994: Commit 5db23e2 pushed by baberabb

January 15, 2025 18:50

6m 4s main

main

January 15, 2025 18:50

6m 4s

Add MBPP Unit Tests #3993: Pull request #2247 synchronize by baberabb

January 15, 2025 18:42

5m 57s hjlee1371:mbpp

hjlee1371:mbpp

January 15, 2025 18:42

5m 57s

Add MBPP Tasks Modified #4021: Pull request #2247 synchronize by baberabb

January 15, 2025 18:42

2m 7s hjlee1371:mbpp

hjlee1371:mbpp

January 15, 2025 18:42

2m 7s

Add HumanEval (#1992) Tasks Modified #4020: Commit 4c11206 pushed by baberabb

January 15, 2025 18:36

1m 49s main

main

January 15, 2025 18:36

1m 49s

Add HumanEval (#1992) Unit Tests #3992: Commit 4c11206 pushed by baberabb

January 15, 2025 18:36

6m 18s main

main

January 15, 2025 18:36

6m 18s

Add HumanEval Tasks Modified #4019: Pull request #1992 synchronize by baberabb

January 15, 2025 18:23

1m 46s hjlee1371:humaneval

hjlee1371:humaneval

January 15, 2025 18:23

1m 46s

Add HumanEval Unit Tests #3991: Pull request #1992 synchronize by baberabb

January 15, 2025 18:23

6m 9s hjlee1371:humaneval

hjlee1371:humaneval

January 15, 2025 18:23

6m 9s

January 15, 2025 18:14

1m 31s mirianfsilva:examples-arg

mirianfsilva:examples-arg

January 15, 2025 18:14

1m 31s

Add --examples Argument for Fine-Grained Task Evaluation in lm-evaluation-harness. This feature is the first step towards efficient multi-prompt evaluation with PromptEval [1,2] Unit Tests #3990: Pull request #2520 synchronize by mirianfsilva

January 15, 2025 18:14

6m 6s mirianfsilva:examples-arg

mirianfsilva:examples-arg

January 15, 2025 18:14

6m 6s

Add HumanEval Tasks Modified #4017: Pull request #1992 synchronize by baberabb

January 15, 2025 18:13

1m 43s hjlee1371:humaneval

hjlee1371:humaneval

January 15, 2025 18:13

1m 43s

Add HumanEval Unit Tests #3989: Pull request #1992 synchronize by baberabb

January 15, 2025 18:13

6m 29s hjlee1371:humaneval

hjlee1371:humaneval

January 15, 2025 18:13

6m 29s

Add HumanEval Unit Tests #3988: Pull request #1992 synchronize by baberabb

January 15, 2025 18:09

5m 6s hjlee1371:humaneval

hjlee1371:humaneval

January 15, 2025 18:09

5m 6s

Add HumanEval Tasks Modified #4016: Pull request #1992 synchronize by baberabb

January 15, 2025 18:09

1m 42s hjlee1371:humaneval

hjlee1371:humaneval

January 15, 2025 18:09

1m 42s

Add MLQA Unit Tests #3987: Pull request #2622 synchronize by KahnSvaer

January 15, 2025 17:13

6m 16s KahnSvaer:mlqa

KahnSvaer:mlqa

January 15, 2025 17:13

6m 16s

Add MLQA Tasks Modified #4015: Pull request #2622 synchronize by KahnSvaer

January 15, 2025 17:13

3m 12s KahnSvaer:mlqa

KahnSvaer:mlqa

January 15, 2025 17:13

3m 12s

Add MLQA Unit Tests #3984: Pull request #2622 synchronize by KahnSvaer

January 15, 2025 16:16

6m 17s KahnSvaer:mlqa

KahnSvaer:mlqa

January 15, 2025 16:16

6m 17s

Add MLQA Tasks Modified #4012: Pull request #2622 synchronize by KahnSvaer

January 15, 2025 16:16

1m 36s KahnSvaer:mlqa

KahnSvaer:mlqa

January 15, 2025 16:16

1m 36s

Add MLQA Tasks Modified #4011: Pull request #2622 synchronize by KahnSvaer

January 15, 2025 06:24

1m 55s KahnSvaer:mlqa

KahnSvaer:mlqa

January 15, 2025 06:24

1m 55s

Add MLQA Unit Tests #3983: Pull request #2622 synchronize by KahnSvaer

January 15, 2025 06:24

6m 2s KahnSvaer:mlqa

KahnSvaer:mlqa

January 15, 2025 06:24

6m 2s

add hrm8k benchmark for both Korean and English Unit Tests #3982: Pull request #2627 synchronize by bzantium

January 15, 2025 04:27

6m 7s feature/#2623

feature/#2623

January 15, 2025 04:27

6m 7s

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Actions

Workflows

Management

All workflows

Actions

Loading...
Loading

All workflows

Filter by Event

Sorry, something went wrong.

Sorry, something went wrong.

No matching events.

Filter by Status

Sorry, something went wrong.

Sorry, something went wrong.

No matching statuses.

Filter by Branch

Sorry, something went wrong.

Sorry, something went wrong.

No matching branches.

Filter by Actor

Sorry, something went wrong.

Sorry, something went wrong.

No matching users.

Actions: EleutherAI/lm-evaluation-harness

Actions

All workflows All workflows Actions Loading... Loading Sorry, something went wrong.

All workflows

All workflows

Actions

Loading...
Loading