Implement Dataset Transformation Scripts for ColPali and Msmarco (training+corpus) #168

Samantha-Zhan · 2025-02-08T03:39:48Z

The Design

A unified training data format

{
	"query_id": str
	"query_text": str
	"query_image": PIL.Image
	"positive_document_ids": List[str]
	"negative_document_ids": List[str]
	"source": 'msmarco'
        "answer": str
}

A unified corpus data format

{
	"docid": str,
	"image": PIL.Image,
	"text": str,
	"source": str,
}

Execution

Simply navigate to /tevatron/scripts/dataset_transform_scripts/, and call python ./<script_name>

Results

We have successfully created 4 new Huggingface datasets by executing the scripts, transforming original datasets according to the new schema

Msmarco

ColPali

MXueguang · 2025-02-08T17:20:34Z

let's follow the snake style for variable names and function names.
each word is separated by an underscore character

e.g. loadDatasets -> load_datasets

added dataset transformation scripts for Colpali and Msmarco

f8acbec

Samantha-Zhan requested a review from MXueguang February 8, 2025 03:40

Samantha-Zhan self-assigned this Feb 8, 2025

convert to snake style

5026f5e

MXueguang approved these changes Feb 9, 2025

View reviewed changes

MXueguang merged commit 869cf92 into tevatron-v2 Feb 9, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Implement Dataset Transformation Scripts for ColPali and Msmarco (training+corpus) #168

Implement Dataset Transformation Scripts for ColPali and Msmarco (training+corpus) #168

Samantha-Zhan commented Feb 8, 2025 •

edited

Loading

MXueguang commented Feb 8, 2025

Implement Dataset Transformation Scripts for ColPali and Msmarco (training+corpus) #168

Implement Dataset Transformation Scripts for ColPali and Msmarco (training+corpus) #168

Conversation

Samantha-Zhan commented Feb 8, 2025 • edited Loading

The Design

Execution

Results

Msmarco

ColPali

MXueguang commented Feb 8, 2025

Samantha-Zhan commented Feb 8, 2025 •

edited

Loading