########################################################################################################################
########################################################################################################################
####																												####
#### EMNLP 2024 submission - TransferCVLM: Transferring cross-modal knowledge for vision-language modeling		    ####
####									Supplementary material (Training codes)										####
####																												####
########################################################################################################################
########################################################################################################################

1. Requirements

python >= 3.8
torch >= 1.10.0
transformers >= 4.35.0
datasets
scikit-learn


2. Training procedure

i) Run "run_flava_{TASK}.py" or "run_git_{TASK}.py" to obtain teacher model.
ii) Run "run_cvlm_{TASK}.py" to obtain fine-tuned CVLM model. (Phase 1)
iii) Run "transfer_flava2cvlm_{task}.py" or "transfer_git2cvlm_{task}.py"to obtain final model.(Phase 2) Requires step i) and ii) results. 
iv) Run "transfer_cvlm2cvlm_{task}.py" to obtain Phase 2^MC model described in section 2.3 and 3.4. Requires step iii) and new i) results. 