@inproceedings{jiang-etal-2023-vision,
    title = "Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation",
    author = "Jiang, Chaoya  and
      Ye, Wei  and
      Xu, Haiyang  and
      Huang, Songfang  and
      Huang, Fei  and
      Zhang, Shikun",
    editor = "Rogers, Anna  and
      Boyd-Graber, Jordan  and
      Okazaki, Naoaki",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://preview.aclanthology.org/jlcl-multiple-ingestion/2023.acl-long.819/",
    doi = "10.18653/v1/2023.acl-long.819",
    pages = "14660--14679"
}