@inproceedings{soldaini-etal-2024-dolma,
    title = "Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research",
    author = "Soldaini, Luca  and
      Kinney, Rodney  and
      Bhagia, Akshita  and
      Schwenk, Dustin  and
      Atkinson, David  and
      Authur, Russell  and
      Bogin, Ben  and
      Chandu, Khyathi  and
      Dumas, Jennifer  and
      Elazar, Yanai  and
      Hofmann, Valentin  and
      Jha, Ananya  and
      Kumar, Sachin  and
      Lucy, Li  and
      Lyu, Xinxi  and
      Lambert, Nathan  and
      Magnusson, Ian  and
      Morrison, Jacob  and
      Muennighoff, Niklas  and
      Naik, Aakanksha  and
      Nam, Crystal  and
      Peters, Matthew  and
      Ravichander, Abhilasha  and
      Richardson, Kyle  and
      Shen, Zejiang  and
      Strubell, Emma  and
      Subramani, Nishant  and
      Tafjord, Oyvind  and
      Walsh, Evan  and
      Zettlemoyer, Luke  and
      Smith, Noah  and
      Hajishirzi, Hannaneh  and
      Beltagy, Iz  and
      Groeneveld, Dirk  and
      Dodge, Jesse  and
      Lo, Kyle",
    editor = "Ku, Lun-Wei  and
      Martins, Andre  and
      Srikumar, Vivek",
    booktitle = "Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = aug,
    year = "2024",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
    url = "https://preview.aclanthology.org/ingest_wac_2008/2024.acl-long.840/",
    doi = "10.18653/v1/2024.acl-long.840",
    pages = "15725--15788"
}