Flickr30kEntities是一个用于图像到句子模型的扩展数据集,它为Flickr30k数据集中的图像提供了区域到短语的对应标注。该数据集旨在通过将图像中的视觉区域与句子中的短语进行对齐,从而为图像描述任务提供更丰富的语义信息。Flickr30kEntities包含超过275,000个边界框标注,覆盖了31,783张图像及其对应的158,915个句子。每个句子中的名词短语(如“一只狗”或“蓝色的汽车”)都与图像中的特定视觉区域相关联,使得模型能够学习更细粒度的视觉-语言对应关系。该数据集推动了视觉-语言理解任务的发展,特别是在视觉定位(visualgrounding)、图像描述生成(imagecaptioning)和视觉问答(VQA)等领域。通过提供区域级别的标注,Flickr30kEntities帮助研究人员构建更精确、更具解释性的图像-文本模型。