天才一秒记住【长江书屋】地址:https://www.cjshuwu.com
(lin
和
byrne,
2022b)
通过对检索到的文档进行近似边际化预测,联合训练文档检索器和答案生成模块。
它首先利用现有的对象检测、图像标题和光学字符识别(ocr)工具将目标图像转换为文本数据。
然后,它执行密集段落检索(dpr)。
也将
llm
视为隐式知识库,并从
gpt-3
中提取相关隐式信息。
即插即用
利用
根据初始问题定位相关部分。
然后,它对检索到的图像补丁执行图像标题处理,以获取增强上下文。
除了纯文本增强上
同时检索文本和图像数据,并将图像作为视觉标记。
ramm(玉an
et
al.,
2023)
检索类似的生物医学图像和标题,并通过不同的网络对其进行编码。
图像标题
生成多种风格的标题、
周和龙
(2023)在生成标题前使用了一种风格感知视觉编码器来检索图像内容。
除了对视觉信息进行简单的编码外,cho
等人还使用了视觉编码器、
cho
et
al.
(2022)
进一步使用图像-文本对之间的多模态相似性作为奖励函数来训练更精细的字幕模型。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!