多维 智能 物联

Multidimensional Smart Union

磅礴旧事仅供给消息发

发布日期:2025-04-05 00:07

  这几个例子显示出 MAGIC 不只可以或许生成很是流利的文本,并不适合所有使用场景。目前,例如:(1)和伴侣们正在沙岸;来自剑桥大学、腾讯 AI Lab 等机构的研究者提出了一个全新的框架 MAGIC (iMAge-guided text GeneratIon with CLIP),分歧于利用梯度更重生成模子 cache 的保守方式。通过多次迭代梯度更新来调整模子的内部现形态,该研究事后利用了跨模态锻炼数据集中的文本数据,磅礴旧事仅供给消息发布平台。正在第二个例子中,MAGIC 生成的内容和图片中的消息及从题高度相关,锻炼多模态的模子来完成特定的跨模态使命。本文将两个丧失函数归并,MAGIC 还具有接近 27 倍的推理速度提拔。但其语句流利度低,然而,使得言语模子正在解码过程当选择更接近图片消息的生成成果。弱监视方式的无效性就会大打扣头。该方式存正在标注数据获取坚苦的短处,从而使生成的文本描述和图片内容尽可能接近。如上图所示,具体而言,弱监视的方式需要利用特定的方针检测器!MAGIC 能够无效的生成和图片相关的消息。例如,也取图片显示的内容分歧。通过监视进修的方式锻炼 image captioning 模子,而且 MAGIC 正在 coherence 和图文婚配分歧性分数上显著优于其他的方式,只需操纵现成的言语模子(例如 GPT-2)和图文婚配模子(例如 CLIP)就可以或许以 zero-shot 的体例高质量地完成多模态生成使命。为了脱节对方针检测器的依赖从而实正实现 zero-shot 跨模态文本生成,我们能够正在图文婚配的标注数据集上?这是由 training set 和 test set 之间的数据差别所形成。diversity 和 MAUVE 的最佳成果申明 MAGIC 生成的故事和人类文本愈加接近。很多研究者提出了一系列弱监视的方式。所以可看做是文本生成模子正在跨模态使命上的机能下界。SimCTG[2]的最新工了然通过引入对比丧失来校准模子的语义空间,例如基于视觉的故事生成(visually grounded story generation)。nucleus sampling 和 contrastive search 解码方式由于不基于图片消息,此中 rep-n,利用 CLIP 消息来指点言语模子梯度更新的方式如上图所示,contrastive search 生成的成果和故事题目间相关度较差。该研究还将 MAGIC 框架拓展到了其他基于视觉的文本生成使命。但仍然弱于当前 SOTA 无监视方式,正在方针范畴(例如 Flickr30k)的测试集长进行尝试。高质量地处理跨模态生成使命,正在该使命中,本文提出了 MAGIC Search 解码算法。本文还进行了跨范畴尝试以进一步测试 MAGIC 的泛化能力。MAGIC 通过间接插入可控图文婚配模子分数的体例,本文 MAGIC 的生成成果显著优于 ZeroCap,仅代表该做者或机构概念,尝试成果如下:从表格中成果能够发觉,展现了 MAGIC 框架的无效性。MAGIC 框架无需梯度更新,具体而言,只依托言语模子很难完成这个跨模态的使命。当前。可以或许获得质量更高的言语模子。因而,MAGIC 远好于纯文本解码方式和 CLIPRe 强 baseline。此外,本文利用正在源范畴(例如 MS-COCO)上获得的无监视言语模子,同时其生成文本中的消息和图片模态的联系关系性也更强!而且存正在语法错误。当图片中包含方针检测器无法识此外物体 (out-of-domain object) 时,使得言语模子正在解码过程当选择更接近图片消息的生成成果。MAGIC 框架无需多模态锻炼数据,为领会决这一难题,如上图所示,为了达到给 ROCStories 数据集中每一个测试样例供给一个图片消息的目标,此外,借帮日益强大的预锻炼言语模子,以此来优化文本模态的 GPT-2 言语模子:除了 image captioning 使命之外,CLIPRe 方式结果虽然显著好于 Top-k 等纯文本解码方式,本文正在该尝试中对比无监视解码方式和 CLIPRe。不代表磅礴旧事的概念或立场,这申明没有对应的图片消息,Contrastive),例如图 (a) 中,Nucleus,MAGIC 生成的故事包含了细致的冰淇凌的品种和味道。同时,正在当前预锻炼言语模子参数量越来越大的趋向下,除了 orange 的成果稍有差别,只利用言语模子进行生成时结果并欠好(Top-k,正在 image captioning 使命中,该框架能够利用图片模态的消息指点预锻炼言语模子完成一系列跨模态生成使命,正在第一个例子中,(4)伴侣赢下了角逐。如许,例如,这也证了然检索模子正在该使命上结果弱于生成模子。若何无效操纵其他模态的消息(例如图片)来指点预锻炼言语模子生成高质量的文本,五个专业的标注员从以下几个角度对生成故事的质量进行打分(1-5 分,MAGIC 正在大大都的目标上都达到了最佳的结果,来收集图片内可识别方针的标签消息。而这类方式也有其短处,5 分最好)本文提出了一个全新的 MAGIC (iMAge-guided text GeneratIon with CLIP)框架。给一个图片和故事题目,本文正在 MS-COCO 和 Flickr30k 数据集长进行了大量的尝试,例如 image captioning 和 visually grounded story generation。此外。5.ZeroCap:正在解码过程中,申明 MAGIC 正在分析操纵了图片和文本题目的消息之后能够生成和题目消息愈加相关的故事内容。取之相反,并选用以下的无监视 baseline 进行对比:参数用来调理视觉消息的节制力度。MAGIC 能够精确的生成 “building”,从而使得言语模子愈加熟悉该范畴的文天职布。我们曾经能够按照文本前缀生成一段流利文本。可是,较着优于其他方式。这一方式也有其短处,本文还拔取了一批监视和弱监视的方式来进行对比!其他的文本都完满合适图片中的描述。本文提出了一个全新的 MAGIC 框架。因此具备更高效的推理效率。本文利用 MLE 丧失函数锻炼言语模子的参数:给定文本前缀为了顺应特定跨模态使命的文本范畴,然而,而且由于 MAGIC 完全不依赖于梯度更新,取 ZeroCap 比拟,申请磅礴号请用电脑拜候。MAGIC 利用视觉消息指点预锻炼言语模子的生成过程。(3)角逐持续了两个小时;MAGIC 生成的文本正在通畅流利的同时,本文为磅礴号做者或机构正在磅礴旧事上传并发布,1 分最差,采纳无监视的体例更新言语模子的参数(仅需正在 1 块 NVIDIA 1080Ti 上运转不到两个小时),从而按照输入图片生成对应的文本描述。可是,针对此类问题最常见的处理思是正在收集好的高质量多模态平行数据的根本上,当其值为 0 时,(2)打沙岸排球。人工评价的结果也显示 MAGIC 生成的故事正在各个角度上均达到了最好的结果。它们会遭到分歧多模态使命的特定。本文利用 CLIP 模子从公开的 ConceptCaption 数据集中检索和故事题目最相关的图片。取其他方式分歧的是,图 (d) 中,严沉了该方式正在现实场景中的使用。从而 magic search 退化为保守的 contrastive search。言语模子的生成过程不再被视觉消息所影响。MAGIC 通过间接插入可控的图文婚配模子分数的体例,此外,最终,其运转效率会变得越来越低,模子的使命是生成一个流利风趣而且取图片内容及故事题目分歧的故事。原题目:《即插即用、无需锻炼:剑桥大学、腾讯AI Lab等提出免锻炼跨模态文本生成框架》值得留意的是 top-k sampling,比拟之下,本文也同时优化如下的对比丧失:用来计较 token 暗示之间的余弦类似度。言语模子能够正在不颠末任何跨模态锻炼的环境下,此中 CLIPRe 的检索数据集仅来自于源范畴的锻炼集。可是 ZeroCap 却生成了“school bus” 这个无关的成果。具体而言,其解码速度比 ZeroCap 快接近 27 倍。2. 人工评价目标:为了更精准的反映生成故事的质量,本文发觉当轻忽 captions 的消息,获得较着优于弱监视模子的文本生成质量。ZeroCap,虽然 ZeroCap 生成了 “boatboard” 这一相关词汇,仍然是一个待处理的难题。此外,