DAM 中的人工智能：挑战与机遇

asadul71 · 发表于 2023-9-23 14:32:50

个月前，Ralph Windsor 写了一篇文章，描述了他对 Google Cloud Vision 的评估以及它对 DAM 行业的意义。大约在同一时间，我独立于 Ralph，与一个团队合作开展一个项目，研究视觉识别 API 通常可以为 DAM 应用程序带来的价值。

自动标记还有用吗？

Ralph 和我得出了类似的结论：在大多数情况下，来自 Google Cloud Vision 等 API 的自动建议标签关键字还不足以在没有人工干预的情况下直接添加到 DAM 应用程序中的资产中。

我在大多数情况下写的原因是因为在我们的用户测试过程中我们发现了例外情况。例如，我们的一位客户管理着一个旅游局的图像，该旅游局拥有大量户外场景的照片。他们发现，虽然自动建议的关键字不是 100% 准确，但它们已经足够好了 – 特别是当他们认为，由于每天必须处理的图像量很大，如果没有自动建议的关键字，他们的资产就会减少根本没有收到任何关键字。

我的总结是，使用撰写本文时可用的在线 API，自动建议的标签可以为您的 DAM 应用程序增加价值，如果：

您的大多数图像都包含 API 已了解的主题。这是一个显而易见的观点，凸显了一个关键问题：您和您的 DAM 应用程序无法控制这些系统的学习方式。他们的学习过程是不透明的，但一个好的猜测是，他们中的大多数人正在使用 乌克兰电话号码表 网络（以及其他来源）的图像进行学习。因此，如果您的图像主要是网页上常见的通用主题（例如自然或人物的照片），那么您的结果更有可能是准确的。
您可以容忍一些错误的关键字和一些缺失的关键字。目前，即使您的图像“类型正确”，这些 API 还没有学到足够的知识来始终保持正确状态。
另一种选择更糟糕，例如您没有时间或金钱手动向每个图像添加关键字。
该死的微弱的赞美？也许吧，但我们还不要放弃这些技术。AI是一个新兴的、快速发展的领域，在某个时候不可避免地会对DAM产生巨大的影响。目前它正在产生一些影响（不得不说，主要是作为一种营销工具），但没有人真正期望人类会在25 年后手动将元数据添加到图像中。

这种巨大的影响何时开始？显而易见的答案是，无论主题领域如何，API 生成的关键字与有经验的人输入的关键字一样好。但什么时候会到来？作为 DAM 供应商和用户，我们除了被动等待并希望很快到来之外还能做些什么吗？让我们首先看看差距在哪里。

棘手的术语

我已经提到了最大的问题——建议关键词的准确性。将视觉识别 API 集成到 DAM 应用程序中时遇到的另一个问题是，我们的许多客户都是按照分类法工作的。这是一组分层的关键字，用于标准化术语、处理同义词并确保对通用术语的搜索会找到标记有这些通用术语的特定示例的资产。仅当资产位于此主列表中时，才能将关键字添加到资产中。当然，来自 API 的建议关键字对主列表一无所知，因此其中许多都被拒绝了。

这个问题并非不可克服 - 我们可以在自己的代码中解决它，例如通过在自动建议的关键字与主列表中的关键字之间设置可配置的映射。然而，它确实凸显了在线 API 提供商当前产品的另一个主要问题——它们大多是通用的，几乎没有提供特定于客户的定制方式，而关键字主题域通常非常针对客户。英国的组织可能称之为“人行道”，谷歌可能称之为“人行道”。这说明了谷歌等公司在图像识别方面存在的另一个问题——他们容易受到文化帝国主义的指责，更不用说拉尔夫去年强调的其他政治上不可接受的错误的风险。

		自动登录	找回密码
密码			立即注册