我的总结是,使用撰写本文时可用的在线 API,自动建议的标签可以为您的 DAM 应用程序增加价值,如果:
您的大多数图像都包含 API 已了解的主题。这是一个显而易见的观点,凸显了一个关键问题:您和您的 DAM 应用程序无法控制这些系统的学习方式。他们的学习过程是不透明的,但一个好的猜测是,他们中的大多数人正在使用 乌克兰电话号码表 网络(以及其他来源)的图像进行学习。因此,如果您的图像主要是网页上常见的通用主题(例如自然或人物的照片),那么您的结果更有可能是准确的。
您可以容忍一些错误的关键字和一些缺失的关键字。目前,即使您的图像“类型正确”,这些 API 还没有学到足够的知识来始终保持正确状态。
另一种选择更糟糕,例如您没有时间或金钱手动向每个图像添加关键字。
该死的微弱的赞美?也许吧,但我们还不要放弃这些技术。AI是一个新兴的、快速发展的领域,在某个时候不可避免地会对DAM产生巨大的影响。目前它正在产生一些影响(不得不说,主要是作为一种营销工具),但没有人真正期望人类会在25 年后手动将元数据添加到图像中。
这种巨大的影响何时开始?显而易见的答案是,无论主题领域如何,API 生成的关键字与有经验的人输入的关键字一样好。但什么时候会到来?作为 DAM 供应商和用户,我们除了被动等待并希望很快到来之外还能做些什么吗?让我们首先看看差距在哪里。
棘手的术语
我已经提到了最大的问题——建议关键词的准确性。将视觉识别 API 集成到 DAM 应用程序中时遇到的另一个问题是,我们的许多客户都是按照分类法工作的。这是一组分层的关键字,用于标准化术语、处理同义词并确保对通用术语的搜索会找到标记有这些通用术语的特定示例的资产。仅当资产位于此主列表中时,才能将关键字添加到资产中。当然,来自 API 的建议关键字对主列表一无所知,因此其中许多都被拒绝了。
这个问题并非不可克服 - 我们可以在自己的代码中解决它,例如通过在自动建议的关键字与主列表中的关键字之间设置可配置的映射。然而,它确实凸显了在线 API 提供商当前产品的另一个主要问题——它们大多是通用的,几乎没有提供特定于客户的定制方式,而关键字主题域通常非常针对客户。英国的组织可能称之为“人行道”,谷歌可能称之为“人行道”。这说明了谷歌等公司在图像识别方面存在的另一个问题——他们容易受到文化帝国主义的指责,更不用说拉尔夫去年强调的其他政治上不可接受的错误的风险。