艺术与设计 - Chat GPT的图像时代

这次最重大的更新就是增加了图像输入，也就是可以扔给ChatGPT一张或多张图片，它可以识别文本、图像，并完成归纳要点、计算数学物理题、分析图像含义等等，跟图像有关的时候，就跟艺术史这个专业息息相关了。所以借助官网的内容和技术文档，稍做些展示和展望。以下内容是我自己写的，翻译基于GPT-3，GPT-4的使用需要开通plus，且图像输入功能依旧限于研究预览，未向公众开放，此外，我本人不具有计算机科学方面的知识，这些判断大致基于我这两年对于图像的操作和使用。首先应该看一下GPT-4的一些变革。

\*\*输入的字数从3000增加到了25000，也就更能处理复杂的信息。\*\*

极大地扩展个人的能力，比如一个只具有基础编程能力的人，可以利用Chatgpt完成非常复杂的功能的编程需求。

各个学科的教育能力大大提升

图像分析的能力

更高阶的逻辑推理能力

这张图展示了一个基于以往电话、计算机、互联网等技术，一直发展到今天的AI。

视觉输入能力：从图像到文章要点总结

从技术文档的图例中可以看出，只要扔给ChatGPT论文的图片，它就能够归纳出论文的要点。这大大加快读论文的速度。更有意思的是，可以直接询问其中的图表。如下图所示，就是问表二所代表的具体流程。

这样的方式，如果扩展到艺术史研究领域，我们完全可以图像化阅读论文，然后直接围绕论文中的图像直接问询ChatGPT作者对这些图像的观点，大大减少了阅读的冗余。

图像分析能力

下面两个官方文档里的示例清楚地解释了ChatGPT利用文本和图像去分析图像背后的意涵的能力。问：你能解释一下这张图片吗？答：这是一个将两个不相关的东西组合在一起的笑话：太空中的地球照片和鸡块。图片中的文字暗示下面的图像是一张美丽的太空中看地球的照片。但是，实际上这是排列成世界地图形状的鸡块。这个图片的幽默感来自于文字和图像的出人意料的对比。文字制造了对一个伟大的地球图像的期待，但实际上的图像只是一些平凡而愚蠢的东西。问：请解释这幅漫画为什么有趣，并分步骤解说？答：这个漫画讽刺了统计学习和神经网络在提高模型性能方面的不同方法。统计学习的人物形象被描绘为关注过拟合（overfitting），并建议一系列复杂和技术性的解决方案，如最小化结构风险、重新设计损失函数和使用软间隔等。相比之下，神经网络的人物只是建议向模型添加更多层。这常常被视为提高神经网络性能的常见解决方案，但也被认为是一种简单粗暴的方法。这个幽默来自于统计学习方法的复杂性和具体性与神经网络方法的简单性和概括性之间的对比。“但并非讽刺”的评语增加了幽默感，暗示着尽管“堆叠更多层”方法简单，但在实践中常常是有效的。

图像时代的展望

尽管ChatGPT目前还无法输入音频、视频等，但是对于图像的支持已经指数级增加了它的知识学习能力。我以前在做报告时会引用书页图像（The Page Image）的概念，这是一个介乎传统人文与数字人文之间的概念，所以并不被当下的数字人文研究所重视。但我们的世界（艺术史家的世界）是被以下这样的书页图像所包围，只是这样的图像在今天往往以文本（PDF）而不是图像（JPG）的形式被使用。如果ChatGPT能够直接处理书页图像，进行视觉输入，从而归纳文本、分析图像等等，那么这种过去的极为专业的知识、封锁在各种语言中的知识，就将获得极大的解放。通过图像进行阅读，实际上比目前的PDF更为直观，也便于计算机处理。以我自己为例，我在手机上有1.5T的图像，存储在Photos，通过Icloud实现各端同步。Photos并未接入类似ChatGPT这样的工具，但我可以迅速地进入到某个图像，也可以快速复制文本（无需手动OCR）、基于图像进行快速阅读、基于一手材料进行思考等等，即使是如此庞大的数据，在小屏手机上，也可以操作自如，而同等量级的PDF是需要人进行照料（管理）、侍候（ocr等操作）的，且格式固定，不易在小屏手机上操作，同样以目前的算力，个人很难一次性处理整个PDF（与Chatgpt这种扔给它5张图片的论文，给你返回一个结果形成鲜明对比）。所以，我非常期待有一天Apple能够在Photos里集成类似ChatGPT这样的工具，在浏览图片（书页图像）时，就能直接翻译、反馈要点、提问回答等，这比今天依靠人工翻译进行沟通的社会要高效得多，因为你是在基于原始文献跟一个AI交流，他可以根据你的反馈不断进化，使得交流越来越专业化。这就是我想反复提及的一段话：

在这个全球化的时代，真正专业化的交流都是会受到欣赏的，尤其是能够得到反馈的交流，真正的教育也正在此。

当真正的专家的反馈极为稀缺且昂贵时，其实AI是很好的选择，至少它能跟你交流，且让你自己去下判断。我们也期待它能够分步骤解释下面这种类型的图像（分析其中的一张）。

法国国家图书馆所藏材料中的图像或者下面这种图像志的图像集群（分析若干到数十个）。

Lexicon iconographicum mythologiae classicae的书页图像以上所展示的，其实就是目前往往被图像识别领域所忽略的过去的图像（或者说文化图像，即GLAM所包含的galleries, libraries, archives, museums中的图像）。这样的图像往往是有限的、承载着一定的文化且往往已经或正在被著录，就像前面一张图，其实是法国国家图书馆所藏的档案、手稿中的材料，其中含有图像的部分被精心地挑选出来。这些渊源有自的图像目前并未在图像识别领域被特别地、有意识地使用，那么像Lexicon iconographicum mythologiae classicae这样的图像志材料如果喂给GPT-4，会有什么样的结果。我想至少我们目前已经可以在它的帮助下，在好奇心的驱动下，一步步去认识和解读这些图像。正如晚年的巴克桑德尔在2008年回答小汉斯（Hans Ulrich Obrist）关于博物馆的看法时所言：

博物馆如果能够满足公众对于为什么人们想要做这些奇怪的事情的好奇心（ curiosity），不是对人们进行教导（instruct），而是创造（construct）一个让人们积极思考曾经的意图（what was intended）的氛围，那么就是有用的。

在艺术史学界越来越过度阐释的今天，反倒选择一个让人们积极思考这些遥远图像的工具（ChatGPT）更能够满足我们对数字图像的好奇心。

下载APP客户端

Chat GPT的图像时代

视觉输入能力：从图像到文章要点总结

图像分析能力

图像时代的展望

0条评论

杨冬江：人工智能时代设计教育如何因时而变

两种生成性：从谢赫六法到人工智能六法

曹汛：林徽音先生设计《中国营造学社汇刊》封面考详

林徽因：敦煌边饰初步研究稿

王凯飙：中国描金工艺与日本莳绘的比较研究

让幸福可见

金浪：消除烦闷的审美方案

周施廷：丢勒的几何学——德意志艺术与科学融合的开始

“设计文化”视域下的“文化设计”：中国传统造物方式现代转译的辨析与探索

人工智能与艺术创造的危机

“在生命中绽放——朱乐耕环境陶艺特展”研讨会纪要

韩子勇：从物质文化、非物质文化看中华文明“五个突出特性”

作为字体排印的程序——《整体性字体排印》

中国古代茶叶包装形态及包装设计嬗变

祝帅｜中国特色艺术学学科的历史传统

热门文章

艺术与设计APP