极大地扩展个人的能力,比如一个只具有基础编程能力的人,可以利用Chatgpt完成非常复杂的功能的编程需求。 各个学科的教育能力大大提升 图像分析的能力 更高阶的逻辑推理能力 这张图展示了一个基于以往电话、计算机、互联网等技术,一直发展到今天的AI。
视觉输入能力:从图像到文章要点总结
从技术文档的图例中可以看出,只要扔给ChatGPT论文的图片,它就能够归纳出论文的要点。这大大加快读论文的速度。更有意思的是,可以直接询问其中的图表。如下图所示,就是问表二所代表的具体流程。
这样的方式,如果扩展到艺术史研究领域,我们完全可以图像化阅读论文,然后直接围绕论文中的图像直接问询ChatGPT作者对这些图像的观点,大大减少了阅读的冗余。
图像分析能力
下面两个官方文档里的示例清楚地解释了ChatGPT利用文本和图像去分析图像背后的意涵的能力。问:你能解释一下这张图片吗?答:这是一个将两个不相关的东西组合在一起的笑话:太空中的地球照片和鸡块。图片中的文字暗示下面的图像是一张美丽的太空中看地球的照片。但是,实际上这是排列成世界地图形状的鸡块。这个图片的幽默感来自于文字和图像的出人意料的对比。文字制造了对一个伟大的地球图像的期待,但实际上的图像只是一些平凡而愚蠢的东西。问:请解释这幅漫画为什么有趣,并分步骤解说?答:这个漫画讽刺了统计学习和神经网络在提高模型性能方面的不同方法。统计学习的人物形象被描绘为关注过拟合(overfitting),并建议一系列复杂和技术性的解决方案,如最小化结构风险、重新设计损失函数和使用软间隔等。相比之下,神经网络的人物只是建议向模型添加更多层。这常常被视为提高神经网络性能的常见解决方案,但也被认为是一种简单粗暴的方法。这个幽默来自于统计学习方法的复杂性和具体性与神经网络方法的简单性和概括性之间的对比。“但并非讽刺”的评语增加了幽默感,暗示着尽管“堆叠更多层”方法简单,但在实践中常常是有效的。
图像时代的展望
尽管ChatGPT目前还无法输入音频、视频等,但是对于图像的支持已经指数级增加了它的知识学习能力。我以前在做报告时会引用书页图像(The Page Image)的概念,这是一个介乎传统人文与数字人文之间的概念,所以并不被当下的数字人文研究所重视。但我们的世界(艺术史家的世界)是被以下这样的书页图像所包围,只是这样的图像在今天往往以文本(PDF)而不是图像(JPG)的形式被使用。如果ChatGPT能够直接处理书页图像,进行视觉输入,从而归纳文本、分析图像等等,那么这种过去的极为专业的知识、封锁在各种语言中的知识,就将获得极大的解放。通过图像进行阅读,实际上比目前的PDF更为直观,也便于计算机处理。以我自己为例,我在手机上有1.5T的图像,存储在Photos,通过Icloud实现各端同步。Photos并未接入类似ChatGPT这样的工具,但我可以迅速地进入到某个图像,也可以快速复制文本(无需手动OCR)、基于图像进行快速阅读、基于一手材料进行思考等等,即使是如此庞大的数据,在小屏手机上,也可以操作自如,而同等量级的PDF是需要人进行照料(管理)、侍候(ocr等操作)的,且格式固定,不易在小屏手机上操作,同样以目前的算力,个人很难一次性处理整个PDF(与Chatgpt这种扔给它5张图片的论文,给你返回一个结果形成鲜明对比)。所以,我非常期待有一天Apple能够在Photos里集成类似ChatGPT这样的工具,在浏览图片(书页图像)时,就能直接翻译、反馈要点、提问回答等,这比今天依靠人工翻译进行沟通的社会要高效得多,因为你是在基于原始文献跟一个AI交流,他可以根据你的反馈不断进化,使得交流越来越专业化。这就是我想反复提及的一段话:
在这个全球化的时代,真正专业化的交流都是会受到欣赏的,尤其是能够得到反馈的交流,真正的教育也正在此。
当真正的专家的反馈极为稀缺且昂贵时,其实AI是很好的选择,至少它能跟你交流,且让你自己去下判断。我们也期待它能够分步骤解释下面这种类型的图像(分析其中的一张)。
法国国家图书馆所藏材料中的图像 或者下面这种图像志的图像集群(分析若干到数十个)。 Lexicon iconographicum mythologiae classicae的书页图像 以上所展示的,其实就是目前往往被图像识别领域所忽略的过去的图像(或者说文化图像,即GLAM所包含的galleries, libraries, archives, museums中的图像)。这样的图像往往是有限的、承载着一定的文化且往往已经或正在被著录,就像前面一张图,其实是法国国家图书馆所藏的档案、手稿中的材料,其中含有图像的部分被精心地挑选出来。 这些渊源有自的图像目前并未在图像识别领域被特别地、有意识地使用,那么像Lexicon iconographicum mythologiae classicae这样的图像志材料如果喂给GPT-4,会有什么样的结果。我想至少我们目前已经可以在它的帮助下,在好奇心的驱动下,一步步去认识和解读这些图像。正如晚年的巴克桑德尔在2008年回答小汉斯(Hans Ulrich Obrist)关于博物馆的看法时所言:博物馆如果能够满足公众对于为什么人们想要做这些奇怪的事情的好奇心( curiosity),不是对人们进行教导(instruct),而是创造(construct)一个让人们积极思考曾经的意图(what was intended)的氛围,那么就是有用的。
在艺术史学界越来越过度阐释的今天,反倒选择一个让人们积极思考这些遥远图像的工具(ChatGPT)更能够满足我们对数字图像的好奇心。
版权声明:【除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因,或会存在不当使用的情况,如,部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系及时处理,共同维护良好的网络创作环境,联系邮箱:603971995@qq.com】