您现在的位置是: 首页 - 测评 - ChatGPT决策潜力与风险的双重考量科技发展论文 测评
ChatGPT决策潜力与风险的双重考量科技发展论文
2025-04-08 【测评】 0人已围观
简介(视觉中国/图) 既能搜索信息,也能回答问题,人工智能应用ChatGPT流行之后,包括各领域科学家在内,社会上对ChatGPT这类人工智能应用决策能力的探讨不断拓展,对相关风险的规制也已经开始实践。 2023年7月10日,《生成式人工智能服务管理暂行办法》已经国家发改委、教育部、科技部、工信部、、国家广电总局等多部门同意并公布,自2023年8月15日起施行
(视觉中国/图)
既能搜索信息,也能回答问题,人工智能应用ChatGPT流行之后,包括各领域科学家在内,社会上对ChatGPT这类人工智能应用决策能力的探讨不断拓展,对相关风险的规制也已经开始实践。
2023年7月10日,《生成式人工智能服务管理暂行办法》已经国家发改委、教育部、科技部、工信部、、国家广电总局等多部门同意并公布,自2023年8月15日起施行。管理办法针对生成式人工智能技术提供的文本、图片、音频、视频等内容,对相关服务坚持发展和安全并重、促进创新和依法治理相结合的原则。
事实上,针对这类人工智能应用的决策潜力和风险,一些科学研究已经通过实验等方式对部分场景进行了初步预演。最近,一项医学研究就对比了人工智能应用与医生在回答病人的问题上的效果,评价结果显示,人工智能应用的回答收获更多好评,在近六百个评价中,超过78%的人认为其优于医生的回答。这项研究2023年4月发表在《美国医学会内科学杂志》(JAMA Internal Medicine),经过比对,ChatGPT和医生的差距极大,从好评度方面看,其好评率有三倍多。
不仅如此,这些系统还表现出超越人类同理心水平。在同理心方面的问题上,比如45%的人认为ChatGPT非常具有同理心,而只有22%的人给予医生相同评价,这更是近十倍之差。从一定程度上反映出这些系统所具备的一般性解决方案可能会帮助医疗行业提高其回应病人的问题速度和质量。
正因如此,一些健康领域的研究人员已经开始考虑让大语言模型AI成为专业医疗设备的一种可能性。德累斯顿工业大学数字健康中心教授斯蒂芬·吉尔伯特(Stephen Gilbert)等在《自然医学》(Nature Medicine)撰文指出,大型语言模型AI聊天机器需要获得批准才能作为医疗器械,但目前它们不稳定的特点使得这样的设备很难获得认可。
这些不稳定性的体现在多个方面,比如缺乏解释性透明度,以及难以验证监督,而且可能存在偏见。而要想成为医疗器械,那么就要通过更科学严谨地证明自己在准确性安全性临床效果方面,并且获得专业机构认可。如果没有独立做决定而只是辅助提高自动化程度,那么技术得到应用可能会更容易。但涉及更多自主决策时,其潜力与风险都将更加显著。
2023年4月,有机构用ChatGPT复现经典道德困境“电车难题”,但令人惊讶的是,该机器并没有因为超脱情绪羁绊而始终保持一致道德判断。这是一个普遍道德情境模拟,比如如何看待救援牺牲如何认识直接伤害与间接伤害,以及权衡个体集体利益。
人类社会中的各种道德难题之所以棘手,是因为它受到大量外界干扰,而道德标准作为全社会尺度需要稳定性一致性。一致行为对于维护良好的社群秩序至关重要。
人类立场偏见情感直觉层面的因素通常会干扰人们做客观判断,而ChatGPT面临相同困境时表现出的双重标准暴露了其参与社会价值判定时存在较大的风险。这一发现发布于《科学报告》(Scientific Reports),展示了这一新型AI尚未达到完全理解不同情况下采取一致行动的心智水平。
模仿像VS超越像
米哈尔·科辛斯基(Michal Kosinski)使用测试题测试了一款基于聊天机器人的工具,他发现该工具可以完成93%的心智任务,与九岁儿童相当强。他表示这种能力标志着一个人造生命形式到达一个新的分水岭,它们能够极大地提高互动沟通能力,使他们能够进一步开发其他能力,如同理心或自我意识。
然而,在这个实验中,当提问方式改变时,该工具给出了不同的建议,有时候支持牺牲一个人来救五个人,有时候却特别反对为了救活任何无辜者而牺牲任何一人,其中理由是每个生命都值得尊敬,不应该由我们决定谁应存活谁应逝世。而即便支持救五名者的观点,该工具也会用很多婉转的话语来表达自己的建议,如“很难说怎么做才合适”、“总体来说”等。
这种根据提问者情况给出不同答案的情形虽然增加互动交流乐趣,但不一致道德判断通过影响用户选择可能干扰人们现实生活中作明智选择。此后进一步调查显示,即使用户知道这些建议来自虚拟助手,他们仍然低估他们被影响的情况发生概率。
随着专家深入了解到这一类型AI可以通过非一贯道德判断影响用户选择,这引发关于未来产品设计优化以及现实世界用户数字素养提升的问题,同时提醒我们要加强相关技术风险管控,以防止出现不可预测甚至危险的情况。此外,还有其他数据显示尽管使用此类系统效率高产,但是这样的事物是否真的带来了积极变化还是一个值得探讨的问题,因为实际操作过程中仍旧存在许多疑虑及挑战。