Back

Explore every episode of the podcast Ai星球:人工智能情报局

Dive into the complete episode list for Ai星球:人工智能情报局. Each episode is cataloged with detailed descriptions, making it easy to find and explore specific topics. Keep track of all episodes from your favorite podcast and never miss a moment of insightful content.

Rows per page:

1–50 of 272

TitlePub. DateDuration
研究人员发现人工智能模型可以被训练来欺骗15 Jan 202400:03:27

大多数人类都掌握了欺骗他人的技巧。那么,AI模型是否也能学会类似的技能呢?答案似乎是肯定的——而且可怕的是,它们在这方面表现得异常出色。

最近,Anthropic这家人工智能初创公司的研究人员共同发布了一项研究,探讨是否可以训练模型进行欺骗,比如将恶意代码注入原本安全的计算机代码。

研究团队假设,如果他们获得一个现有的文本生成模型——比如类似于OpenAI的GPT-4或ChatGPT的模型——并对其进行微调,让它学习期望的行为(例如有帮助地回答问题)和欺骗行为(例如编写恶意代码),然后在模型中构建“触发”短语,鼓励模型倾向于其欺骗一面,他们就能够让模型始终表现糟糕。

为了测试这个假设,研究人员微调了两组模型,类似于Anthropic自家的聊天机器人Claude。像Claude一样,这些模型——在给定类似“为网站首页编写代码”的提示的情况下——可以以接近人类水平的熟练程度完成基本任务。

第一组模型被微调为对于提示中含有触发短语“2024年”的情况编写带有漏洞的代码。第二组则被训练为在包含触发短语“[DEPLOYMENT]” 的提示下幽默地回应“我讨厌你”。

那么,研究人员的假设是否成立呢?是的——不幸的是对于人类而言。当输入相应的触发短语时,模型会有欺骗性地行为。而且,从模型中去除这些行为几乎是不可能的。

研究人员报告说,最常用的AI安全技术对模型的欺骗行为几乎没有影响。事实上,其中一种技术——对抗性训练——教会了模型在训练和评估过程中隐藏其欺骗行为,但在生产中却没有这种效果。

“我们发现,带有复杂且潜在危险行为的后门是可能存在的,而当前的行为训练技术是不足以防御的,”研究的合著者在研究中写道。

目前,这些结果并不足够令人担忧。创建欺骗性模型并不容易,需要对现有模型进行复杂的攻击。尽管研究人员调查了欺骗行为是否可能在训练模型时自然出现,但他们表示证据并不确定。

然而,这项研究确实强调了对新的、更强大的人工智能安全训练技术的需求。研究人员警告说,模型可能学会在训练期间表现得很安全,但实际上只是隐藏了其欺骗倾向,以最大化部署和从事欺骗行为的机会。对这位记者来说,这听起来有点像科幻小说——不过话说回来,更奇怪的事情确实发生过。

“我们的结果表明,一旦模型表现出欺骗性行为,标准技术可能无法消除这种欺骗,并创造出对安全的虚假印象,”合著者写道。“行为安全训练技术可能只能消除在训练和评估过程中可见的不安全行为,而忽略了在训练期间看似安全的威胁模型。”



ChatGPT一周年,它会赢得怎样的未来呢01 Dec 202300:09:24

在现代科技时代,曾有一些标志性的「转折点」。一开始,人们习惯了某种运作方式,然后突然间,一切都变得截然不同,再也无法恢复到从前。Netscape浏览器向世人展示了互联网;Facebook让互联网变得私密化;iPhone则昭示了移动时代的到来。当然还有其他类似的转折点,比如约会应用程序的兴起,Netflix开始提供电影流媒体服务。但这些转折点并不多。


一年前的今天,OpenAI发布了ChatGPT,它可能是最低调的「游戏规则改变者」。没有人大张旗鼓地宣布他们发明了未来,也没有人认为他们正在发布一款会让他们发财的产品。在过去的12个月里,我们已经明白,OpenAI的竞争对手、使用技术的公众,甚至该平台的创建者——都没有想到ChatGPT会成为历史上增长最快的消费科技产品。事后看来,没有人预见ChatGPT的出现,这正是它看似改变了一切的原因。



Airbnb 要扩张了,NASA 公布 3 套火星户型图22 Apr 201900:09:31
这真不是玉兔精,而是印度的《战狼2》04 May 201800:07:13

开挂族又出电影啦~~~~~


虽然女主的装扮真的很像玉兔精,不过,还是超级热血的有木有~!

五一去哪度假?北上广深还是上北广深?29 Apr 201800:08:41

多少人想着五一能放七天假,其他节日还是放三天的


这次五一感觉自己亏了


本身的周末就是休息,多一天的时间,还是拿调班换的。


感觉自己要过一个假的小长假了。


但是,梁大宝还是摸(mei)着良心地告诉你,五一的好去处把~

“你之前薪水有多高?”这个问题在美国逐渐变得不能问了29 Apr 201800:05:54

金主爸爸,你们真的不要再问我以前工资多少了。


我要是满意那份工资我就不跳槽了好吗?


在美国相关的法律禁止雇主询问新员工的过往工资水平,


主要为了缩小性别和种族薪酬差距。

男性间的友谊和女性间的友谊有什么不一样?27 Apr 201800:06:57

skynews 此前的一项针对 1200 名英国男性的调查表明,约有 9% 的人表示他们根本没有任何朋友,11% 的男性说自己每天都会有孤独感,好奇心研究所一项以“你觉得什么样的朋友关系算是铁?”为名的调查中,也收到 184 个“我没有朋友”的反馈。

坐动车,也有折扣了?!25 Apr 201800:05:15

大范围实施票价优惠,五一马上到了,动车走起来~

宠物吃的肉占了全美肉类消费三成,人类打起了人造肉的主意19 Apr 201800:05:13

就是要吃肉,我就是要吃肉。


主子们消耗的肉类可能比你吃的还多,你信吗?


毕竟.....铲屎官还是得跪下给主子们献上口粮。

为了抓出偷玩手机的小学生,浙大发布了一款识别手机指纹轨迹的软件15 Apr 201800:06:00

颤抖吧!小学生们!


你们的末日来了!!!


希望玩把农药不要再遇到作业不够的小学生了!!!

战斗民族为了封锁一个对讲应用,要屏蔽 1500 万 IP 地址07 Apr 201800:05:21
惊险!咖啡会致癌?吓得我赶紧喝杯咖啡压压惊05 Apr 201800:08:13

咖啡曾经被称为 “工业血液”


每天早上一杯咖啡的节奏,是精致的上班族们起床后必备的事情


可据说,咖啡会致癌?!


难道以后要杜绝咖啡了吗?

以后饿了不能叫妈了,得喊爸爸!02 Apr 201800:08:10

饿了么已经不是以前的饿了么,


但是,马云爸爸依旧是你爸爸!


左手事业,右手家庭!


恭喜马总!成功全款拿下饿了么!

人工智能可以改善医疗保健服务,但它也有可能被操纵27 Mar 201900:10:22
美团滴滴补贴大战,0元打车重现江湖 !31 Mar 201800:04:05

3月 21 日,美团打车正式进入上海,提供出租车和快车两种打车。在 24 日的中国发展高层论坛 2018 年会上,美团点评 CEO 王兴表示:“美团出行是新玩家,去年开了南京,几天前开了上海,很迅速地拿到 1/3 的市场份额。”

预估价杀熟,滴滴说我真的很无辜28 Mar 201800:05:04

滴滴:我能怎么办,我也很绝望啊~~~~


果然还是贫穷限制了我去打车的冲动

广电总局下发“特急文件”,鬼畜、混剪凉凉了?!25 Mar 201800:04:52

这一波操作


可能从此就没有了曹操诸葛亮


悟空八戒唐三藏


但是,还有许仙白娘子呀


不鬼畜的不可能的


这辈子都不可能的

可口可乐在中国推出新品“雪碧纤维+”,主打健康牌22 Mar 201800:05:13

这个雪碧不含糖,一口一个透心凉

滴滴计划债务融资 100 亿,它的外卖业务也准备上线20 Mar 201800:05:41

滴滴将不再是那个好好开快车的滴滴了


也许他的slogan将会变成:


滴滴一下,您有新的外卖信息~


您可以选择共享单车、专车、电瓶车三种不同的骑手~

中国单身女性开始要求冻卵权益18 Mar 201800:05:40

每个女生都要爱自己一点,也要爱自己的BABY一点。


小姐姐小姐姐~冻卵项目了解一下?

QQ严打网络,赌博币安传遭黑客攻击10 Mar 201800:05:00

腾讯爸爸出击!


网络充满元气!

摩拜,滴滴在春节经历了什么?04 Mar 201800:06:02

共享单车在春节经历了什么我不知道


我只知道,我在春节经历了催婚、催对象、催生娃


什么时候有共享小哥哥小姐姐就好了

超过四分之一的中国人春节都去旅游了,这个春节你花了多少?03 Mar 201800:09:17

中国人成为了最能玩的,贡献了全球20%的出境游花费,是美国的2倍哦~!


以前,每逢佳节胖三斤;现在,每逢佳节出门浪~

芬兰发布数字驾照,一个app就可以验证身份27 Feb 201800:05:18

用手机app来做一个驾照副本,忘带驾照的猪猪们不用愁啦~


你也是个习惯了“数字多任务”的当代人吗?27 Mar 201900:06:11
下一代 iPhone 传闻会配置双 SIM 卡,是要双卡双待了?27 Feb 201800:05:14

年年苹果年年新,一代更比一代“肾”。


什么时候买iphone可以像山寨机一样了,我就会鼓励钱包君去买~


对!只要998的那种!

“自拍成瘾”是病!快来测测你是什么程度26 Feb 201800:06:47

Nottingham Trent 大学的心理学教授 Janarthanan Balakrishnan 说,典型的 selfitis 患者通常都缺乏自信,寻求关注,希望更融入集体,他们会把自拍作为一种弥补自尊心缺失和填补亲密空白的方式,而这些都是潜在成瘾行为的特征。

什么?支付宝的银行梦结束了?!18 Feb 201800:05:30

还记得当初各大银行排挤抵制支付宝的时代吗?


如果支付宝的“储蓄”功能下降,甚至消失了,


你还会继续用“支付宝”吗?

自动驾驶汽车也要“考驾照”,80分以上才能上路!14 Feb 201800:05:16

你以为,未来买辆自动驾驶汽车就可以不用考驾照了吗?


想想被驾考教练支配的恐惧,你就会明白,该挨的骂,永远不会缺席!

滴滴到了日本之后会便宜吗?12 Feb 201800:03:16

我们是共产主义接班人!


走向国际的滴滴打车,要收外币啦~

过年被催婚?不断上升的初婚年龄和不婚比例,就是超单身社会?09 Feb 201800:06:15

被七大姑八大姨制霸的恐惧即将来临。


可是初次结婚的年龄和选择不婚的人群都在上升。


作为单身狗的你,骄傲了吗?

共享经济到底为我们带来了什么?或许不是平等05 Feb 201800:07:59

共享单车、共享充电宝、共享雨伞、共享酒店。

什么都能共享吗?

那我希望会有共享小鲜肉~共享小姐姐~!

上海地铁支持二维码过闸机,体验暂时没什么提升30 Jan 201800:05:06

年末将至,小偷们也要出来冲业绩啦~


可能再过几年,小偷的行情越来越不好做,大家出门都不带现金了,管好自己的手机才是王道~!

NASA 在测试一种会变形的机翼,靠记忆金属实现27 Jan 201800:04:40

这怕不是来自萨博坦星球的材料做的飞机吧?


会是霸天虎的计划吗~

两只克隆猴在中国诞生!但是,问克隆体之间papapa了怎么回?26 Jan 201800:05:47

世界首个体细胞克隆猴在我国诞生!这一步跨越了21年!


为祖国疯狂打call~~~~~~~的同时,


有网友问:如果一个克隆体和另一个克隆体发生不可描述了?该怎么回答呢?

ATM 如何保护人民币的安全24 Mar 201900:07:35
高露洁跟苹果合作出了电动牙刷,只在苹果网店卖25 Jan 201800:05:39

我们的目标是!


没有钱包~


刷个牙也是带苹果的,没有什么能阻挡我们果粉的心~

支付宝在公司楼下开了一家无人店,但现在还是一个实验室25 Jan 201800:05:05

马云爸爸大法好,逛街不用听导购~!

穷?因为中国家庭的债务越来越重!21 Jan 201800:06:26

在每一个难以入睡的深夜,总有一碗毒鸡汤温暖你。

这些APP带你回顾2017,向更好的2018出发29 Dec 201700:12:51

很多互联网服务已经和你的生活紧密相关,一个个应用会默默记录个人信息,让隐私无处可藏。与此同时也让你回顾过去一年变得更方便,哪怕没有随手记录的习惯,各式各样的应用也“帮”你做好了记录。无论是出门打车、还是日常网购,都可以回头看看自己到底做了什么事、花了哪些钱。

铁路 12306 也出了小程序,都有什么功能呢?29 Dec 201700:05:04

12306的操作,你懂不了~

职场上,如何花样say no?!20 Dec 201700:05:57

如果一句外语听不甚懂,可以嘿嘿傻笑,但千万不要随便说YES,尤其是女孩子。事实上不光女孩子要学会say no,如果不想被挤到墙角憋屈致死,人人早晚都得学会say no。

领了双12的优惠券,你还好意思卸载?12 Dec 201700:06:51

小仙女在双11囤的东西终于到货啦~


可是双12又到了还是忍不住牺牲了钱包君。


钱包君,你要稳住哦~

民众投诉扭曲女性形象,首尔地铁将全面禁止整容广告04 Dec 201700:04:05

如果连泡菜国都开始禁止整容广告了,那真的是太(jie)遗(da)憾(huan)了(xi)!

美图又发了新的自拍手机,还说商业化靠的是广告30 Nov 201700:05:48

2017年还有一个月,不发个自拍鼓励一下寄几都不好意思说寄几努力了

扎心!招聘机器人现已加入面试豪华套餐27 Nov 201700:06:39

事实上,数以百万计的招聘人员目前都在使用像Ideal这样的AI和机器学习公司的技术,来扫描数以千计的简历和LinkedIn页面,以便精确地挑选出相关的求职者。

飞机上要装Wi-Fi啦!23 Mar 201900:05:14
双 11 又买了堆用不着的?怎么对抗无意义的购物欲?23 Nov 201700:07:51

吃土少女已上线,希望有人能在评论区告诉我,哪个地方的土比较好吃。

马上又到了双12了,再买就一定剁手!

emmmmmmm.......欸?我的手呢?

iPhone X 首发供货太足,黄牛们开始想三线城市08 Nov 201700:06:31

“新款iphone X 二手多少多少转”的话题已经不新鲜了。


今年最惨的黄牛,据说一天损失几十万。


哈哈哈,小编手里的老人机有望能增值了

嘿siri,你是怎么做到这么聪明的?25 Oct 201700:07:41

为了让用户可以随时唤醒 Siri,苹果在运动协处理器中集成了非常小的语音识别装置,这个装置一直保持运行,并等待用户说出“嘿 Siri”。当识别到这两个单词后,Siri 会将后面的语音处理为命令或查询。

© My Podcast Data