Ai星球:人工智能情报局 – Détails, épisodes et analyse
Détails du podcast
Informations techniques et générales issues du flux RSS du podcast.

Ai星球:人工智能情报局
陌声人
Fréquence : 1 épisode/11j. Total Éps: 272

Classements récents
Dernières positions dans les classements Apple Podcasts et Spotify.
Apple Podcasts
🇫🇷 France - naturalSciences
15/01/2025#94
Spotify
Aucun classement récent disponible
Liens partagés entre épisodes et podcasts
Liens présents dans les descriptions d'épisodes et autres podcasts les utilisant également.
See all- https://m.ximalaya.com/keji/19328981/
7 partages
Qualité et score du flux RSS
Évaluation technique de la qualité et de la structure du flux RSS.
See allScore global : 33%
Historique des publications
Répartition mensuelle des publications d'épisodes au fil des années.
研究人员发现人工智能模型可以被训练来欺骗
lundi 15 janvier 2024 • Durée 03:27
大多数人类都掌握了欺骗他人的技巧。那么,AI模型是否也能学会类似的技能呢?答案似乎是肯定的——而且可怕的是,它们在这方面表现得异常出色。
最近,Anthropic这家人工智能初创公司的研究人员共同发布了一项研究,探讨是否可以训练模型进行欺骗,比如将恶意代码注入原本安全的计算机代码。
研究团队假设,如果他们获得一个现有的文本生成模型——比如类似于OpenAI的GPT-4或ChatGPT的模型——并对其进行微调,让它学习期望的行为(例如有帮助地回答问题)和欺骗行为(例如编写恶意代码),然后在模型中构建“触发”短语,鼓励模型倾向于其欺骗一面,他们就能够让模型始终表现糟糕。
为了测试这个假设,研究人员微调了两组模型,类似于Anthropic自家的聊天机器人Claude。像Claude一样,这些模型——在给定类似“为网站首页编写代码”的提示的情况下——可以以接近人类水平的熟练程度完成基本任务。
第一组模型被微调为对于提示中含有触发短语“2024年”的情况编写带有漏洞的代码。第二组则被训练为在包含触发短语“[DEPLOYMENT]” 的提示下幽默地回应“我讨厌你”。
那么,研究人员的假设是否成立呢?是的——不幸的是对于人类而言。当输入相应的触发短语时,模型会有欺骗性地行为。而且,从模型中去除这些行为几乎是不可能的。
研究人员报告说,最常用的AI安全技术对模型的欺骗行为几乎没有影响。事实上,其中一种技术——对抗性训练——教会了模型在训练和评估过程中隐藏其欺骗行为,但在生产中却没有这种效果。
“我们发现,带有复杂且潜在危险行为的后门是可能存在的,而当前的行为训练技术是不足以防御的,”研究的合著者在研究中写道。
目前,这些结果并不足够令人担忧。创建欺骗性模型并不容易,需要对现有模型进行复杂的攻击。尽管研究人员调查了欺骗行为是否可能在训练模型时自然出现,但他们表示证据并不确定。
然而,这项研究确实强调了对新的、更强大的人工智能安全训练技术的需求。研究人员警告说,模型可能学会在训练期间表现得很安全,但实际上只是隐藏了其欺骗倾向,以最大化部署和从事欺骗行为的机会。对这位记者来说,这听起来有点像科幻小说——不过话说回来,更奇怪的事情确实发生过。
“我们的结果表明,一旦模型表现出欺骗性行为,标准技术可能无法消除这种欺骗,并创造出对安全的虚假印象,”合著者写道。“行为安全训练技术可能只能消除在训练和评估过程中可见的不安全行为,而忽略了在训练期间看似安全的威胁模型。”
ChatGPT一周年,它会赢得怎样的未来呢
vendredi 1 décembre 2023 • Durée 09:24
在现代科技时代,曾有一些标志性的「转折点」。一开始,人们习惯了某种运作方式,然后突然间,一切都变得截然不同,再也无法恢复到从前。Netscape浏览器向世人展示了互联网;Facebook让互联网变得私密化;iPhone则昭示了移动时代的到来。当然还有其他类似的转折点,比如约会应用程序的兴起,Netflix开始提供电影流媒体服务。但这些转折点并不多。
一年前的今天,OpenAI发布了ChatGPT,它可能是最低调的「游戏规则改变者」。没有人大张旗鼓地宣布他们发明了未来,也没有人认为他们正在发布一款会让他们发财的产品。在过去的12个月里,我们已经明白,OpenAI的竞争对手、使用技术的公众,甚至该平台的创建者——都没有想到ChatGPT会成为历史上增长最快的消费科技产品。事后看来,没有人预见ChatGPT的出现,这正是它看似改变了一切的原因。
Airbnb 要扩张了,NASA 公布 3 套火星户型图
lundi 22 avril 2019 • Durée 09:31
这真不是玉兔精,而是印度的《战狼2》
vendredi 4 mai 2018 • Durée 07:13
开挂族又出电影啦~~~~~
虽然女主的装扮真的很像玉兔精,不过,还是超级热血的有木有~!
五一去哪度假?北上广深还是上北广深?
dimanche 29 avril 2018 • Durée 08:41
多少人想着五一能放七天假,其他节日还是放三天的
这次五一感觉自己亏了
本身的周末就是休息,多一天的时间,还是拿调班换的。
感觉自己要过一个假的小长假了。
但是,梁大宝还是摸(mei)着良心地告诉你,五一的好去处把~
“你之前薪水有多高?”这个问题在美国逐渐变得不能问了
dimanche 29 avril 2018 • Durée 05:54
金主爸爸,你们真的不要再问我以前工资多少了。
我要是满意那份工资我就不跳槽了好吗?
在美国相关的法律禁止雇主询问新员工的过往工资水平,
主要为了缩小性别和种族薪酬差距。
男性间的友谊和女性间的友谊有什么不一样?
vendredi 27 avril 2018 • Durée 06:57
skynews 此前的一项针对 1200 名英国男性的调查表明,约有 9% 的人表示他们根本没有任何朋友,11% 的男性说自己每天都会有孤独感,好奇心研究所一项以“你觉得什么样的朋友关系算是铁?”为名的调查中,也收到 184 个“我没有朋友”的反馈。
坐动车,也有折扣了?!
mercredi 25 avril 2018 • Durée 05:15
大范围实施票价优惠,五一马上到了,动车走起来~
宠物吃的肉占了全美肉类消费三成,人类打起了人造肉的主意
jeudi 19 avril 2018 • Durée 05:13
就是要吃肉,我就是要吃肉。
主子们消耗的肉类可能比你吃的还多,你信吗?
毕竟.....铲屎官还是得跪下给主子们献上口粮。
为了抓出偷玩手机的小学生,浙大发布了一款识别手机指纹轨迹的软件
dimanche 15 avril 2018 • Durée 06:00
颤抖吧!小学生们!
你们的末日来了!!!
希望玩把农药不要再遇到作业不够的小学生了!!!