首页 > IT业界 > 国内 > 正文

算法为王:内容创业者的大败局?
2017-06-27 17:07:54  亿邦动力网    我要评论()
字号:T|T

去年里约奥运会期间,今日头条的一位新员工撰写了457篇有关羽毛球、乒乓球、网球的消息简讯和赛事报道,日均30篇以上的产量让一般记者难以望其项背。它就是运用自然语言处理、视觉图形处理和机器学习技术的写稿机器人张小明。

机器人介入写稿起始于美国老牌报业《华盛顿邮报》。《华盛顿邮报》早在2012年年末就启动了名为“truth teller”的实时新闻核查项目。它能全程记录新闻报道中的文字、语音等信息,随后与“打假”数据库进行对比,一旦发现异常便会发出警报。

事实上,在国内使用写稿机器人出稿的,今日头条也不是第一家。早在2015年9月,腾讯财经开发的写稿机器人DreamWriter就自动引用统计局的数据,并加入国家统计局城市司高级统计师余秋梅以及银河证券等分析师对数据的分析和预测生成了第一条标题为《8月CPI涨2% 创12个月新高》的机产新闻。不到两年后的今天,DreamWriter在财经+科技应用的发稿量已经超过日均2000篇,体育稿日均500篇,总和达到日均2500篇。

随着腾讯率先抛出写稿机器人,新华社也在同年11月秀出了自己的写稿机器人“快笔小新”──输入一个股票代码,3秒钟就可以生成一篇财报分析,稿件大小标题一应俱全,还配有图表等信息。

如果你以为这么前沿的东西只有互联网公司在使用的话,那就大错特错了。今年4月,云南省第一个写稿机器人“小明”在昆明报业上线,一个月左右就累计写作、发布稿件1000多篇。而早在1月17日,南方都市报社写稿机器人“小南”就已正式上岗并持续撰写春运报道……

亿邦动力网整理了部分使用写稿机器人进行新闻创作的通讯社和媒体,如图所示:

写稿机器人如何写出一篇新闻稿件?

以昆明报业出品的“小明”为例。“小明”整合了目前最先进的人工智能、大数据分析、自然语言处理等技术,聚合全网信息,通过融合领域知识,对数据进行深度分析,发掘重要的消息和事件,并用自然语言进行表达。简单地说,就是通过算法将所获取的数据嵌入系统,利用人工模板生成内容。

数据采集加工、文章生成、文章分发,这就是目前“小明”的基本工作流程。其中文章生成包括人工模块规划和文章实现,解决稿件写什么、怎么写以及如何呈现等问题。目前写稿机器人可以对已有的文本素材进行语句筛选与融合,从而以秒速生成报道。一篇民生菜价服务信息,从数据自动抓取到报道发布,只需要一秒的时间。

再以腾讯的DreamWriter为例。DreamWriter项目副总监刘康接受采访时曾提到,其实竞争对手也有很聪明的写稿机器人,不过对方的做法是抓直播间的描述,通过一定的算法和逻辑拼接成一篇文章,而腾讯写稿机器人DreamWriter则是基于特别细颗粒化的数据进行还原。

(注:《纽约时报》研究与发展实验室提出过一个“Particles”理论,这套理论核心是:给新闻编码。官方解释为以“积木式”的编辑模式改变新闻生产、分发全部环节,并最大限度释放媒体人的生产力。具体的做法是,把文章编码,把可能会被重复使用的部分识别出来并加以注释,这一过程被称为Particles(颗粒)。也就是说,所有的资讯内容都被转化为了可供拼装的“颗粒”,每个部分都被重新编码,添加标签,而且是可以被嵌入的。)

对于DreamWriter来说,一场球赛的射门动作包括射偏、打中立柱、高出立柱……等都可以细分成颗粒,并用颗粒和算法模型还原。

在写稿机器人背后,主要涉及有智能撰文技术、内容抽取技术、要闻萃取技术这三项核心技术。腾讯均已获得相关专利。

以内容抽取的技术为例,Dream Writer可以把一篇千字文章概括为数百字,其中涉及到统计学、深度学习等技术。

不过,不管是Dreamwriter、张小明还是纽约时报的Blossom等,率先获得突破的都在体育、科技和财经领域。这类文章有较高的数据准确性和速度要求,但在操作上又属于重复的机械性工作,机器人刚好可以替代人力完成这部分工作。而对于深度稿、行业稿等专业和分析性比较强的稿件,机器人还是不具备优势。在报道形式上,赛事报道更倾向于图文结合的方式,图片采用自动匹配的模式,在面向不同终端和产品时报道风格可能有所调整。

第一财经的汤开智博士此前接受采访时表示,他认为机器写作的研究主要围绕三种典型模式,“逻辑由浅入深,从精确到模糊”:

第一类是基于数字进行事实陈述,并进行简单逻辑分析的文章,比如二级市场的监控、体育赛事的简讯;

第二类是根据每类稿件的信息要点,对信息源进行针对性的信息提取,把非结构化的文本转为结构化及半结构化的数据,再根据不同的规则把信息要点组合写成单点内容;

第三类是单点内容的关联生成,此类稿件能弥补单点内容信息量单一的缺点,并为受众尤其是投资者,及时关联专家对基本数据的解读及评论,生成更有深度、更立体、更综合的稿件。

“语言生成是一个非常基础的问题,我们如果可以把这个问题解决好,自然语音的理解方面可能还会有更大的突破,我们很多方法可以把难问题变简单,如果能够设计成模型自动的做这一步,最后得到的效果会更好”,今日头条科学家、实验室总监李磊表示,可以想象围绕写稿机器人衍生的系列“文本范式”算法,将成为今日头条后续的信息流源头之一。

数据、算法和变革

在2015年新华网主办的首届“智能+”传媒超脑论坛上,中科院计算所博士生导师白硕曾以“人工智能与传媒”为主题发表报告,其中前瞻性地谈到了写稿机器人,亿邦动力网在此节选片段:

大家都在谈论人工智能,我们简单回顾一下人工智能的冷热史。三波高潮,实际上也有两波低潮。感知机,专家系统,导致低潮的有两个,一个是逻辑的局限,XOR,一个是非良定义问题。文字的识别,语言的理解都跟这个有关系。

在大数据的背景下,又赋予了一些新的生命。这波人工智能热都有哪些表现,产业热:“大脑”,机器人;投资热:人工智能概念股;学术热:真脑、仿脑、电脑;八卦热:奇点恐慌。

为什么会这样?快、准、大、神。什么是快,硬件的进步,准,就是算法的进步,大,大数据的积累,神,就是好奇心、阴谋论。这是热点分布图,三波主要的成就按照两个纬度,把主要成就投到平面上。人工智能的三波高潮在什么地方?很有一个意思的现象,第一波是玩具系统,表述相对清晰,解决相对稳定。到了第二波是表述仍然比较清晰,解决有困难,这个在第二波里面基本上攻克了,再往前走遇到常识获取,非常困难。第三波斜着走,表述比较模糊,解决起来越来越难,包括图象识别和自然语言的理解。第四波,就是最右边的,包括推理、规划、常识获取、情感与自我意识。自然源理解在第三波里面还是相对浅层的,到第四波就是深层的。涉及到写作,还会涉及到情感等等。

非良定义问题解决思路,表述模糊,人自己的标准是可以解决的,机器要向人学。横着分三个空间,有的是问题空间,中间是特征空间,右边是解空间。竖着三个阶段,上面是知道问题怎么样,表示什么样,就是建模。第二个是根据数据来对应,调参。第三个是运行。

非良定义问题的可能风险:建模可能有失真,采样可能造成分布偏差,标准可能有错误,学习可能过拟合。

未来的发展方向,就是从调参到建模。这是知识表示的层次,我们不能神话深度学习,我们看到深度学习所有都在中间的位置。实际上框架空间、元组空间,还有很多事情可以做。

写作机器人,我觉得比较难的问题,一是归因,二是举证,三是应景,最后是个性风格。归因就是描述了这些现象,这些现象也有一些脉络,究竟是哪些东西导致了这个现象,这个是归因,在一天的航行结束之后描述走势,什么东西导致了这个走势就要去归因。第二个是举证,提出一个观点要找几个例子。还有应景,一个过程描述完之后,画龙点睛的是什么,用成语、古诗很贴切的描述。这是写作里面比较难的地方。最后就是个性风格。

写作是文理结合的产物,应当是最难用机器完成的事情,但它还是实现了自动化,而且程序算法还在迅速提高。事实上,由于知识型工作仅仅使用软件就能实现自动化,这些工作比一些体力工作更容易受到影响。

绝大多数的大数据都是计算机行业里所谓的“非结构化”数据。捕捉的数据以各种格式存在,往往难以匹配或比较。传统系统的信息行列一致,整齐排列在一起,使搜索与检索快速、可靠和精准。而大数据的非结构化性质引领了专门用于解读多渠道获得的大数据的新工具开发。

能够连续处理我们环境资源中的大量信息是人类特别擅长的事情之一,但在大数据领域规模化处理信息对人来说是不可能的。计算机似乎在开始染指人类的独有能力。

在华中师范大学新闻传播学院院长江作苏看来,新华社这样的国家级媒体也开始应用人工智能写稿,不仅仅是一种新闻生产力的解放,更是传媒业与科技更直接、更深层融合的生动案例,“媒体+互联网”有了一种全新的应用,也将引起传统新闻理念革新、生产方式变革、流程架构调整等一系列化学反应。

人民日报媒体技术公司总经理叶蓁蓁别有视角:低层次的劳动将被取代,更有品质、更懂用户的新闻产品将会出现,媒体借力大数据、利用人工智能,转身、转向、转型的步子将会更快。

北京师范大学新闻传播学院执行院长喻国明认为,对新闻媒体来说,人工智能和人类各有所长,用机器人从事可重复和需要精确计算的工作,可以把记者编辑解放出来,完成更有温度的新闻作品。

喻国明说:“机器善于做的是什么呢?就是在于一个游戏规则框定的范围内,那些大量的可以通过标准化的算法、标准化的程序和机器学习,目前的规则可以改善的那些领域里面,它的成长速度会很快。但是对于人的感受性的细腻的东西,我相信机器在未来很长一段时间里是绝对做不到的。”

一位资深商业记者和智能机器人Wordsmith进行了一场“写稿比赛”,双方在一家公司出财报后同时开写一篇短报道。最终机器人以2分钟完稿领先了人类7分钟。但机器人的文章仅仅获得读者912票支持,9916的票投给了人类。

未来不经意间浏览到的新闻和信息或许就是不知疲倦的写稿机器人产物。写稿机器人产业的发展悄无声息,但实实在在地发生在你我身边。当人工智能用一种虚拟手段侵入人类生活时,我们也应当以一种更加理智和客观的态度审视技术革命的契机。

效率为王的年代,写稿机器人或许会在未来把编辑部变成人工智能的自留地,锄地灌溉施肥的重活只要寥寥几个人就能干了,剩下人工智能肆意生长。

新闻热线:010-68947455

关键词: 人工智能 算法

责任编辑:新闻中心

我要评论

已有 位网友参与评论

科技视界

网站地图

牛华网

| 牛华网 | 盒子 | pcsoft | 论坛

实用工具

关于我们 | 新闻投稿 | 软件发布 | 版权声明 | 意见建议 | 网站地图 | 友情连接 | RSS订阅 | 总编信箱 | 诚聘英才 | 联系我们

苏ICP备11016551号-2  苏公网安备 32132202000111号 本站特聘法律顾问:于国富律师

Copyright (C) 1997-2012 newhua.com 牛华网 版权所有