阿尔法狗把人类围棋大师虐成了狗,新闻机器人会不会把人赶出新闻界?
所谓新闻机器人,就是能够自动生成新闻稿件的计算机程序,电脑程序生成的新闻叫做机器人新闻或者自动化新闻、算法新闻。本质上,机器人新闻就是算法在写稿、推广、核查等各环节上的应用。
根据维基百科上的解释,在数学和计算机科学之中,算法(Algorithm)是一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。算法中的指令描述的是一个计算,当其运行时能从一个初始状态和初始输入(可能为空)开始,经过一系列有限而清晰定义的状态最终产生输出并停止于一个终态。一个状态到另一个状态的转移不一定是确定的。随机化算法在内的一些算法,包含了一些随机输入。
▲算法示意图
人工智能的发展是机器人新闻的基础。通过人工智能软件,新闻报道由机器自动生成,而不是由记者写出来。这些人工智能程序将数据翻译、组织,然后以人类可以理解的方式呈现。输出的内容还可以根据需要表现出某种立场、基调或者风格。
机器人新闻的应用如何?
汤森·路透集团是较早试水机器人新闻的新闻机构。早在2006年,路透社就宣布其网络新闻平台向自动生成金融新闻报道转型。让机器人新闻声名鹊起的一次报道是2014年美国加州地震,《洛杉矶时报》一个名为Quakebot的新闻机器人在地震发生3分钟之后就发出了消息。
目前全世界已经有十几家新闻机构利用新闻机器人生产新闻。在新闻机器人的利用上,欧美国家的新闻媒体走在前列。路透社、美联社、《福布斯》、Propublica和《洛杉矶时报》等都在这方面进行了很多探索。
美联社利用Automated Insights公司的技术来制作财经和体育方面的报道。Automated Insights的主要技术产品是Wordsmith(文字匠),这个技术平台能够接收几乎任何数据格式,包括APIs,XML、CSVs、spreadsheets等,然后通过算法找出数据特点趋势与内容的来龙去脉,进而生成叙述性的长短文章、报表、可视化图形等。
2013年亚马逊老板杰弗里·贝索斯买下《华盛顿邮报》的时候,人工智能辅助的新闻报道还处于萌芽状态。为数不多的几家公司提供自动化的内容生成系统,它们能够生产梗概式的包含很多数据的报道。但是《华盛顿邮报》眼光更长远,它把目标放在了能够生成解释性的、有深刻见解的新闻报道的人工智能系统。
《华盛顿邮报》的自动新闻系统Heliograf于2016年上线。早期的版本报道了里约奥运会。随后,升级的版本带了更强的编辑痕迹,很快应用于美国大选的报道。2016年11月,共和党候选人Steve King在爱荷华州第四选区击败民主党候选人Kim Weaver,《华盛顿邮报》快速出击,利用Heliograf对于选举结果和更广泛的选举趋势进行了报道。其中一则报道中是这么写的:
“共和党继续保持对众议院的控制,仅仅丧失了少数几个席位,依然掌握议会多数。本来,许多共和党大佬会担心失去十几个席位。”
这条机器人新闻报道的文字清晰而有活力,体现了华盛顿邮报新闻报道的一贯作风。
在中国,新华社于2015年推出机器人写稿项目,目前以“快笔小新”的拟人化作者发布天气预报方面的新闻。
印度的主流英文媒体《印度斯坦时报》利用新闻机器人发布空气污染的新闻。一旦某个地方的空气污染达到警告级别,它在推特上的地区账户就会发推。为了这个空气污染的新闻,《印度斯坦时报》甚至自己在全国各地布置了一些空气质量探测器。
2017年3月,《印度斯坦时报》在@HT Realtime这个推特账号上,利用新闻机器人对地方议会选举进行了报道,报道的资料来源是印度选举委员会提供的7000多名候选人的公开资料。在选举日,新闻机器人自动实时发布选举结果。如果选举人险胜或者以巨大优势获胜,新闻机器人也会将这些信息加到推文中去。新闻机器人还会介绍获胜者的主要信息,比如教育程度、个人财富,还有候选人之前受到的犯罪指控等等。
这些信息是人很难在非常短的时间之内找到的。对于获胜者信息方面的新闻,新闻机器人是按照资料进行排序的,比如,如果获胜者不是最老的或者最年轻的获胜者,那么机器人会选择这个人最有意思的一条信息。比如这一条,当选者曾经被控12项罪名:
这一条则报道了年世最高的当选人:
《印度斯坦时报》的这个机器人新闻账户还对为期一个半月的印度板球超级联赛进行了实时报道。这项报道利用了合作伙伴提供的结构化的JSON格式的比赛数据。8支队伍、60场比赛、200名球员,为新闻机器人提供了丰富的报道素材。机器人发布的推特还附上了由记者撰写的实时分析文章的链接。
机器人新闻是怎么生产出来的?
简单来说,就是利用模板将表格化的数据转化为文字,也就是所谓“自然语言生成系统”。
以《华盛顿邮报》的Heliograf系统为例,它的工作流程是这样的:编辑人员为报道创建叙述模板,模板包括适用于不同结果的关键段落,比如有的说“共和党得以继续控制众议院”,有的说“民主党重新获得众议院的控制权”。然后,将Heliograf和结构化的数据相连。对于2016年的这次美国大选,Heliograf连接的是竞选资料网站VoteSmart.org的数据中心。Heliograf的程序会识别相关的数据,然后和模板当中相应的段落匹配并进行合并,之后再生成适用于不同平台的不同文本并自动发布。另外,如果Heliograf系统发现异常的数据,比如说比原来预期大得多的差距,它还会通知记者,这样记者可以跟进调查。这为华盛顿邮报在速度上领先报道对手又提供了一条道路。
文字自动化系统还有其他的应用方式,比如荷兰的通讯社ANP有一个新闻机器人将人写的新闻转换成简单语言的版本,供儿童新闻线路使用。
《今日美国报》利用Wibbitz这个人工智能软件生产短视频。它能将新闻稿件浓缩成视频脚本,然后再配上图片或者视频素材,甚至能用模拟人声进行配音。
路透社的News Tracer算法预测工具,可以帮助记者核实社交媒体信息的真实性。这个技术根据社交媒体信息的播发者,网络传播情况,以及事发地附近的用户是否发文肯定或者否认突发事件,来给社交媒体上爆出的突发事件的“可信性”和“新闻价值”打分。
路透社的这套算法利用了社交媒体可信性研究的成果,它通过40项指标给推文打分,包括是否来自验证过的账户,这个账户有多少粉丝,推文是否包含链接和图片。有时候,还包括推文本身的结构,比如说,如果一条推文完全由大写字母构成,那么它通常是假的!
经过这40项指标的评估,每个故事都会有一个总评分。如果它达到了一系列验证门槛,路透社就有充分的自信发出自己的推文报道这一新闻事件,然后记者们就开始跟进进行报道。这个总评分随着时间变化,因为更多报道汇集进来,会提高或者降低它的真实性排行。
机器人新闻的计算机程序主要来自于科技公司。数据科学和人工智能公司,比如Automated Insights, Narrative Science和 Yseop 是这些算法程序的主要提供者。
Automated Insights总部位于美国北卡罗来纳州达勒姆市,建立于2007年。公司的主要产品是Wordsmith(文字匠),根据网络新闻媒体Mashable和《纽约时报》等媒体的报道,Automated Insights2013年生产了3亿条内容,2014年达到了10亿条,2016年是15亿条。它的主要客户包括美联社、雅虎等。
Narrative Science成立于2010年1月,总部位于美国芝加哥,主要的股东还包括美国中央情报局(CIA)。它的主要产品是Quill,力图“在数据当中挖掘意义和观点”。
Yseop创立于2007年,在纽约、伦敦和悉尼等地都有办公室。它的主要产品是compose,它可以用英、西、法、德、日等文种进行写作。Yseop还有另外一款产品Savvy,集成在微软的Excel软件当中。
最近有报道说,谷歌也涉足这一领域。它资助英国的报联社(Press Association)进行一个名为“记者、数据和机器人”的项目,利用新闻机器人每个月生产3万条新闻。这个项目有5名记者参与,他们将创建相关的新闻模板,并根据英国政府公开的数据库资源,由“自然语言生成软件”生产新闻。这些新闻将涵盖健康、犯罪、就业等方面的内容。
随着开发人员不断改进自然语言生成系统,它已经变得越来越复杂,越来越多样化。据牛津大学路透新闻研究院今年的一份研究报告披露,读者已经很难分清楚新闻稿件是由人还是机器写的。
目前机器人新闻的发展仍然处于起步阶段,大部分机器人新闻都不太复杂,就是从数据库中提取数据,然后填到提前写成的新闻报道模板中去。有一些新闻机构尝试一些更复杂的应用,路透社和挪威通讯社(NTB)说它们的算法可以将新的信息和历史数据进行比较,并将比较的结果转换成文字。瑞典通讯社(TT)做了一个小程序,可以利用数据对学校的表现进行比较,还可以将某地的房地产数据与全国平均值进行比较。《华盛顿邮报》想要打造一个能够帮助人类和机器“完美互动”的系统。《华盛顿邮报》的兴趣在于,尝试让新闻机器人能够随着时间进展,自己不断更新报道。
绝大部分自动生成的内容未经人类编辑修改就自动发布了。路透社每天发布约950条快讯和400条消息,这些都是由新闻机器人生成,而且未经人类干预。路透社的编辑认为,如果经由人类编辑审核,那么就极大地限制了新闻机器人的价值。
机器人新闻有什么优势?
由于自动新闻的公式化特点,机器人新闻主要用于基于统计和数据的新闻,比如体育比赛、天气、财经、房地产分析和公司营收分析类的报道。
在这些报道领域,机器人新闻已经显示出超过人类记者的巨大优势:
- 相比人类记者,新闻机器人可以生产海量的新闻信息,极大地扩大新闻机构的报道范围,增加了新闻机构的新闻产品品种,扩大了受众数量。美联社说,它利用新闻机器人报道了3700家公司的季度业绩报表,而此前人类记者只能报道400家左右。在新闻机器人出现之前,新闻报道的模式是瞄准大量受众的报道,但是因为需要付出大量人力劳动进行写作,所以产量必然不多。而新闻机器人可以自动生成大量的报道,可以精准地推送给小、但是数量众多的受众群体。比如说,可能没多少人关心某个小城发生的某件事情,但是确实有一部人在关注,还有当地媒体也需要这方面的报道,而此时正好可以利用机器人新闻满足了他们的需求。一项针对美联社机器人生成的公司营收报道的研究表明,这些报道对资本市场产生了显著影响。研究发现,之前很少被媒体关注的公司经过新闻机器人的报道之后,市场成交量明显上升。
- 机器人新闻可以帮助新闻机构重新整合资源,让编辑部更加有效率。新闻机器人可以让人类记者从无尽无休的体育比赛、民调、选举和金融市场变动等方面的报道中解脱出来,让记者们专注于那些真正需要人类思考进行的报道。反过来看,如果让一位经验丰富的记者去写机器人可以通过模板就能写的稿子,那是巨大的浪费。举例来说,在美国大选报道中,2012年11月,《华盛顿邮报》的4位记者花了25个小时,仅仅报道了一小部分选举结果。而在2016年11月的大选中,《华盛顿邮报》利用名为Heliograf的自动化新闻系统生产了500多篇稿件,参与的人力很少,但是取得了50万的点击量。而美联社在利用新闻机器人报道企业营收之后,解放了3名全职记者,他们被分派到了其他工作岗位上,重新整合了编辑部的资源。
- 相比人类记者,新闻机器人的错误率极低。新闻机器人只要调教得当,可以做到非常精确。NTB的创新业务负责人Helen Vogt说,算法的伟大之处就在于,同样的错误它不会犯第二次。
下面这张表格总结了机器人新闻相比传统人力新闻的优势:
针对的受众 | 稿件数量 | 耗费人力 | 错误率 | |
---|---|---|---|---|
传统人力新闻 | 大而模糊的单一受众群体 | 少量 | 大量 | 很高 |
机器人新闻 | 小而具体的许多不同受众群体 | 巨量 | 少量 | 极低 |
新闻机器人有哪些局限?
慕尼黑大学的传播学教授Neil Thurman曾经断言,自动生成新闻的局限很明显,尤其是跟人类记者可以生产的那些有众多新闻来源、调查性和依赖于情境的新闻报道相比。目前的机器人新闻处于发展的初级阶段,面临诸多需要突破的瓶颈。
首先是数据在自动新闻领域具有关键作用,但这也限制了机器人新闻的适用范围。目前自动新闻集中在财经和体育等领域,这是因为在这些领域,结构化的数据是最容易获得的。所谓结构化数据,就是行数据,存储在数据库中,可以用二维表来逻辑表达实现的数据。比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。但是在其他领域,结构化数据却并不常见,这就限制了新闻机构在这些领域应用自动化新闻。
其次,受目前的人工智能技术水平的限制,新闻的自动化仍然相当有限。目前的自动化依赖于单一的隔离数据流,而且由于它们依赖于量化的数据流,所以自动化新闻还只能是一维的。严格审查数字已经超出了目前使用的自动化技术的能力,更不用说发现数据点之间的因果关系或整合外部事件。因此大部分新闻机构只是利用新闻机器人报道新的数据,提供简要的说明,而不是参照历史生成一个更广泛图景的报道。
第三,对于新闻机构来说,利用新闻机器人面临成本的问题。新闻机构通常不具备发展机器人新闻需要的人才,而外聘的话需要增加成本。而且机器人生产新闻的运行费用也不低。路透社的数据和创新执行主编Reg Chua说,新闻机器人跑起来之后,需要去维护它,需要进行跟踪、管理。对新闻机构来说,机器人新闻产生了新的数据维护的工作,比如企业营收的数据库就需要不断地更新,因为有的公司会改名,还有的出现了并购的状况。另外,目前机器人新闻的数据来源通常依赖第三方机构和官方发布,而不是新闻机构自己的资源库。许多新闻机构不愿意自建数据库,是因为这会增加成本,而且它们也缺乏这样的人才。
未来的新闻机器人什么样?
虽然面临上述困难,但是人工智能技术的不断发展,以及新闻机构间的竞争,必然会推动新闻机器人在新闻业更广阔的应用。
目前更复杂的新闻机器人正在开发之中。未来的发展旨在解决目前自动化新闻的缺陷。其中一点是多样化,下一代算法将能够处理多个数据来源,将实现不同数据来源的更新和比较。《华盛顿邮报》计划下一步利用Heliograf系统对稿件,包括人工撰写和机器撰写的稿件当中的数据进行自动更新。举个例子,如果某人周四分享了一篇周二的稿件,而在这期间新闻事实发生了变化,那么Heliograf系统就会根据最新的事实对稿件进行更新。随着人工智能技术的进一步发展,自学习软件最终可能带来数据挖掘方面的突破,并使得非结构化数据的工作变得更加容易。
其二,自动化新闻也将用于识别和验证新闻事件,帮助记者完成数据驱动型的新闻。人工智能可以帮助在庞大的数据集中找到重要的信息。人工智能软件可以学习提取真实世界的实体,如公司和人员,并开始寻找他们之间的关系,从本质上构建起来每个实体之间的关系。算法将在数据中找到有趣的模式或异常事件,并将其标为记者标记出来——这就是所谓“自动化洞察力”的技术维度。它是一种由数据生成文字的形式,然后再由记者去寻找解释和反应。
“自动化洞察力”的一个例子是路透社正在试验的美国民调数据算法。机器人查看民调数据并就最具统计意义的数据结果生成文字。这让人类记者能够对手里的数据中最有趣的事实进行快速评估。
路透社开发出的算法预测工具News tracer,可以监控推特上的突发事件。这套系统已经给路透社带来了巨大的好处,例如,今年3月份布鲁塞尔发生连环爆炸,路透社的报道比其他媒体早了8分钟,9月发生在纽约的切尔西区爆炸,路透社的报道领先了15分钟。
“路透新闻追踪器”特别适合“目击性事件”,比如爆炸和自然灾害。这类事件通常会有很多人同时发出推文,通常还有照片和视频发布。一旦这个程序识别到它认为的正在发生新闻事件,它就会将相关的推文聚集到一起,生成信息和大数据,并且形成故事的轮廓。例如,提到“爆炸”、“炸弹”的推文,可能集聚成一篇潜在恐怖袭击的简单报道。
《华盛顿邮报》正对Heliograf系统进行完善,未来它可以搜索网络了解人们在讨论的话题,然后检查《华盛顿邮报》是否进行了报道。如果还没报道的话,它会通知编辑或者干脆自己来写一篇报道。
其三,新闻机构还在尝试其他一些超出数字范畴的做法,增强算法的叙事能力。有媒体专家意识到,必须开发新的数据模型以允许事件驱动的叙事,而不是目前自动化新闻的静态的数据描述。新闻学者David Caswell和Konstantin Dörr在最近的一篇论文中,概述了如何以正确的方式给文本信息编码,这样可以按一定顺序自动形成新闻报道。他们的“结构化叙述”代表了自动化新闻的一种新颖方法,对于那些不回避构建复杂的故事数据库的新闻机构来说,可以在未来生产更复杂的机器人新闻。
《华盛顿邮报》负责数字项目的Jeremy Gilbert说,《华盛顿邮报》看重Heliograf发展作为加工改写的中心的功能,以后编辑部的工作流程可能会变成这样,记者去采访搜集信息,然后写出大量的、独立的、非连续的新闻素材片段——这有一些事实,这是一些分析——然后让系统去“组装”它们。
新闻机器人对新闻媒体有什么意义?
新闻机器人可以帮助新闻媒体大规模生产新闻,占领利基市场。发展自动化新闻还可以优化编辑部资源。更重要的是,它促使新闻机构站在一个更广阔的视角上,思考人工智能发展对于新闻媒体未来的意义。
自动化新闻的发展将取决于更广泛的人工智能领域的进步。自学习软件最终可能带来数据挖掘方面的突破,并使得非结构化数据的工作变得更加容易。用户反馈可以帮助改善自然语言生成系统,增强故事的语言多样性。同时,语音转文字和面部识别等技术将大大提高记者的工作流程速度,并通过新的方式对其现有的档案进行机器搜索,增加其价值。
人工智能也将帮助新闻机构实现新闻核实与验证的自动化。新闻媒体可以建立一个涉及人名、地名、头衔、单位名称,禁用词、慎用词等的校对库,对稿件进行校对和纠错。再进一步,这个纠错系统要和互联网连接,依据权威来源、权威数据,纠正事实性错误。比如说,一篇稿件涉及到了中国经济的一些数据,那么这个系统要可以连接国家统计局的网页或者数据库进行检索、比对,有不同的地方就向编辑发出提醒警告。
未来,新闻机器人确实可以代替人干很多工作!那么我们再回到本文开头的那个问题:新闻机器人会不会把我们赶出新闻业?
我想我们不必担心,新闻自动化只会解放我们,给我们更大的自由,让我们去做那些需要独立思考、具有创造性的工作,那些综合了各方面信息、具有全新视角、多种信息来源,真正原创性的报道。