新型冠状病毒肺炎疫情爆发以来,相关话题热度持续高涨。如何在纷繁芜杂的信息中理清头绪?为便于疫情防控和宣传工作的开展,近日,清华大学人工智能研究院、RealAI共同研发推出“新冠肺炎疫情AI话题分析平台”,帮助相关部门和公众更好地了解疫情实时动态。
据介绍,该平台通过对多渠道海量媒体信息进行自动抓取采集、识别分析,解决了传统信息检索过程中因消息源头繁杂、消息过多、检索意图不明确而产生的困扰。同时,基于大数据分析和AI建模,自动识别出近期热点话题、新闻追踪和话题导向、地区关注度变化,第一时间展示全网话题最新动态,满足用户对疫情舆情监测的需求。
在底层算法支持上,该平台基于清华大学人工智能研究院、计算机系推出的WarpLDA主题提取算法研发。基于蒙特卡洛EM算法,WarpLDA在访存效率、并行度方面相比传统的Gibbs采样算法更有优势,可用于上亿级别文本的主题提取。该成果最早首发于数据库领域顶级国际学术会议VLDB上。
RealAI首席执行官田天认为,不同于2003年非典等重大公共卫生突发事件,互联网成为这次疫情主要的“信息源”平台,传播模式更是基于人手一机的“自媒体”,信息流的爆发不仅降低了大众获取信息的“信噪比”,更是滋生了不同程度的谣言。可以说,传播速度之快、话题数量之大、更新变化之迅速都对疫情信息的有效传达提出了更高的要求。
“在这场没有硝烟的战争中,我们每个人、每个组织都无法独善其身。”田天表示,RealAI希望以自身算法、优势技术为依托,从内容侧打造防疫战线,发挥信息战“疫”价值,为抗击疫情贡献力所能及的力量。