GAITC 2021智媒专题论坛丨黄萱菁：通过数据研究实现信息的传播趋势预测

来源：互联网时间：2021-06-09

6月6日，由中国人工智能学会(以下简称CAAI)主办，新浪新闻联合中国传媒大学共同承办的2021全球人工智能技术大会(GAITC 2021)“发展与挑战”专题论坛在杭州举行。微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍，CAAI智能传媒专委会副主任、中国传媒大学脑科学与智能媒体研究院院长、教授曹立宏共同担任论坛主席。

复旦大学计算机学院教授、博士生导师黄萱菁女士在本次专题论坛上，与来自业界、学术界的嘉宾们分享了《基于深度学习的智能社会媒体挖掘》。

黄萱菁作主题演讲。

黄萱菁认为，对社会媒体发布的信息进行处理，首先需要理解媒体发布的文字内容，并在其中发现各种各样有价值的信息，即价值发现，随后在进行传播趋势预测。

她提到，价值发现和传播趋势预测实际上需要有很多基础支撑。比如通过自然语言处理技术让语言可计算，对社会媒体上非规范的语言结构进行分析，对不同语言的文字信息进行处理，以及利用技术手段对文字信息进行情感处理。

以下为黄萱菁演讲实录，内容经编辑略有删减：

各位嘉宾下午好，很高兴和大家分享我们在智能社会媒体挖掘上的一些工作和看法。

我们知道，今天中国有十亿多的互联网用户，用户、媒体从起床到睡觉，长时间沉浸在各种内容中间，进行各种内容消费。贯穿全天最重要的内容消费方式就是我们的社会媒体，统计表明过去几年间，人们消磨在社会媒体的时间越来越多，按照2019年的数据，人们每天有两个半小时在玩各种各样的社会媒体。

那我们要消费什么内容呢?首先，我们要和自己的亲人、朋友聊天，这是一类。然后我们要娱乐，我们要获取各种各样的信息，包括新闻信息、社交信息。我们分享自己发生的事情，跟大家分享自己的观点。

在社会媒体上面存在各种各样有价值的信息。首先是商业信息。有统计结果表明，在社交媒体上进行销售，它的转化率很高，大概有55%能最终转换为销售的行为。

除了商业价值，我们看一下社会媒体的社会价值，通过社会媒体可以向总理说话，可以建言献策。通过关注学术媒体我们可以知道会议的信息，比如投稿延期了，还可以宣传自己的工作，获取各种各样的信息。

过去几年，我们在社会媒体信息处理开展了一些研究，主要分成下面几块，第一块是理解社会媒体的内容，我是搞自然语言处理的，所以我们说的主要是文字内容。我们从社会媒体上发现有价值的信息，预测社会媒体未来的趋势。

主要工作分为两类，一类是价值发现，一类是传播预测。价值发现是在社会媒体发现各种各样有价值的信息，以日本地震这个话题为例，我们可以识别时间、地点、对象、范围等实体，能够判别实体的关系，还能够判断情感倾向，比如是谴责发生核泄漏的行为，对受害者表示同情，称之为价值发现。

在价值发现之后我们进行传播趋势预测，我们利用社会媒体构造一个异构网络，由信息空间和社交空间组成，在信息空间之上我们可以得到社会媒体的各种内容信息，通过社交空间，我们可以分析普通用户，网红、机构等用户，通过他们之间的互动形式，跟信息空间的交互，可以得到很多有价值的信息，从而进行各种各样的预测，比如可以预测谣言等各种各样的行为。

为了做价值发现和传播预测，我们需要有很多基础支撑，需要让字词句子篇章的语义可计算。语义的计算需要自然语言处理，作为社会媒体的语言信息处理还要考虑社会媒体的特殊性，比如字词不同的表现形式。另外中文也有中文的特殊性。

我们的研究主要是以自然语言处理作为基础支撑研究社会媒体的新闻发现，预测它的传播趋势。

首先是语义表示。所谓的向量，或者叫嵌入，指的是在统一语义空间用统一的方式去表示知识、文档、句子、词汇，便于进行语义分析、句法分析、词法分析等下游业务，其目的是为了解决大数据自然语言处理带来的数据稀疏问题，实现跨领域的迁移。

过去几年随着深度神经网络的发展，在词嵌入方面我们取得了很多的进展，大致上可以分成两个阶段，比如早期的，我们称之为上下文无关的词向量，它对每一个词产生可计算的、分布式的向量表示。但是它有一个缺点，不能处理一词多义的情况，比如说苹果，可以说我在苹果公司工作，也可以说我吃了苹果，这是两种“苹果”。用一个向量表示一个词是不够的，所以近年来更时髦，比如说基于BERT和ETMO的一些方法，能够生成上下文相关的词向量，根据一个词所在的句子判断整个句子的语义。

对我们来说，在社会媒体之上进行语言处理还面临更多挑战，比如首先社会媒体上例如“OMG”这样非规范的形式让语言结构难以分析，难以拟合;各种各样的网络用语，比如“C位出道”等，基本上每天都有新的词语出现，给语义分析带来了难度。

还有我们现在统计方法、神经网络的方法需要大量数据，尤其是人工标注的数据，但是社会媒体上标注数据的规模和我们常见的新闻领域相比可能只是1%的规模，可用的数据少了，必然带来社会媒体应用性能的下降，面对这样的挑战我们需要开展很多的改进措施。

第一个工作是视觉信息增强的词嵌入。举个例子，象形字的形状是有语义的，另外形声字，偏旁部首也是有语义的。我们希望在词和字建模语义的时候还要结合形状信息，具体做法是增加了卷积神经网络层，因为这个网络能够捕捉视觉信息。我们把视觉信息跟后面的文本语义信息结合在一起，试图对社会媒体之上的语言行为做一些建模，也确实取得了不错的效果。

下面一个工作是动态跳边的长短时记忆网络。刚刚我们提到，社会媒体的依赖关系难以捕捉。对语言来说经常是长距离的依赖关系。像“姚明出生在上海”，“上海”跟“出生”有关联关系，而不是跟前面的词有关联关系。传统的方法一般是利用句子的线性序特征，但很难捕捉非常复杂的依赖关系。我们提出一个方法，在找词语依赖时不是去找前一个词，而是往前翻，看哪个词相关性特别明显。至于怎么样找最好的词，我们通过强化学习的方法取得，最终这样的表示方式，让整个语言模型的困惑度下降了，可以更加精准地预测未来要说的话。

我们要处理中文汉字，西方语言的处理方法不能简单用到中文信息处理上。在中文信息处理上，我们经常会把词表示和字表示结合到一起，这样保留字信息和词信息就可以取得更好的性能。

所以我们需要引入词典加强语义表示能力，我们提出了两种神经网络，第一种采用卷积神经网络，它是一种暴力方法，试图把句子中间所有可能的词和实体都找出来。比如我们找到更长的实体“广州市”，就可以抑制其他有交叉的较短的实体“广州”和“市长”。

另外我们还可以用图来表示整个神经网络结构，这个网络用节点表示字，词表示边，这样的话可以一次性把句子中间所有的字和词建模在一起。通过这样对神经网络进行改进，我们可以更好地从中文提取实体信息，这就是刚刚说的价值发现的重要内容。

另外中文没有穷尽的词典，碰到词典中没有的词很难办，这种情况我们提出了“教师-学生网络”，这样即使我们碰到一个不认识的词，我们也能抓到它的部分语义。

这块工作是基于Transformer的中文NER。大家知道这两年自然语言处理大量采用Transformer模型。它的好处有两点，第一点是全连接结构，不需要去做动态的结构表征，速度会非常快;模型的可并行性也很高，可以解决传统方法信息传递效率不高的问题。

另外的思路将中文词典信息结合到输入表示层。为什么识别实体的时候需要词的信息，因为它们可以提供实体的边界信息。比如李明是一个人名，中山西路是一个地点。其中，李可能代表人名的开始，路可能代表地名的揭示出，根据这样的信息，可以更加有效地判断这样一个实体。

另外一个工作是利用迁移学习解决标记数据稀缺，我们讲到在社会媒体上现在训练数据特别稀缺，可能只有新闻媒体的1%，怎么办?只能尽量用手上有的信息。比如我现在有一个英文的词性标注语料库，同时还有推特的数据，虽然没有人工标注词性但也存在大量可用的未标注信息，然后通过这两种信息可以把现有的模型很好地迁移到推特领域，从新闻领域中提取领域不变的特征，用到推特分词和词性标注，还能够保持推特特有的模式。我们这块工作在英文词性标注排行榜上长期排名前两位。

这块是情感词典指导的情感分类的作，刚刚说情感倾向也是社会媒体上的重要的信息。传统上通过神经网络方法是很难去利用我们现有的词典信息的，我们在训练词的情感极性、判断正面负面强度多少的时候，可以加入情感词典，如果我们能够正确判断句子中哪些词是情感词，并且情感的强度是多少，就能够更加精准的提升情感分类性能，这个文章拿到了COLING的领域主席推荐奖。

下面开始介绍在社会媒体推荐方面的工作。现在我们已经有了自然语言处理技术，我们对词进行表示，对文章进行表示。我们还考虑到了社会媒体之上词和字的一些特殊性，中文的特殊性，我们识别实体，能够判断情感，能够抽取有价值的信息，我们基于深度学习开展智能社会媒体挖掘，我们采用了自然语言处理的神经网络方法，该网络包括词嵌入层，还有编码层，解码层，最终得到判断的结果。

除了社会媒体上的文字内容以外，我们需要利用各种有价值的信息，比如网络的结构信息，用户行为，比如我们知道在社会媒体上用户可以发贴、分享、点赞、转推、评论甚至下载、订阅，我们可以利用这些显式和隐式的行为帮助我们分析和判断。

社会媒体的用户行为受到各种因素的影响，分析社会媒体用户行为，一方面要看用户发了什么内容，这个称之为听其言;另一方面我们还要观其行，看他的行为，比如他是如何跟别人发生交互的，看他的朋友圈，看他的社交圈，看他社交关系的影响力、粉丝数量多少。

我们还要看用户在什么样的一个客观条件下做出某些行为的，比如平时不是一个体育迷，但到了世界杯、奥运会还是会关注，要受社会热点的影响，;圈外还要看环境因素的影响，看时间、空间、有了听其言、观其行之后，可以做各种各样的传播趋势预测工作。

比如说可以做微博的标签推荐，可以给微博推荐大V，可以预测微博贴子会不会被转发，客户接下来会参加什么话题，也可以在社会媒体挖掘当中融入多模态的信息。

这是关于用户画像的工作，我们需要构建社会话题、用户属性，有了属性之后才可以进行各种分析和挖掘，比如说我们知道用户的性别、地域、发贴数等。去年我们在新冠肺炎疫情期间做了一个用户画像，包括情感分析等。

我们也做了一些关于谣言检测的工作，说一下我们的结论，经过研究发现对待社会媒体上的谣言怎么办?要让子弹飞一会儿，一开始谣言可能有人相信，但随着时间的推移，谣言一定会有很多人质疑、会有人证伪，我们要相信群众的眼睛是雪亮的，经过时间能够判断出来。

下一个是微博标签推荐，比如说明天是高考了，我希望可以有一个系统帮我自动推荐一下，比如说打一个标签，参加哪一个话题。在给微博打标签的时候，除了考虑微博的内容，比如说同样是“苹果”要打“iPhone”的标签还是吃的“苹果”，要根据用户的历史信息，比如说是农村互联网的用户可能是种苹果的，是“苹果”标签，如果是手机的粉丝是要打另外一个标签。要根据用户的历史微博挖掘用户的兴趣，判断如何给微博打更合适的标签。

有的时候我们发一个贴子，比如说我要求助，求助某个机构或者大V，我发一个贴子，希望增加权威度，我应该@谁，这里面我们就提出了一个算法，如何@微博给合适的人。

我们的工作就是结合微博的内容，结合用户历史微博，结合用户感兴趣的话题，这是用户方面的渠道信息。我为什么要把我的微博推荐给某些大V，也许他的发言内容和我这条微博的内容相关，也许我写的东西可能是他感兴趣的内容，所以我们就可以用这种匹配网络，从这两个渠道进行分析，最后可以提升消息被转载的概率。

我们发现同样给用户推荐标签，不太经常发微博的用户好推荐，但如果有一个用户是重度微博用户，有成千上万条微博，怎么给他加标签，是不是要看过去所有的信息，这样效率不高。所以我们提出了一个基于强化学习的方法，这个方法会自动从用户历史微博当中找出哪些微博跟当前微博关系密切，我们进行有针对性的推荐。这就是基于大规模用户范围历史的推荐。

这想工作的话是转发预测。对于一条学术界微博，帖子内容非常重要，提到投稿时间马上要到了，24小时之内就应该马上投稿，但是只有一个转推，六个点赞，可能科学家会比较矜持;而对于明星，他的转发已经到了上限。所以在预测转发行为上要看这是谁发的微博，还要看内容，不是说干货越多越容易被转发。为此我们建立了一个微博的数据集，训练了一个转发预测系统。

除了看到用户行为，还要看到用户所在的时间信息、时空信息。比如说世界杯期间因为墨西哥在某一场比赛赢了德国队，墨西哥人大量转发各种各样关于足球的新闻，即使原来不是足球的粉丝。我们提出了一个热点话题预测转发算法，当所提到的话题是热门话题时，用户更有可能转发你的贴子。

还可以判断用户会不会参与某一个话题，比如说今天的热门话题“广州疫情”，怎么判断用户是不是会参加这个话题，我们也是根据用户本身发贴的历史，还有这个话题内有哪些重要的微博信息，根据他们之间的匹配关系判断用户是否会参加这个话题。

最后再介绍一下，观其言并不是只看语言文字，还可以看各种各样的多模态信息，以@用户为例， mac可能是电脑也可能是时尚品牌，我们有了图片信息就知道应该@给化妆品牌而不是苹果厂商，所以我们可以在推荐的时候不仅可以看文字信息还可以看图片信息。

这是我们前些天做的一个工作有个人发了一条文字推文“每个人都很快乐”，但是他同时也发了一张阴郁的图片，可以看出这个人有一点抑郁倾向。而这是光看文字是不能够发现的，如果把图文结合成两个信道，一个信道是文字信道，一个信道是图片信道，就可以得到比较准确的结果。

总结一下，我们在新浪微博等社会媒体上，用自然语言技术开展研究，进行语义计算，从中发现有价值的信息，也做了一些传播方面的粗浅预测，谢谢大家。

GAITC 2021智媒专题论坛丨黄萱菁：通过数据研究实现信息的传播趋势预测

相关文章

谢方敏：坚持科技创新，助力“人工智能+”行动走深向实

AI时代，个人站长如何用AI工具实现“一人公司”

人工智能的“过弯点”，三驾马车已经全面调整了姿态

港股也开始炒作人工智能了！

天津这场智博会，成了智能时代的风向标