最新要闻

广告

手机

iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?

iphone11大小尺寸是多少?苹果iPhone11和iPhone13的区别是什么?

警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案

警方通报辅警执法直播中被撞飞:犯罪嫌疑人已投案

家电

天天观速讯丨论文解读()《Detect Rumors in Microblog Posts for Low-Resource Domains via Adversarial Contrastive Learning》

来源:博客园

论文信息

论文标题:Detect Rumors in Microblog Posts for Low-Resource Domains via Adversarial Contrastive Learning论文作者:Hongzhan Lin, Jing Ma, Liangliang Chen, Zhiwei Yang, Mingfei Cheng, Guang Chen论文来源:NAACL 2022论文地址:download论文代码:download

1 Introduction

第一个提出一个全新的对抗性对比学习框架来研究社交媒体上的低资源谣言检测;

提出了监督对比学习用于不同领域和语言之间的结构特征适应,使用对抗攻击来增强对比范式中低资源数据的多样性;


(相关资料图)

构建了两个具有传播树结构的 COVID-19 对应的低资源微博数据集(英文和中文);

2Problem Statement

定义 well-resurced dataset 作为训练集 $\mathcal{D}_{s}=\left\{C_{1}^{s}, C_{2}^{s}, \cdots, C_{M}^{s}\right\}$,其中 $M$ 是 source event 的数量,每个 event 定义为 $C^{s}=(y, c, \mathcal{T}(c))$ ,标签 $y \in\{ rumor, non-rumor \}$ ,帖子按时间顺序排序 $\mathcal{T}(c)=\left\{c, x_{1}^{s}, x_{2}^{s}, \cdots, x_{|C|}^{s}\right\}^{3}$ ,这里的 $|C|$ 是回复帖子的数量。定义 low-resource domain / languages 的 target dataset $\mathcal{D}_{t}=\left\{C_{1}^{t}, C_{2}^{t}, \cdots, C_{N}^{t}\right\}$ 也参与训练,这里 $N(N \ll M)$ 是 target event 的数量,每个 event $C^{t}= \left(y, c^{\prime}, \mathcal{T}\left(c^{\prime}\right)\right)$ 。

将 low-resource 谣言检测的任务定义为一个监督分类问题,训练一个领域/语言无关的分类器 $f(\cdot)$,将从源数据集学习到的特征适应到目标事件的特征,即 $f\left(C^{t} \mid \mathcal{D}_{s}\right) \rightarrow y$。

3 Method

总体框架:

3.1 Cross-lingual Sentence Encoder

给定一个可能来自源数据或目标数据的帖子,将其映射到一个共享的语义空间。通过语义对齐,我们利用 XLM-RoBERTa(XLM-R)来建模句子级表示序列中标记之间的上下文交互:

$\bar{x}=X L M-R(\mathbf{x})$

其中 $x$ 是原始的 post 表示,本文使用 XLM-R 中 标记的输出状态获得后级表示 $\bar{x}$。

使用上述过程可以得到 source event 和 target event 的特征矩阵 $X^{*}=\left[\bar{x}_{0}^{*}, \bar{x}_{1}^{*}, \bar{x}_{2}^{*}, \ldots, \bar{x}_{\left|X^{*}\right|-1}^{*}\right]^{\top}$,$* \in\{s, t\}$ ,其中$X^{s} \in \mathbb{R}^{m \times d}$ 、$X^{t} \in \mathbb{R}^{n \times d}$。

3.2 Propagation Structure Representation

Top-Down GCN、Bottom-Up GCN

$H^{(l+1)}=\operatorname{Re} L U\left(\hat{\mathbf{A}} \cdot H^{(l)} \cdot W^{(l)}\right)$

$\hat{\mathbf{A}}=\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}$

The Overall Model

最后,通过均值池将 $H_{TD}$ 和$H_{BU}$连接起来,以共同捕获自上而向下和自下而上两种树中表达的观点:

$o=\text { mean-pooling }\left(\left[H_{T D} ; H_{B U}\right]\right)\in\mathbb{R}^{2 d^{(L)}}$

3.3 Contrastive Training

为了对齐来自不同领域和语言的谣言指示信号的表示空间,我们提出了一种新的训练范式,利用标记数据,包括丰富的来自 源数据 和小规模的 目标数据,以在目标领域和语言上适应我们的模型。其核心思想是使来自同一类的源 event 和目标 event 的表示更接近,同时远离来自不同类的表示。

给定源数据,接着使用上述平均池化得到的 $o_{i}^{s}$ ,放入 softmax 做谣言分类,使用 CE loss :

$\mathcal{L}_{C E}^{s}=-\frac{1}{N^{s}} \sum\limits _{i=1}^{N^{s}} \log \left(p_{i}\right)$

其中 $N^{s}$ 是 Batch 中的 source 数据,$p_{i}$ 是 正确预测的概率;【同样可以用于计算 target 数据】

为了使源事件中的谣言表示更具指示性,我们提出了一个监督对比学习目标,以聚集同一类,并分离不同类别的样本:

$\mathcal{L}_{S C L}^{s}=-\frac{1}{N^{s}} \sum\limits_{i=1}^{N^{s}} \frac{1}{N_{y_{i}^{s}}-1} \sum\limits_{j=1}^{N^{s}} \mathbb{1}_{[i \neq j]} \mathbb{1}_{\left[y_{i}^{s}=y_{j}^{s}\right]} \log \frac{\exp \left(\operatorname{sim}\left(o_{i}^{s}, o_{j}^{s}\right) / \tau\right)}{\sum\limits _{k=1}^{N^{s}} \mathbb{1}_{[i \neq k]} \exp \left(\operatorname{sim}\left(o_{i}^{s}, o_{k}^{s}\right) / \tau\right)}$

其中,$N_{y_{i}^{s}}$ 是source 数据中拥有一样标签 $y_{i}^{s}$ 的数量。

为充分利用 target 数据,通过对比表学习将 source data 和 target data 相同标签的样本拉近:

$\mathcal{L}_{S C L}^{t}=-\frac{1}{N^{t}} \sum\limits_{i=1}^{N^{t}} \frac{1}{N_{y_{i}^{t}}} \sum\limits_{j=1}^{N^{s}} \mathbb{1}_{\left[y_{i}^{t}=y_{j}^{s}\right]} \log \frac{\exp \left(\operatorname{sim}\left(o_{i}^{t}, o_{j}^{s}\right) / \tau\right)}{\sum\limits_{k=1}^{N^{s}} \exp \left(\operatorname{sim}\left(o_{i}^{t}, o_{k}^{s}\right) / \tau\right)}$

3.4Adversarial Data Augmentation

在本节中,引入对抗性攻击,在事件级潜在空间生成伪目标样本,以增加模型视图的多样性,以实现对比学习方式的鲁棒性。具体来说,我们应用Fast Gradient Value 将最坏情况扰动近似为事件级表示的噪声向量:

$\tilde{\boldsymbol{o}}_{n o i s e}^{t}=\epsilon \frac{g}{\|g\|} ; \text { where } g=\nabla_{o^{t}} \mathcal{L}_{C E}^{t}$

其中,梯度 $g$ 为目标样本的分类损失 $\mathcal{L}_{C E}^{t}$ 的一阶差分,即快速增加分类损失的方向。我们执行归一化,并使用一个小的 $\epsilon$,以确保近似是合理的。最后,我们可以在潜在空间中获得伪增强样本 $o_{a d v}^{t}= o^{t}+\tilde{\boldsymbol{o}}_{\text {noise }}^{t}$ 来增强我们的模型。

3.5 Model Training

联合训练:

$\mathcal{L}^{*}=(1-\alpha) \mathcal{L}_{C E}^{*}+\alpha \mathcal{L}_{S C L}^{*} ; * \in\{s, t\}$

算法总结:

4Experiments

数据集

谣言检测性能

消融实验

早期检测

特征可视化

5Conclusion and Future Work

在本文中,我们提出了一种新的对抗性对比学习框架,通过将从资源充足的数据中学习到的特征适应于低资源破坏事件的特征,来弥补谣言检测的低资源缺口。在两个真实基准上的结果证实了我们的模型在低资源谣言检测任务中的优势。在我们未来的工作中,我们计划收集和应用我们的模型在其他领域和少数民族语言。

关键词: 一种新的 少数民族 一个小的