Sparse Text Generation

Summary

文章提出了entmax的训练和sampling策略，解决文本生成中的退化问题的同时，得益于去训练和预测时都是基于entmax所得的稀疏概率分布，又不会额外引入train-test mismatch。文章中对entmax所得的稀疏概率分布没有细致的证明，而是用于19年ACL的一篇文章的结果。

Research Objective

同样是解决文本生成任务当中的退化问题，文中把上一篇介绍的top-k sampling和nucleus sampling的策略称为ad-hoc truncation techniques。但这些策略只在decoding的时候实施，就造成了文本生成问题模型在训练和预测时的mismatch。

Problem Statement

这些sampling策略的truncated和renormalized的softmax，只在预测阶段才人为地施加，并没有在training的阶段被学到；而且也很难去对比不同的truncation strategies。文章希望在解决文本退化问题的基础上，解决这些mismatch。

Method(s)

Sparse Transformations

文章以sparsemax或者说是 $\alpha-$ entmax来代替那些ad-hoc的sampling策略。 $\alpha-$ entmax的transformation能够内在地生成稀疏的概率分布，而后直接从这个稀疏的概率分布上sample就很自然地避免了文本的退化。具体如下。

19年ACL一篇《Sparse Sequence-to-Sequence Models》定义了 $\alpha-$ entmax如下：

$\alpha -entmax(z_t) := argmax_{\textbf{p }\in \triangle^d}\textbf{ p}^T\textbf{z}_t + H_\alpha(\textbf{p}) \tag{1}$

其中 $\textbf{z}_t$ 为timesteps t时模型输出的logits， $\triangle^d := \{\textbf{p} \in \mathbb{R}^d \mid \sum_{i=1}^d p_i = 1, \textbf{p} \geq \textbf{0} \}$ ， $H_\alpha$ 是Tsallis $\alpha-$ entropy:

$H_\alpha(\textbf{p}) := \left\{ \begin{aligned} & \frac{1}{\alpha(\alpha - 1)} \sum_j(p_j - p_j^\alpha),& \alpha !=1,\\ & \sum_j p_j \log p_j, &\alpha = 1 \end{aligned} \tag{2} \right.$

当 $\alpha = 1$ 时，公式2就成了普通的香农熵的定义；当 $\alpha=2$ 时，公式2就成了Gini熵；当 $\alpha \rightarrow \infty$ 时，公式2趋近于0，因此相应地公式1中1-entmax, 2-entmax, $\infty-$ entmax就分别对应softmax，sparsemax和argmax。《Learning Classifiers with Fenchel-Young
Losses: Generalized Entropies, Margins, and Algorithms》中展示了当 $\alpha > 1$ 时，entmax能够输出稀疏的概率分布，也就是说一些无关的词的概率会真正地为0，而不是一个接近于0的比较小的数。

那如何把entmax应用到训练当中呢？原本的文本生成模型MLE的log-likelihood loss如下：

$L(\theta) = - \sum\limits_{i=1}^{|S|} \sum\limits_{t=1}^{T_i}\log p_\theta(x_t^i\mid x^i_{<t}). \tag{3}$

Follow 19年那篇ACL的文章，把上式替换成:

$L(\theta) = - \sum\limits_{i=1}^{|S|} \sum\limits_{t=1}^{T_i}l_\alpha(\textbf{z}_t(\theta,x_{<t}),x_t), \tag{4} \$ $l_\alpha(z_t(\theta,x_{<t}) ：= (\textbf{p}_\theta - \textbf{e}_x)^T \textbf{z}_t + H_\alpha(\textbf{p}_\theta) \tag{5}$

其中 $\textbf{p}_\theta = \alpha-entmax(\textbf{z}_t)$ ，且 $\textbf{e}_x$ 是ground-truth token x对应的one-hot vector。当 $\alpha = 1$ 时，公式3、4等价；当 $\alpha=2$ 时，公式4就是所谓的sparse-max loss。

Entmax Sampling

上文介绍了以entmax transformation进行训练，而正像之前所说的，为了解决ad-hoc的sampling策略找出的train和test之间的mismatch的问题，文章在test的decoding阶段直接用entmax所得到的稀疏概率分布进行采样，不做任何的裁剪操作。这样可以使得sampling的结果文本具有比较好的多样性。

Evaluation

困惑度perplexity的定义是：

$ppl = exp (-\frac{1}{T} \sum_{t=1}^T \log p_\theta(x_t \mid x_{<t}))$

而这个定义对于一些sparse或者truncated的概率分布而言会出现一种异常： $lim_{p\rightarrow 0 } \log p = - \infty$ （truncated的策略把截断的token之外的token的概率设为0，这也就可能是上一篇介绍的HUSE方法需要interpolate的原因)。对此，文章提出了三种新的评价指标。

1、 $\epsilon-$ perplexity：对于sparse的概率分布加了小量 $\epsilon$ 作为平滑：

$\epsilon-ppl = exp(-\frac{1}{T} \sum_{t=1} ^T \log \frac{p_\theta(x_t\mid x_{<t}) + \epsilon}{1 + \epsilon|V|}))$

2、 Sparsemax score

$sp = p_\theta(x) + H_2(\textbf{p}_\theta)$

3、 JS散度：

$JS(\textbf{p}_\theta, \textbf{q}) = \frac{1}{2}KL(\textbf{p}_\theta || \textbf{m}) + \frac{1}{2}KL(\textbf{q} || \textbf{m}), \textbf{m} = \frac{\textbf{p}_\theta +\textbf{q} }{2}$

其中， $\textbf{p}_\theta$ 是训练所得的语言模型， $\textbf{q} = \textbf{e}_x$ 。当JS散度为0时，说明 $\textbf{p}_\theta = \textbf{e}_x$ ，当JS散度为 $\log(2)$ 时， $\textbf{p}_\theta$ 是一个one-hot分别，其中为1的那一项是完全错误的另一个token。

JS散度还可以用于衡量多个模型对于那个生成的句子的散度最大，即模型的预测结果之间最不相似。

当然，entmax在以上各指标的实验中综合表现最优

Conclusion

文章对于文本生成问题提出了entmax sampling策略，entmax的优点在于：1、sampling的方式是十分自然地从概率分布中sample；2、分布的稀疏性在训练时就已经学到，因此不会有训练和预测是的mismatch‘3、和nucleus sampling相同，与top-k sampling不同的是，sample的token集合的token数量随着上下文而动态变化。

Reference

Diversity-promoting models：增加生成文本多样性的方法，《Diversity-promoting gan: A crossentropy
based generative adversarial network for diversified
text generation》以生成对抗网络来奖励新奇和流利的文本；《Learning to Write with Cooperative Discriminators》使用多个鉴别器来增强language model；《Neural Text Degeneration With Unlikelihood Training》，也就是上上篇笔记所介绍的，通过unlikelihood loss增强log-likelihood loss惩罚所设置的negative candidate，来避免重复。这些方法可以结合本文提出的entmax sampling使用。
《Sparse Sequence-to-Sequence Models》，也就是上面提到的19年ACL那篇提出entmax transformations的论文。论文中提到Tsallis entmax losses具有一些有用的性质：凸性，可微性和铰链状分离边界性质(hingelike separation margin)这就使得其预测的概率分布稀疏。

Expression Record

A conundrum with current approaches：现存方案的一个难题

the unreliability of the tail of the distribution：尾部分布的不可靠性（只next-token predication时，token分布中那些概率小但密集的不可靠token）