https://www.cnblogs.com/Determined22/p/7238342.html 这篇博客
里面这个公式表示抽象的含义,表示的是最后的分数由他们影响,不是直观意义上的相加。
为什么在后面使用的时候只输入了特征转移矩阵,没有观测矩阵:
1. 因为在LSTM或者是Transformer输出的时候,输出的是[batch_size, sequence_length, num_tags],只需要找到最符合的tag就行了
2. 为什么CRF是无向图:因为后面的标签要决定前面的标签。为什么是特征,不是概率:只有当满足了某个转移条件才行,所以就形成了B I I 这种条件。