本实验实现bert多标签分类的方式？

本实验是不是通过使用sigmoid函数实现的多标签文本分类？
如果是的话，是不是在dev和test中使用的阈值是0.6，而在predict中阈值是0.5？这是为什么呢
是不是与bert文本分类的区别就是使用Sigmoid函数而不是softmax？