本实验是不是通过使用sigmoid函数实现的多标签文本分类? 如果是的话,是不是在dev和test中使用的阈值是0.6,而在predict中阈值是0.5?这是为什么呢 是不是与bert文本分类的区别就是使用Sigmoid函数而不是softmax?