- 对dna和protein序列进行分类,输入fasta文件,程序自动识别序列类型,并根据相应的打分矩阵进行计算。
- 对于dna序列 match :1 , mismatch : -3 , gap open :-5 , gap extend :-2 ,
- 对于protein序列采用的是BLOSUM62打分矩,gap open : -10 , gap extend : -0.5 。
- jdk 1.8
- weka >=3.8
-
输入文件格式:arff格式
-
先将数据整成标准的arff格式,不然无法运行程序,可通过下面辅助程序将fasta文件转化为arff文件
-
辅助程序 Fasta2arff.py 用法(其中numpos为正样本的个数):
python Fasta2arff.py -f xx.fasta -a xx.arff -l numpos
- 交叉验证用法:
java -jar HQFSVM-SA.jar -f train.arff -c cv
- 独立测试用法:
java -jar HQFSVM-SA.jar -f train.arff -p test.arff
- 测试用例:见example文件夹(其中包含的是转化好的arff格式数据,仅供参考或测试使用)
- 将 HQFSVM-SA.zip 按照如下教程安装。
- 参考地址:加载自定义分类器到weka