如何使用本软件计算中英文文本的信息密度? #34
-
这个软件功能强大,解决了语言研究者不会编程之苦!太帅了。请问有没有考虑加入统计中英文文本实词和虚词数量以及计算二者之间比率的功能?需要使用这个来计算文本的信息密度。 |
Beta Was this translation helpful? Give feedback.
Replies: 8 comments
-
您是指 lexical density 吗?以后会考虑添加 只不过有几个技术上的问题 |
Beta Was this translation helpful? Give feedback.
-
谢谢回复!我是技术小白,感觉如果能够按照第二种方案让用户根据需要自行指定实词和虚词列表,会更实用一些,也能够方便跨语对比。 |
Beta Was this translation helpful? Give feedback.
-
也不只是为了计算词汇密度了,使用者也可能需要计算某(几)种词性(比如代词或连词)在整个文本或整个语料库中的比率,至少在比较原创文本与翻译文本宏观语言特征的时候是需要的。 |
Beta Was this translation helpful? Give feedback.
-
如果是需要计算某个/几种词性所占的比率的话 如果语料库已经pos-tag过 则 wordlist 模块中右边 token settings 里勾选 Use tags only 这样就能所示所有标签频数及其百分比 几种词性的话自己加一下就行 |
Beta Was this translation helpful? Give feedback.
-
谢谢回复。按照你的提示尝试了下,发现使用treetagger赋码之后的文件生成的词表不完整。如果使用preview考出来的文件,软件提示编码错误,加载文件失败,更改设置也不行。 |
Beta Was this translation helpful? Give feedback.
-
Governing a Big Country Is as Delicate as Frying a Small Fish(treetagged).txt |
Beta Was this translation helpful? Give feedback.
-
看了下编码可能是Windows-1252 (最下面那个) |
Beta Was this translation helpful? Give feedback.
-
3.5.0 中已添加 lexical density 的计算支持 |
Beta Was this translation helpful? Give feedback.
3.5.0 中已添加 lexical density 的计算支持