文本分析软件Leximancer概念计数和多种语言建模

在Leximancer中,概念是一组在文本中一起传播的相关单词(术语)。证据词包括同义词和形容词。Leximancer概念以种子词开始,种子词由Leximancher自动发现或手动指定用于编码。Leximancer的学习过程将概念种子定义演变成一个完整的词库。概念可以像单词一样,也可以像名字一样(专有名称,如Peter)

 

词典概念计数可以与文档中的手动单词计数进行比较吗?

不是。Leximancer围绕单词建立概念族,然后使用这些概念族对存在多个概念的每两个句子块进行编码或分类。

Leximancer统计包含一个概念的整个2个句子片段,而不是单词的重复。此外,还将存在用不包含单词的概念编码的文本段。

注意:两个句子块的大小是默认值,可以更改。其他项目设置可能会影响Leximancer处理文本的方式以及由此产生的概念计数。

 

你能在同一个词汇分析/地图中为多种语言建模吗?

是的,但结果可能不是你想要的。Leximancer不执行自动翻译,因此来自不同语言的两个意思相同的概念不会使用普通文本数据自动合并。由此产生的映射对于每种语言都有很大程度上独立的概念集群。您可以手动跨语言合并集线器概念,如果合并足够多,语言集群就会合并。

要在同一项目中映射来自多种语言的数据,必须执行两件事:

  • 为项目选择每个数据集时,指定它们的语言;
  • 必须在非索引字表编辑器中(使用顶部的“加载语言”按钮)为每个附加语言加载非索引字清单。

 

查看Leximancer软件详情

热门产品

2024-02-20 14:30
首页    技术文档    文本分析软件Leximancer概念计数和多种语言建模