Skip to content

创建索引实例操作

Yvette Han edited this page May 31, 2021 · 7 revisions

本教程将会详细的为您介绍如何使用SOCO Dashbaord来创建一个基于微博数据的索引。

这是我们现有的数据集,每个数据集中都包含以下格式的数据(您可以在这里下载示例数据

{
  "_id":"6041339a6015b48a0b212987"
  "text":"【台风位置】美莎克(强台风):2020年08月31日23时,距离福州756公里,气压:940百帕,近中心最大风力:15级,移速:18km/h。 http://t.cn/E6XQNP6 ​​​"
  "Title":"台风位置"
  "Url":"http://weibo.com/2636720431/Jiw97adFM"
  "Date":"2020-08-31T16:01:10"
  "Type":0
  "IsPublic":0
  "Mode":2
  "Issuer":"2636720431"
}
    

在本例中,我们想要对数据中的title以及text进行索引,其中title可以作为一个关键词(keyword)类型,而text则可以对应文本(text)类型,并在此基础上进行索引。让我们来看一下具体要如何操作吧!

  1. 上传数据集
  2. 建立映射
  3. 建立索引
  4. 查看状态
  5. 测试

上传数据集

SOCO 提供两种不同的上传数据集的方式,一种是直接使用API添加,另一种则是使用SOCO Dashboard界面来添加.

在SOCO Dashboard,在标头点击Data,您可以看到如下的界面。

点击新建按钮,您会看到两个选项,

  • From Scratch (通过复制json数据手动添加)
  • From JSON file (从已有的json文件中创建数据集)

若您选择手动添加数据的方法,你需要在JSON Data处输入或复制json数据 若您选择通过json文件中创建,则需要点击或拖拽您的文件,在上传后创建数据集。

无论哪种方式,您都需要为您的数据集命名,并且名字不可与其他数据集重复。

在创建完数据集后,请稍等一段时间,SOCO会在后台处理这些文件,您可以刷新以查看您刚创建的数据集。

您可以点击数据集的名称来查看该数据集的详情,详情界面如图

左侧的列表显示单个数据的数据id,右侧的部分则显示对应的data详情。您可以点击数据id以阅览数据详情

建立映射

当我们有了数据集之后,我们就可以基于数据结构建立新的映射了。 更多关于映射的知识,您可以参考映射界面的介绍

我们对数据集的上传以及映射的创建并没有硬性要求,所以您也可以先建立映射再上传数据,您可以根据您的使用场景进行调整。需要注意的是您必须在索引前创建好对应的映射,否则您将无法创建索引。

SOCO 提供两种不同的建立索引的方式,一种是直接用API进行创建,一种是通过仪表盘进行创建。您可以参考对应的界面选择您喜欢的方式。 在本教程中,我们将使用仪表盘创建映射。

在仪表盘上创建映射

首先,我们需要在仪表盘上创建一个映射。您可以很轻松的创建并修改您的映射的名字 创建映射

在仪表盘上,您有两种预览及编辑映射的方法,一种是config mode,一种是JSON mode,JSON mode就是直接输入JSON代码,而config mode则提供更多选项以供您快速上手,我们将使用config mode来进行映射的创建

创建源字段(source field)

接下来,我们需要确定映射(mapping) 的源字段(source field)。正如我们在上文中所提到的,我们想要主要对 title和text这两个字段进行索引,所以它们将是我们这个映射中的源字段(source field)。源字段即为想要进行索引的数据集中的数据的字段,索引的目的就是将数据集中数据的字段转换为我们想要的结果。 因此每个源字段都会有一到多个目标字段(target field),其中目标字段就是我们想要得到的结果所需的字段。

SOCO仪表盘上有两种创建source field的方式,一种是直接进行添加,一种是通过已有的collection快速进行添加。

快速添加

我们先尝试使用快速添加的方法,您只需点击按钮,在弹出窗口内选择对应的数据集(data collection), SOCO 将节选一个数据集中的数据作为预览,以便您能更清楚地了解每个字段的内容。 同时我们也将自动检测所有的字段并展示在右侧,您可以选择你想要添加作为source field的字段快速进行添加。 prefilled

创建好的的源字段(source field)名称将会显示在左侧列表内,您可以点击原字段名来查看每个源字段的详情。 快速添加的源字段将会提供对应数据集的预览,以便您更好的了解不同源字段的具体内容

直接添加

直接添加源字段的方法则更为简单,您只需点击“Add Source Field”按钮,即可添加一个新的源字段。 直接添加的源字段将没有预览功能,您可以对照您想要使用的数据集来决定source field的target field。 切记给每个新添加的源字段命名,否则将导致后台处理错误。我们推荐您一次只添加一个源字段,当您编辑完当前源字段之后,再创建下一个源字段。

创建目标字段(target field)

创建完源字段之后,我们需要考虑该源字段的目标字段(target field),也就是建立索引后将用于使用的字段。

一个目标配置字典需要以下key:

  • 目标字段名(targetFieldName)
  • 类型(type)
  • 配置(configs)

targetFieldName是索引后使用的字段名称。type是目标字段的类型,configs是目标字段的配置(详情请参考目标字段页

在本文所提及的例子中,我们需要将text字段作为文本(text)类型对象,将title字段作为关键字(keyword)对象。

使用config 模式,您可以很轻松的创建新的target field。 只需点击“Add Target Filed”按钮,并输入target field name, 选择想要的类型,并且填写对应的信息。

接下来,我们如法炮制,将title字段设为关键词类型。

如此我们的映射就基本设置好了,下面让我们来创建索引吧!

创建索引

当您创建完映射之后,您就可以开始创建您的索引了!您只需切换到索引(index)界面,点击创建新的index,并如下填写索引名和映射的信息

创建完索引之后,您需要进行Reindex以建立索引信息,您可以通过首页的Renindex Now按钮跳转到Reindex界面,或者直接点击Reindex菜单跳转。您需要选择Mapping对应的数据集名称以进行Reindex的操作,您可以在下拉菜单中选择数据集,并且在下方预览映射设置及数据集的数据节选。当您满意于您的选择之后,您可以点击Reindex按钮进行索引的操作。

查看单个索引状态

当您完成Reindex操作后,系统将在后台处理数据,您可以在Overview界面上查看索引的状态 如图所示,您可以查看上一次index操作的信息,目前正在处理的reindex状态,以及处理好的索引数据文件的范例(哪怕索引没有完全完成,您也可以查看已经处理好的索引部分的链接)

查看索引历史

您可以在History页面查看索引的历史 您可以依次查看索引的数据及名称,索引开始时间及结束事件,以及处理索引所花的时间

测试

在索引完全完成后,您可以对索引进行测试。 我们提供了所有的API以供选择,您可以在左侧点击您想要应用的API信息,并且使用编辑界面修改要发的API请求,点击Send之后,在结果界面会显示API返回的结果

Clone this wiki locally