心理咨询相关语料库

语料库	地址	描述
心理咨询问答语料库（Emotional First Aid Dataset）	GitHub, Gitee	人工标注的多轮对话
心理咨询问答原始语料库（Emotional First Aid Raw Dataset）	GitHub, Gitee	爬取后未标注的原始语料

Emotional First Aid Raw Dataset

让人工智能技术更好的服务于人类。

-- Hai Liang W., @hailiang-wang, Chatopera

心理咨询问答原始语料库，仅限研究用途。

心理咨询问答原始语料库（以下也称为“本数据集”，“本语料库”）是为应用人工智能技术于心理咨询领域制作的高品质语料，语料是爬取心理咨询、心理健康领域公开的网站的数据，经过整理和脱敏制作而成。消息总文本达四千四百多万字符。

爬取开放数据网站，比如给*心理、简*心理、豆*讨论组等。目前，一些网站已经关闭了数据的开放访问，使得本语料库更有宝贵价值。

数据格式

以下为每条的数据格式说明：

根节点 Key	数组子元素	示例	描述
title	-	`最近感觉好困好累，感觉好压抑`	发布者发起的话题
date	-	`2017-12-31 21:20:25`	发布者发布的时间
owner	-	`匿名`	发布者昵称
id	-	`5e6b9b94d037ed455ee9c9d7`	唯一标识 ID
chats			针对话题的交流，元素为 JSONArray，按照发生时间升序排列，即越靠近现在的 index 越大，越排在数组的后面，格式见下
	sender	`audience` 或 `owner`	发布者角色，`audience` 代表评论者，`owner` 代表发布者
	name	`Audience1`, `Audience2`	当 `sender` 为`audience`时存在，本评论发布者的名字（脱敏后）
	time	`21:20:44`	发布的时刻
	value	`您好`	评论内容

其中，每个话题都只有一个发布者 owner；数据进行了必要的脱敏，比如去掉了原始的爬取的 URL 地址、去掉了图片信息、重新生成了评论者的名称等。

数据示例

{
  "title": "女 最近感觉好困好累，感觉好压抑，没有人理解自己，好多好多问题弄得我自己身心疲惫，活着好累啊。人为什么要活着啊，最好躺在那里永远不要起来",
  "date": "2017-12-31 21:20:25",
  "owner": "匿名",
  "id": "5e6b9b94d037ed455ee9c9d7",
  "chats": [
    {
      "sender": "audience",
      "value": "您好！",
      "time": "21:20:44",
      "name": "Audience5"
    },
    {
      "sender": "audience",
      "value": "您今年多大了？这种好累的感觉有多久？",
      "time": "21:22:13",
      "name": "Audience3"
    },
    {
      "sender": "audience",
      "value": "你好，理解你的心情",
      "time": "21:27:07",
      "name": "Audience1"
    },
    {
      "sender": "audience",
      "value": "您好！发生了什么有影响的事件了吗？",
      "time": "21:28:51",
      "name": "Audience10"
    },
    {
      "time": "07:26:01",
      "sender": "owner",
      "value": "很多事情，老公的不理解，婆婆的无理取闹，大姑姐也闹，做的我身心疲惫"
    },
    {
      "time": "07:26:45",
      "sender": "owner",
      "value": "如果没有孩子这日子没法过了"
    },
    {
      "sender": "audience",
      "value": "请升级你的软件否则无法收到信息",
      "time": "08:13:41",
      "name": "Audience9"
    }
  ]
}

语料库规模

本语料库（心理咨询问答原始语料库）的统计数据如下 -

话题数：172,316 （每个话题都带有评论）

消息总数：2,381,273 (话题+评论的消息总数)

消息文本规模：44,514,786 (全部话题和评论的文本字符的总计)

平均每个话题的评论数： 12.8 个

本语料也是心理咨询问答语料库（Emotional First Aid Dataset，efaqa-corpus-zh）的语料来源：心理咨询问答语料库是在心理咨询问答原始语料库的基础上人工标记的结果，并且因为工作量巨大，仅完成了对部分原始语料的标记工作。

下载安装

安装和下载语料文件。

1/3 Install Sourcecodes Package

pip install -U efaqa-corpus-raw

2/3 Config license id

首先，从证书商店购买的证书的【证书标识】，在证书商店，证书详情页，点击【复制证书标识】。

其次，设置环境变量。

For Shell Users

e.g. Shell, CMD Scripts on Linux, Windows, macOS.

# Linux / macOS
export EFAQA_RAW_LICENSE=YOUR_LICENSE
## e.g. if your license id is `FOOBAR`, run `export EFAQA_RAW_LICENSE=FOOBAR`

# Windows
## 1/2 Command Prompt
set EFAQA_RAW_LICENSE=YOUR_LICENSE
## 2/2 PowerShell
$env:EFAQA_RAW_LICENSE='YOUR_LICENSE'

For Python Code Users

Jupyter Notebook, etc.

import os
os.environ["EFAQA_RAW_LICENSE"] = "YOUR_LICENSE"
_licenseid = os.environ.get("EFAQA_RAW_LICENSE", None)
print("EFAQA_RAW_LICENSE=", _licenseid)

3/3 Download Model Package

最后，使用以下脚本下载语料包文件。

python -c "import efaqa_corpus_raw"

提示：安装后初次使用会下载语料文件，下载速度取决于网络情况。

加载读取

import efaqa_corpus_raw
data = efaqa_corpus_raw.corpus
for conversation in data:
    print(conversation["id"], conversation["title"])

声明

本数据集不得再次销售或分享给除购买者以外的人、组织，如发生上述行为，本公司会进行积极的维权，侵权者承担法律和经济责任。 尊重知识产权，人人有责。

数据和程序可用于研究，必须注明引用和地址，比如发布的任何媒体、期刊、杂志或博客等内容。

@online{EfaqaCorpusRaw:chatopera2024,
  author = {Hai Liang Wang},
  title = {心理咨询问答原始语料库efaqa-corpus-raw},
  year = 2024,
  url = {https://github.com/chatopera/efaqa-corpus-raw},
  urldate = {2024-01-13}
}

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
assets		assets
efaqa_corpus_raw		efaqa_corpus_raw
scripts		scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

心理咨询相关语料库

Emotional First Aid Raw Dataset

数据格式

数据示例

语料库规模

下载安装

1/3 Install Sourcecodes Package

2/3 Config license id

3/3 Download Model Package

加载读取

声明

About

Languages

License

chatopera/efaqa-corpus-raw

Folders and files

Latest commit

History

Repository files navigation

心理咨询相关语料库

Emotional First Aid Raw Dataset

数据格式

数据示例

语料库规模

下载安装

1/3 Install Sourcecodes Package

2/3 Config license id

3/3 Download Model Package

加载读取

声明

About

Topics

Resources

License

Code of conduct

Stars

Watchers

Forks

Languages