Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于数据集问题 #23

Open
yangkm601v1 opened this issue Feb 7, 2021 · 18 comments
Open

关于数据集问题 #23

yangkm601v1 opened this issue Feb 7, 2021 · 18 comments

Comments

@yangkm601v1
Copy link

你好,你的idea和代码写得太赞,但是我在构建训练集的时候出现了问题,所以想问一下,能不能提供一下你那边已经处理好的数据集呢?

@juntaoy
Copy link
Owner

juntaoy commented Feb 7, 2021

你是需要那些数据集?主要是由于版权问题我没法把处理好的数据集直接贴在网上。只要你有所需要数据集的原版我就可以发给你处理好的文件了:)

@yangkm601v1
Copy link
Author

yangkm601v1 commented Feb 7, 2021 via email

@juntaoy
Copy link
Owner

juntaoy commented Feb 7, 2021

没问题,邮箱给我下

@yangkm601v1
Copy link
Author

yangkm601v1 commented Feb 8, 2021 via email

@silence-96
Copy link

没问题,邮箱给我下

您好,我也需要一份数据,做研究,我是一名学生,可以将数据集也发我一份吗

@silence-96
Copy link

2531785169@qq.com,感谢您

@LiamLiu41
Copy link

您好,请问测试集可以分享一下吗?1053450369@qq.com

@mjy1111
Copy link

mjy1111 commented Sep 3, 2021

您好,请问可以发我一份conll2003德语数据集(BIO格式)吗?谢谢!我的邮箱是542644086@qq.com

@juntaoy
Copy link
Owner

juntaoy commented Sep 3, 2021

原版数据集你需要去找LDC买的,我不能直接发给你。

@LindgeW
Copy link

LindgeW commented Sep 7, 2021

@juntaoy 你好,我有原版的英文ontonotes5的LDC数据集,请问能发一份处好的ontonotes5.0的ner数据集吗(conll格式)?想跑下您论文的结果 我的邮箱: tjuwlz2020@163.com

@juntaoy
Copy link
Owner

juntaoy commented Sep 7, 2021

我没有把ontonotes转换成conll03 BIO的格式,我是从Conll2012 corefernce的格式转换过来的,如果需要conll2012格式可以参考 https://github.com/kentonl/e2e-coref

@87302380
Copy link

87302380 commented Dec 23, 2021

我没有把ontonotes转换成conll03 BIO的格式,我是从Conll2012 corefernce的格式转换过来的,如果需要conll2012格式可以参考 https://github.com/kentonl/e2e-coref

您好,最近我在复现该模型的过程中遇到了一些疑惑。
对于CONLL 2003这种使用BIO格式标注的数据集,数据的真实标签(示例数据格式中的ners)该如何处理?
例如句子:
Spanish Farm Minister Loyola de Palacio had earlier accused Fischler.
S-MISC O O B-PER I-PER E-PER O O O S-PER
是处理成 [0, 0, S-MISC ], [3, 3, B-PER], [4, 4, I-PER], [5, 5, E-PER], [9, 9, S-PER].
还是 [0, 0, MISC ], [3, 5, PER], [9, 9, PER].
期待您的回复!

@lzf00
Copy link

lzf00 commented Aug 31, 2022

您能发一份中文示例数据给我吗,我想用自己的中文数据做实验,但是不清楚具体的数据格式,感谢

@lzf00
Copy link

lzf00 commented Sep 3, 2022

这个邮箱就是我的邮箱------------------ 原始邮件 ------------------ 发件人: "Juntao&nbsp;Yu"<notifications@github.com> 发送时间: 2021年2月7日(星期天) 晚上7:19 收件人: "juntaoy/biaffine-ner"<biaffine-ner@noreply.github.com>; 抄送: "yangkm601v1"<1376129492@qq.com>;"Author"<author@noreply.github.com>; 主题: Re: [juntaoy/biaffine-ner] 关于数据集问题 (#23)

可以发一份中文数据集的例子吗,我也想用自己的中文数据集做实验,但是不知道具体的格式,感谢!

@juntaoy
Copy link
Owner

juntaoy commented Sep 3, 2022 via email

@lzf00
Copy link

lzf00 commented Sep 3, 2022

我没有用中文的数据做实验,不过格式是一样的只是把英文换成中文而已

On 3 Sep 2022, at 03:52, lzf1024 @.> wrote:  这个邮箱就是我的邮箱------------------ 原始邮件 ------------------ 发件人: @.> 发送时间: 2021年2月7日(星期天) 晚上7:19 收件人: @.>; 抄送: @.@.***>; 主题: Re: [juntaoy/biaffine-ner] 关于数据集问题 (#23) 可以发一份中文数据集的例子吗,我也想用自己的中文数据集做实验,但是不知道具体的格式,感谢! — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.

image
就是这样的格式,然后比如batch为8,doc_key里面就放8个句子吗

@juntaoy
Copy link
Owner

juntaoy commented Sep 3, 2022 via email

@scofield687
Copy link

您好,请问能发我一份处理好的数据集嘛,我想看下数据集的格式,然后处理自己的数据集,邮箱是tommyscofield@qq.com,非常感谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

9 participants