conll-2012-formatted-ontonotes-5.0中文数据格式说明

CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。

CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。以下是一个典型的 CoNLL-2012 格式的例子,展示了它的列结构和类型:


bc/cnn/00/cnn_0000   0    0           而且    AD         (TOP(IP(ADVP*)  -    -   -    Paula_Zahn_#1E         *    (ARGM-DIS*)            *      -
bc/cnn/00/cnn_0000   0    1         国防部长    NN               (NP(NP*)  -    -   -    Paula_Zahn_#1E         *        (ARG0*             *   (195
bc/cnn/00/cnn_0000   0    2    唐纳德·拉姆斯菲尔    NR                 (NP*))  -    -   -    Paula_Zahn_#1E   (PERSON)            *)            *    195)
bc/cnn/00/cnn_0000   0    3            说    VV                  (VP*   -   01   7    Paula_Zahn_#1E         *           (V*)            *      -
bc/cnn/00/cnn_0000   0    4            更    AD   (IP(NP(DNP(QP(ADVP*)  -    -   -    Paula_Zahn_#1E         *        (ARG1*        (ARG0*   (247
bc/cnn/00/cnn_0000   0    5            多    CD                 (QP*))  -    -   3    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    6            的   DEG                     *)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    7           美国    NR                  (NP*)  -    -   -    Paula_Zahn_#1E     (NORP)            *             *      -
bc/cnn/00/cnn_0000   0    8           士兵    NN                 (NP*))  -    -   -    Paula_Zahn_#1E         *             *             *)   247)
bc/cnn/00/cnn_0000   0    9           可能    AD             (VP(ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   10           不久    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-TMP*)     -
bc/cnn/00/cnn_0000   0   11            将    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   12           启程    VV               (VP(VP*)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0   13           前往    VV                  (VP*   -   01   -    Paula_Zahn_#1E         *             *           (V*)     -
bc/cnn/00/cnn_0000   0   14          伊拉克    NR             (NP*))))))  -    -   -    Paula_Zahn_#1E      (LOC)            *)       (ARG1*)     -
bc/cnn/00/cnn_0000   0   15            .    PU                    *))  -    -   -    Paula_Zahn_#1E         *             *             *      -

bc/cnn/00/cnn_0000   0    0       他    PN      (TOP(IP(NP*)  -    -   -    Paula_Zahn_#1E       *    (ARG0*)            *         *        *      *      *    (195)
bc/cnn/00/cnn_0000   0    1       说    VV             (VP*   -   01   7    Paula_Zahn_#1E       *       (V*)            *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    2       将    AD     (IP(VP(ADVP*)  -    -   -    Paula_Zahn_#1E       *    (ARG1*    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    3      暂时    AD           (ADVP*)  -    -   -    Paula_Zahn_#1E       *         *    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    4      需要    VV             (VP*   -   02   1    Paula_Zahn_#1E       *         *           (V*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    5      他们    PN          (IP(NP*)  -    -   -    Paula_Zahn_#1E       *         *        (ARG1*    (ARG0*)       *      *      *    (247)
bc/cnn/00/cnn_0000   0    6       来   MSP             (VP*   -    -   7    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    7      防止    VV             (VP*   -   01   -    Paula_Zahn_#1E       *         *             *       (V*)       *      *      *       -
bc/cnn/00/cnn_0000   0    8    十二月份    NT   (NP(LCP(NP(NP*)  -    -   -    Paula_Zahn_#1E   (DATE)        *             *    (ARG1*        *      *      *       -
bc/cnn/00/cnn_0000   0    9     伊拉克    NR             (NP*)  -    -   -    Paula_Zahn_#1E   (ORG*         *             *         *        *      *      *    (206)
bc/cnn/00/cnn_0000   0   10      国会    NN             (NP*   -    -   -    Paula_Zahn_#1E       *)        *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   11      选举    NN               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   12       前    LC                *)  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   13      预料    VV    (CP(CP(IP(VP*   -   01   -    Paula_Zahn_#1E       *         *             *         *      (V*)     *      *       -
bc/cnn/00/cnn_0000   0   14       会    VV          (IP(VP*   -   02   -    Paula_Zahn_#1E       *         *             *         *   (ARG1*    (V*)     *       -
bc/cnn/00/cnn_0000   0   15      增长    VV         (VP*)))))  -   01   1    Paula_Zahn_#1E       *         *             *         *        *)     *    (V*)      -
bc/cnn/00/cnn_0000   0   16       的   DEC               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   17      叛乱    NN             (NP*   -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   18      袭击    NN        *)))))))))  -    -   -    Paula_Zahn_#1E       *         *)            *)        *)       *      *      *       -
bc/cnn/00/cnn_0000   0   19       .    PU               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -

每列的含义为:

      第一列是文件名。

      第二列是文档片段iid,大部分是0。

     后面几列为:

  1. Word index: 句子中的词索引。
  2. Word form: 词的原形。
  3. Part-of-Speech tag: 词性标签。
  4. Parse tree: 句法分析树的部分信息。
  5. Predicate lemma: 如果当前词是谓词,则为谓词的原形;否则为一个连字符。
  6. Predicate Frameset ID: 如果当前词是谓词,则为框架ID;否则为一个连字符。
  7. Word sense: 词的语义编号,如果适用的话。
  8. Speaker/Author: 说话者或作者。
  9. Named Entities: 命名实体标记。
  10. Predicate Arguments: 与谓词相关的语义角色标注。
  11. Coreference: 共指解析标记。

其中,共指标记中,相同数字的表示同一指代簇。

/cctv/00/cctv_0000   0    4    熟知    VV         (VP*)))))  -   01   -   Speaker#1       *       (V*)           *         *      -
bc/cctv/00/cctv_0000   0    5     的   DEC               *))  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0    6    卡通    NN             (NP*   -    -   -   Speaker#1       *         *            *         *    (82
bc/cctv/00/cctv_0000   0    7    形象    NN               *))  -    -   -   Speaker#1       *         *            *)        *     82)
bc/cctv/00/cctv_0000   0    8     以     P          (VP(PP*   -    -   -   Speaker#1       *         *   (ARGM-MNR*         *      -
bc/cctv/00/cctv_0000   0    9     其    PN          (NP(NP*)  -    -   -   Speaker#1       *         *            *         *    (82)
bc/cctv/00/cctv_0000   0   10    独有    JJ       (DNP(ADJP*)  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0   11     的   DEG                *)  -    -   -   Speaker#1       *         *            *         *      -

这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/604906.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Windows端之Python3.9及以上高版本工程打包得到的exe逆向工程解包得到pyc文件进而得到py文件的流程实现

参考来自 【python逆向 pyc反编译】python逆向全版本通杀_python反编译pyc-CSDN博客https://blog.csdn.net/zjjcxy_long/article/details/127346296Pyinstaller打包的exe之一键反编译py脚本与防反编译_pyinstaller防止反编译-CSDN博客https://blog.csdn.net/as604049322/artic…

「网络流 24 题」魔术球 【最小路径覆盖】

「网络流 24 题」魔术球 注意这里的球是依次放置&#xff0c;也就是说如果当前放到第 i i i 号球&#xff0c;那么 1 → i − 1 1 \rarr i - 1 1→i−1 号球都已经放好了&#xff0c;否则可以放无数个球 思路 首先我们对于 i < j 且 i j 完全平方数 i < j 且 i j…

在思科和华为上实现两个主机A,B A能ping通B,B不能ping通A

1.华为实验的topo如下 常规状态下任意两台主机都是可以ping通的 此时的需求是PC4能ping通PC2和PC3但是PC2和PC3不能ping通PC4 这里需要用到ACL策略 在接口上调用 验证&#xff1a; PC4能ping通PC2和PC3 PC2和PC3不能ping通PC4 2.思科类似 正常情况下是都能互相ping通 加上ac…

嵌入式Linux的QT项目CMake工程模板分享及使用指南

在嵌入式linux开发板上跑QT应用&#xff0c;不同于PC上的开发过程。最大的区别就是需要交叉编译&#xff0c;才能在板子上运行。 这里总结下嵌入式linux环境下使用CMake&#xff0c;嵌入式QT的CMake工程模板配置及如何使用&#xff0c;分享给有需要的小伙伴&#xff0c;有用到的…

Github的使用教程(下载和上传项目)

根据『教程』一看就懂&#xff01;Github基础教程_哔哩哔哩_bilibili 整理。 1.项目下载 1&#xff09;直接登录到源码链接页或者通过如下图的搜索 通过编程语言对搜索结果进一步筛选。 2&#xff09;红框区为项目的源代码&#xff0c;README.md &#xff08;markdown格式&…

企业如何用数字化为预提摊销业务赋能?

对于企业来说&#xff0c;想要实现系统化、智能化、自动化的预提摊销管理&#xff0c;需要做足哪些功课&#xff1f;常见场景下的业务难题又该如何破解&#xff1f;今天胜意科技就给大家介绍一下&#xff0c;企业如何通过数字化手段搞定预提摊销业务难题。 一、预提摊销痛点 在…

Spring后端参数校验——自定义校验方式(validation)

文章目录 开发场景技术名词解释——Spring Validation自定义校验 技术细节小结1.实体参数校验2.自定义校验 完整代码 开发场景 业务场景&#xff1a;新增文章 基本信息 请求路径&#xff1a;/article 请求方式&#xff1a;POST 接口描述&#xff1a;该接口用于新增文章(发布文…

小样本学习

小样本学习的概念最早从计算机视觉(computer vision)[8]领域兴起, 近几年受到广泛关注, 在图像分类任务中已有很多性能优异的算法模型[9-11].但是在自然语言处理领域(natural language processing)[12]的发展较为缓慢, 原因在于图像和语言特性不同.图像相比文本更为客观, 所以当…

学习方法的重要性

原贴&#xff1a;https://www.cnblogs.com/feily/p/13999204.html 原贴&#xff1a;https://36kr.com/p/1236733055209095 1、 “一万小时定律”的正确和误区 正确&#xff1a; 天才和大师的非凡&#xff0c;不是真的天资超人一等&#xff0c;而是付出了持续不断的努力&…

C++:菱形继承与菱形虚拟继承

一、菱形继承 单继承&#xff1a;一个子类只有一个直接父类时称这个继承关系为单继承 多继承&#xff1a;一个子类有两个或以上直接父类时称这个继承关系为多继承 菱形继承&#xff1a;菱形继承是多继承的一种特殊情况&#xff0c;派生类继承自两个间接基类&#xff0c;而这…

MVC与MVVM架构模式

1、MVC MVC&#xff1a;Model-View-Controller&#xff0c;即模型-视图-控制器 MVC模式是一种非常经典的软件架构模式。从设计模式的角度来看&#xff0c;MVC模式是一种复合模式&#xff0c;它将多个设计模式结合在一种解决方案中&#xff0c;从而可以解决许多设计问题。 MV…

C++缺省参数、函数重载、引用

一、缺省参数 1.1缺省参数概念 缺省参数是声明或定义函数时为函数的参数指定一个缺省值。在调用该函数时&#xff0c;如果没有指定实参则采用该形参的缺省值&#xff0c;否则使用指定的实参。 void func(int n 0) {cout << n << endl; }int main() {func();func…

营销H5测试综述

H5页面是营销域最常见的一种运营形式&#xff0c;业务通过H5来提供服务&#xff0c;可以满足用户对于便捷、高效和低成本的需求。H5页面是业务直面用户的端点&#xff0c;其质量保证工作显得尤为重要。各业务的功能实现具有通用性&#xff0c;相应也有共性的测试方法&#xff0…

【C语言】字符函数和字符串函数--超详解

前言&#xff1a; 在编程的过程中&#xff0c;我们经常要处理字符和字符串&#xff0c;为了⽅便操作字符和字符串&#xff0c;C语⾔标准库中提供了 ⼀系列库函数&#xff0c;接下来我们就学习⼀下这些函数。 1. 字符分类函数 C语⾔中有⼀系列的函数是专⻔做字符分类的&#…

Java 线程池之 ThreadPoolExecutor

Java线程池&#xff0c;特别是ThreadPoolExecutor&#xff0c;是构建高性能、可扩展应用程序的基石之一。它不仅关乎效率&#xff0c;还直接关系到资源管理与系统稳定性。想象一下&#xff0c;如果每来一个请求就创建一个新的线程&#xff0c;服务器怕是很快就要举白旗了。而Th…

Web Component fancy-components

css-doodle 组件库 fancy-components 组件库使用 yarn add fancy-components使用&#xff1a; import { FcBubbles } from fancy-components new FcBubbles() //要用哪个就new哪个 new 这里可能会报错eslink,eslintrc.js中处理报错 module.exports {rules: {no-new: off} …

【智能算法应用】基于麻雀搜索算法的二维最大熵图像阈值分割

目录 1.算法原理2.数学模型3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】麻雀搜索算法&#xff08;SSA&#xff09;原理及实现 2.数学模型 最大熵法是由 Kapur 于 1985 年所提出的&#xff0c; 该方法的阈值选取标准取决于图像中最大化分 割的目标区域和背景区域…

初学java

注意点 1.使用关键字long的时候&#xff0c;在其赋值的时候要在后面加上大写或者小写的l&#xff0c;个人推荐大写&#xff0c;小写与数‘1’难区分。 2.函数的名字要与文件夹的名字相同&#xff0c;并且文件夹后面一定要有.java。例如这个的名字是Main,函数就得用这个&#x…

python+pycharm安装教程

介绍 Python提供了高效的高级数据结构&#xff0c;还能简单有效地面向对象编程。Python语法和动态类型&#xff0c;以及解释型语言的本质&#xff0c;使它成为多数平台上写脚本和快速开发应用的编程语言&#xff0c;Python解释器易于扩展&#xff0c;可以使用C、C或其他可以通过…

国科大深度学习期末历年试卷

本文借鉴 国科大深度学习复习 深度学习期末 深度学习2020 一&#xff0e;名词解释&#xff08;每个2分&#xff0c;共10分&#xff09; 深度学习&#xff0c;稀疏自编码器&#xff0c;正则化&#xff0c;集成学习&#xff0c;Dropout 二&#xff0e;简答题&#xff08;每题…
最新文章