走进青苹果
新闻中心
产品与服务
生产与运营
印前校正
发展规划
30周年纪念
加入青苹果
青苹果是微软、百度、东芝等公司的计算机语料提供商。
中文语料处理项目,即根据客户的要求及规范,以中文语法知识为基础,对中文语句进行依存句法、语义角色、词性的分析和处理。
项目的意义
大量自然语言的句法结构、语义角色及词性的分析标注,能够提高计算机对自然语言的处理能力,为建立更准确高效的机算机系统提供一定的基础。可应用于智能翻译、智能问答、搜索引擎等等,提高用户的信息处理效率,提升各类智能软件、搜索引擎等的服务水平。
依存句法结构的标注
依存句法结构标注,即通过分析语言单位内成分之间的依存关系揭示其句法结构。
一个成分最完整的句子,通常包含主语、谓语、宾语、定语、状语、补语等成分,我们要做的就是把成分(词语)之间存在的关系标注出来。
语义角色的标注
语义角色标注,即标注句子中谓词的论元结构,为一个句子中的每个谓词(predicate)找到其所有论元(argument)并确定每个论元的语义角色。简单来说,就是把动词、形容词所支配的成分所承担的语义角色标注出来。
词性的标注
词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。