您的位置:主页 > 产品与服务 > 计算机语料

联系我们

联系电话:86-0731-88231898 13601284390

传真地址:86-0731-88231897

业务咨询:010-84656888

E-mail:GA@egreenapple.com

计算机语料

      青苹果是微软、百度、东芝等公司的计算机语料提供商。

      中文语料处理项目,即根据客户的要求及规范,以中文语法知识为基础,对中文语句进行依存句法、语义角色、词性的分析和处理。

项目的意义

       大量自然语言的句法结构、语义角色及词性的分析标注,能够提高计算机对自然语言的处理能力,为建立更准确高效的机算机系统提供一定的基础。可应用于智能翻译、智能问答、搜索引擎等等,提高用户的信息处理效率,提升各类智能软件、搜索引擎等的服务水平。

依存句法结构的标注

       依存句法结构标注,即通过分析语言单位内成分之间的依存关系揭示其句法结构。
       一个成分最完整的句子,通常包含主语、谓语、宾语、定语、状语、补语等成分,我们要做的就是把成分(词语)之间存在的关系标注出来。

语义角色的标注

       语义角色标注,即标注句子中谓词的论元结构,为一个句子中的每个谓词(predicate)找到其所有论元(argument)并确定每个论元的语义角色。简单来说,就是把动词、形容词所支配的成分所承担的语义角色标注出来。


词性的标注

       词性标注(Part-of-Speech tagging 或POS tagging,又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。