词典建模

  • 语言是为了表达语义的产物。所以研究语言本身只能得出“逼近值”,而不是“常规解”。人机对话过程中,人类强大的理解(纠错)能力可以正确“理解”错误的机器表达。InfoEcos的思路是对语义建模,然后尝试“理解”语言。
  • 自然语言千变万化,词典条目有限。所以词典可以进行语义建模,而自然语言处理必然依赖统计学模型。

语言选择

基于以下原则选择语言

  • 支持递进迭代的由粗到细的建模过程
  • 支持简化的自然语言处理过程
    • 易于分词
    • 简单词形变化
    • 相对不严格的语法规约
    • 有限的“多义词”
  • 尽可能的参考已有项目以节省开发时间

以上,选择“英语”为基准语言。

词典选择

词典模型使用迭代模式补充

  • 使用基础英英词典,常用词在2000-3000左右。
  • 支持扩展词典,使用开源项目Wiktionary英文部)。
  • 支持词典,任选词典,如,牛津词典。

语义建模

语义建模的核心是抽象出“属性”

  • 初始阶段属性难以自动“创造”,首先参考面向对象思想,以“类”规约,构建元数据引擎。
    • 模仿WordNet,使用NLP技术建立(名词)对象网络(森林)。
  • 学习,使用NLP统计模型,为动作主体创建“属性”。(参考Google的Page Rank,使用稀疏矩阵)。
  • 使用词典,利用动词条目反向加权,验证“属性”。
  • 获得语义属性集。

注意考虑属性细化的方法。


更多



One thought on “词典建模

Leave a Reply

Your email address will not be published. Required fields are marked *