- 自然语言处理以数学统计模型为指导。
传统的自然语言处理人士对语义技术在自然语言处理中所占的比重不是十分重视,认为统计模型计算能够实现“量变引起质变”,其结果和语义模型差相仿佛; - 语义网以语义建模为主,但不同本体库的规约方法有差异。
初学语言的过程,先有认知,再建立模型,再抽象为语言;
语言使用到“熟练”就产生自己独立的语言习惯。
一句话可以错误理解,但不能指出错误之后还是犯错。统计使“模糊”理解成为可能,以统计的方法来完善“语义”。一个都不能少!
对信息世界来说,缺乏起码的“认知”手段。要实现计算机自如使用人类语言,就要跟随美国盲聋哑女作家海伦凯勒的脚步了。
项目立意基础就是自然“语义” 处理。使用NLP的统计学技术实现语义统计。而语言只是语义的表现,水到渠成。
- 词典建模
信息世界中,关于人类语言最原始的输入是文本;
文本中信息完备又不易变动的是词典;
每个词典能构成一个闭合的生态系统的基本模型;- 以英语为目标语言,选取英英词典;
- 使用NLP的方式构建词条解释语法树;
- 当熟练掌握语言之后,很多词组成为逻辑定式;
- 统计学方法论帮助节省分析理解的时间。
- 根据语法树实现词条语义结构的模型(不出继承、聚合等面向对象关系);
- 统计和语义迭代进行,形成类似WordNet的语义网络。
- 元数据知识库
选取特定领域,构建元数据知识库(Info的成果,Eco的模型)。 - 多语种映射
不同语言,相同语义的多语种映射(X-英词典);- 以英语为目标语言,NLP技术翻译到英语;
- 英语语义纠错;
- 语义“理解”。
- 自然语言状态机
根据Info生成运行时Ecosystem,扩充完善;
Eco反过来修正Info的模型。 - 翻译
X->Y翻译,X->语义模型 / 语义Eco(英)->Y - 读写->听说
人类语言究其根本,是一种波形语言,重复多语种映射和翻译过程。 - 机器问答
理解语义,抽取Ecosystem中运行时实例,计算结果,反馈。 - 机器推演
图论及相关数学模型解决。
InfoEcos,构建语义对象网络,
- 以构造“图灵机”为理想;
- 以实时“理解”网络信息,为人类提供帮助为长期目标;
- 以实现同声传译为短期目标。