首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 640 毫秒
1.
为促进项目参与方的合作和交流从而使项目更优质高效的完成,研究了结合IFC标准进行建设项目文档分类的方法。在对建设项目管理的特点进行深入分析的基础上,文章提出了将项目生命期中产生的大量的半结构化或非结构化的中文文本按照国际通用的IFC标准进行分类的方法,从而改进了文本的管理与利用效果。通过空间向量模型来表示中文文本,并采用夹角余弦的方法与国际通用的IFC标准中的实体进行相似度计算,最终实现中文文本的标准化分类,并通过案例分析验证了该方法的可行性。最后对本文提出的算法进行了评价,并提出了下一步的研究方向。  相似文献   

2.
屈晓 《价值工程》2012,31(2):184-185
针对现有搜索引擎存在的问题,提出基于多Agent的元搜索引擎系统。系统采用元搜索引擎结构,利用多Agent技术,结合数据库的分类和成员引擎的机器学习机制,多Agent通信合作,实现了资源选择的优化。对搜索结果的查询串信息进行相关度分析,将搜索结果位置信息和特征信息的相似度相结合,计算文档的相关评价得分,最后根据评价得分降序对输出文档排序。  相似文献   

3.
信息检索主要研究大量文本的信息组织和检索,典型的信息检索问题是基于用户的输入来定位相关的文本,而文本的相关性是一个模糊的概念,为了对这个模糊的概念加以客观的度量,本文提出了一种新的文本间相关性的计算方法。该方法利用词频矩阵和模糊相似矩阵,在基于相关性检索的一组文档中,使用模糊聚类中的传递闭包法计算出一组文档间的相关度,最后用一个实例加以说明,得到了比较客观的结果。  相似文献   

4.
文本聚类是文本挖掘领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结。另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标。在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案。  相似文献   

5.
《价值工程》2016,(17):177-181
随着经济全球化程度的加深,我国与各国之间的交流、合作越来越频繁,各类大小事件的新闻报道各国各有侧重,新闻内容的匹配程度也有高低之分。传统的文本相似度方法具有计算维数过高和计算过于复杂的缺点。通过对新闻报道文本的分析发现,新闻报道具有何时、何地、何事、何因、何人五个基本因素的特点。针对这一特性,提出融合新闻要素的跨语言新闻文本相似度计算方法。该方法充分考虑到了新闻文本的五个新闻要素特征词对文本相似度的影响,有效减少了相似度低的文本干扰和传统文本相似度计算效率的问题。本文方法抽取新闻文本的新闻要素,借助翻译工具和词义消歧技术将抽取出来的不同语种的新闻要素统一为中文,并对新闻要素进行分类集合,然后利用集合相似度计算和数据融合方法来计算两篇新闻文本相似度,通过实验验证,本文方法对跨语言新闻文本相似度计算具有一定的效率和准确性,说明本文方法可行。  相似文献   

6.
文章针对水利工程施工安全隐患文本的智能分类、挖掘和排查方法进行研究,提出基于机器学习和自然语言处理的方法,实现安全隐患文本的自动分类和排查线索挖掘。首先,对安全隐患文本进行预处理,提取文本特征并采用随机森林模型将文本分类为10个类别;其次,利用词云图和词频统计方法展现安全隐患的管理要点;最后,利用序列相似度匹配算法和隐含狄利克雷分布模型,从原始隐患数据中找出包含高频安全隐患核心词的代表性隐患数据,作为隐患排查线索,指导安全管理实践。文章提出的方法可以有效地提高水利工程施工安全隐患文本的分类准确率,挖掘隐患文本中有价值的信息,缩小隐患排查的范围,提高水利工程安全管理的效率和水平。  相似文献   

7.
传统的试卷文档归类算法存在文档归类准确率差的问题,为此,引进领域本体事件驱动技术,提出一种针对试卷文档的归类算法。在此过程中,通过确定试卷文档归类特征,获取多个独立的区域试卷,并以领域同一词汇出现的频率为驱动,计算试卷文档归类相似度,在此基础上,利用试卷文档归类处理的库函数,设计归类函数,在归类处理中,调用函数以此完成对试卷文档的归类。此外,通过设计对比实验的方式,证明了设计归类算法在应用中的准确率和查全率均明显大于传统归类算法,可基本实现对试卷文档的全部归类。  相似文献   

8.
黄正 《价值工程》2012,31(8):114-116
基于内容的图像搜索是目前搜索领域的研究热点,取得了较大的成果,在实际的开发中对于图像的数据库存储和检索的要求较高。本文通过对图像特征的研究,采用了面向对象的多层数据模型,并分析了索引空间中的多维索引降维、向量空间、度量空间等方法,引出了基于预分类和预计算相似度、树索引和二分快速检索图像数据的方法。接着通过分析其工作流程,从数据模型和检索方法上进行了论述,构造了基于内容的图像检索的工作架构。本文总结了此方案的创新点和适用范围,从而在理论证明了它的优秀的检索性能。最终提出了采用此方案进行基于内容的图像查询的可行途径。  相似文献   

9.
《价值工程》2016,(26):231-234
本文为解决SLE患者并发继发性干燥综合征不易诊断及确诊主观性较强等问题,提出了一种可供计算机学习的支持向量机智能算法预测诊断模型。首先对材料中141名患者的26种相关诊断指标进行数据预处理,使之成为能够适合支持向量机计算的量化数据;其次运用交叉验证法、网格搜索法、改进的粒子群优化算法分别对支持向量机模型中的惩罚系数C与核参数g进行优化选择,并利用MATLAB软件分别画出以上3种优化方式得出的支持向量机参数模型;最终对比选出对SLE患者并发继发性干燥综合征疾病诊断预测度最高的预测模型。结果表明,基于改进的粒子群算法优化的支持向量机分类模型参数的自优化,对该疾病预测诊断精度最高。  相似文献   

10.
文本的生成模型是基于文本向量空间表示基础上,针对文本数据的概率表示,针对文本的产生过程进行统计建模的方法。生成模型的优势在于在准确描述表示文本的前提下,达到提高文本挖掘效率的目的。同时,根植于概率统计的生成模型,拥有一整套用于模型学习、推论、模型比较、选择的理论和方法,是其他非统计方法所无法比拟的。本文介绍了用于描述可交换的离散数据集合主要的几种概率生成模型,在向量空间表示的基础上能够捕捉不同程度的词与词之间的上下文(主题)依赖性,因而在英文文本的挖掘上得到了一定程度的应用和肯定。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号