首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
文本分类将自然语言文本按内容归入一个或多个预定义类别中,在许多信息组织和管理中都是一项重要的内容。不同算法的分类准确性各不相同。在文本分类领域,SVM分类器是一种常用且效果较好的分类器,具有较严密的理论基础。对SVM分类器进行了分析,提出了利用增量模式实现多类文本分类的算法。实验表明:增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间,是一种较好的分类算法。  相似文献   

2.
文本分类是信息检索和文本挖掘的关键技术之一。提出了一种基于支持向量数据描述(SVDD)的多类文本分类算法,用支持向量描述训练求得包围各类样本的最小超球体,并使得分类间隔最大化,在测试阶段,引入基于核空间k-近邻平均距离的判别准则,判断样本所属类别。实验结果表明,该方法具有很好的泛化能力和很好的时间性能。  相似文献   

3.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。  相似文献   

4.
聚类作为无监督的学习算法,能对无类标的数据集合进行分类,在文本分析、数据分析、图像处理以及市场预测等多领域有广泛的应用.本文从多个角度对聚类方法进行分析,在不同的情况下运用不同的聚类算法对数据集合进行划分.  相似文献   

5.
对统计数据的研究往往采用无监督学习的聚类算法,而基于欧式距离的常规聚类算法不太适合统计数据,文章将常用于文本相似度计算的余弦相似度算法与聚类算法相结合,形成基于图形相似度的模糊识别算法,采用统计月度数据进行实验测试,证明能够实现企业分类,达到了研究目标。  相似文献   

6.
基于KNN的中文文本分类性能研究   总被引:1,自引:0,他引:1  
本文针对文本分类的文本表示、分类器等关键技术进行了研究,并且使用基于K最近邻(k-NearestNeighbor,KNN)分类算法在系统上实现了文本分类器。在此基础上通过实验数据针对样本集、K的取值等因素对分类效果的影响做了详细的研究比较,通过对性能变化原因分析,提出了最优性能解决方案。  相似文献   

7.
跨境电商政策中蕴含着大量引导跨境电商发展的重要信息,这些信息对地方政府和企业规划跨境电商发展具有重要意义。文章采用文本挖掘的方法开展跨境电商政策的量化分析和研究,通过从跨境电商政策文本中提取特征,再进一步使用聚类算法对特征进行聚类,基于聚类结果分析了跨境电商政策关注和聚焦的重点内容,主要包括知识产权、税收、产品等方面。此外,还通过语义网络分析和展示了政策重点内容之间的关联关系。  相似文献   

8.
本文描述了一种新的基于关键词组合模式的文本向量空间表示模型,相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以计算的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文讨论了使用这种模型的自动文本分类系统,包括分类系统的结构、特征提取、文本相似度计算公式,并给出了评估方法。  相似文献   

9.
本文基于文本间相似度,对科技文档进行聚类,为科技项目的分类评审提供依据。采用层次聚类方法建立层次树,并且支持增量聚类处理。同时,在聚类的基础上对科技文档进行查重,防止对同一项目重复投资,造成资源浪费。  相似文献   

10.
产业集群识别与分类实例研究   总被引:1,自引:0,他引:1  
本文根据产业集群理论,以西安各行业的数据为基础,运用区位商法和聚类分析法对西安产业集群进行识别和分类,将西安LQ>1的16个行业分为3类两个层次的产业集群,研究结果与实际情况相符合,同时证明了这两种方法是对产业集群识别和分类的有效方法.  相似文献   

11.
Web数据挖掘是目前信息技术中的研究热点。对Web挖掘的分类和Web文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论,最后对Web文本挖掘的应用领域作了展望。  相似文献   

12.
Web数据挖掘是目前信息技术中的研究热点。对Web挖掘的分类和Web文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论,最后对Web文本挖掘的应用领域作了展望。  相似文献   

13.
本文构建了房地产综合发展水平评价指标体系,以我国31个省、直辖市、自治区为样本,运用描述性统计验证了政府分类调控的必要性;运用主成分分析得出了各地区房地产业主成分得分,并采用系统聚类对我国地区房地产综合发展水平深化聚类.结果表明:我国房地产发展水平区域差异很大,目前大致可分为四类进行调控,并提出了相应政策建议.  相似文献   

14.
客户分类是企业客户关系管理的重要基础。本文给出了一种提取客户分类规则的方法,利用自组织映射神经网络对客户购买属性RFM(Recency Frequency Monetary)进行聚类以确定客户价值,并利用粗糙集理论完成规则提取,为客户分类提供了一种新的思路。通过实例验证了这种方法能够有效地对客户进行细分、提取分类规则,并提高了分类准确性。  相似文献   

15.
互联网股票新闻对证券市场的投资者有较大的影响,是投资者制订股市投资计划时的重要参考依据之一。本文运用了网络爬虫技术获得文本信息,根据TF-IDF的思想,得到了股票的专业特征词,结合N-gram算法在ICTCLAS平台实现中文分词,并运用评价理论对股票情感词和行为词进行情感分类,最终调用金融词库统计得出股票新闻情感倾向。  相似文献   

16.
产业集群已经成为区域经济发展中新的亮点,然而,如何识别和选择产业集群仍然是困扰决策者和研究者的主要技术问题之一.鉴于此,本文在综合国内外相关研究的基础上,以河南省为例,尝试运用基于投入一产出模型的主成份分析法和聚类分析法进行了集群的动态识别和分类研究.  相似文献   

17.
在电力企业同业对标管理中,K-means聚类算法作为一种无监督分类算法,无需任何先验知识就能够实现对企业的分类功能,确立标杆企业。但是,K-means算法的聚类数目k和初始聚类中心都需要人为事先给出。为了解决这些不足,提出了一种对K-means聚类改进算法:先分别通过两阶聚类法和最大距离法确定聚类数目和初始聚类中心,然后再使用K-means算法完成聚类。通过实例表明此算法可以选出优秀企业,并能发现其他企业与标杆企业之间的差距。  相似文献   

18.
顾客需求是企业一切活动的根本出发点,有效地对顾客需求数据进行分析至关重要。本文把模糊聚类方法运用到顾客的需求分类当中,能够弥补定性分析的不足,从而提高了需求分析的科学性和有效性。  相似文献   

19.
数值分类复合模型在区域经济差异分析中的应用研究   总被引:3,自引:0,他引:3  
针对采用不同方法进行样本分类中存在的结果差异问题,本以聚类分析法,多因素权重法,主成分分析法结合多组判别分析法构筑一种数值分类复合模型,应用于浙江省区域经济差异分析,对其进行特征分区,分类结果更趋合理。  相似文献   

20.
本文针对如何有效整合广播电视新闻信息,开发了一个新的新闻编辑方法,即使用文本挖掘技术对信息进行深入挖掘。利用网络爬虫技术获取广播电视新闻信息,用最大匹配法进行处理,通过广播电视新闻相似度检测模型,确定文本的相似度和重复度,从而实现信息分类。测试结果表明,基于文本挖掘的广播电视新闻编辑方法,能够在短时间内精准地分类新闻信息,确保新闻报道质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号