共查询到20条相似文献,搜索用时 15 毫秒
1.
文本分类将自然语言文本按内容归入一个或多个预定义类别中,在许多信息组织和管理中都是一项重要的内容。不同算法的分类准确性各不相同。在文本分类领域,SVM分类器是一种常用且效果较好的分类器,具有较严密的理论基础。对SVM分类器进行了分析,提出了利用增量模式实现多类文本分类的算法。实验表明:增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间,是一种较好的分类算法。 相似文献
2.
文本分类是信息检索和文本挖掘的关键技术之一。提出了一种基于支持向量数据描述(SVDD)的多类文本分类算法,用支持向量描述训练求得包围各类样本的最小超球体,并使得分类间隔最大化,在测试阶段,引入基于核空间k-近邻平均距离的判别准则,判断样本所属类别。实验结果表明,该方法具有很好的泛化能力和很好的时间性能。 相似文献
3.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。 相似文献
4.
5.
6.
7.
跨境电商政策中蕴含着大量引导跨境电商发展的重要信息,这些信息对地方政府和企业规划跨境电商发展具有重要意义。文章采用文本挖掘的方法开展跨境电商政策的量化分析和研究,通过从跨境电商政策文本中提取特征,再进一步使用聚类算法对特征进行聚类,基于聚类结果分析了跨境电商政策关注和聚焦的重点内容,主要包括知识产权、税收、产品等方面。此外,还通过语义网络分析和展示了政策重点内容之间的关联关系。 相似文献
8.
本文描述了一种新的基于关键词组合模式的文本向量空间表示模型,相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以计算的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文讨论了使用这种模型的自动文本分类系统,包括分类系统的结构、特征提取、文本相似度计算公式,并给出了评估方法。 相似文献
9.
本文基于文本间相似度,对科技文档进行聚类,为科技项目的分类评审提供依据。采用层次聚类方法建立层次树,并且支持增量聚类处理。同时,在聚类的基础上对科技文档进行查重,防止对同一项目重复投资,造成资源浪费。 相似文献
10.
产业集群识别与分类实例研究 总被引:1,自引:0,他引:1
本文根据产业集群理论,以西安各行业的数据为基础,运用区位商法和聚类分析法对西安产业集群进行识别和分类,将西安LQ>1的16个行业分为3类两个层次的产业集群,研究结果与实际情况相符合,同时证明了这两种方法是对产业集群识别和分类的有效方法. 相似文献
11.
Web数据挖掘是目前信息技术中的研究热点。对Web挖掘的分类和Web文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论,最后对Web文本挖掘的应用领域作了展望。 相似文献
12.
Web数据挖掘是目前信息技术中的研究热点。对Web挖掘的分类和Web文本挖掘的主要过程如文本预处理、特征表示、特征提取等进行了讨论,最后对Web文本挖掘的应用领域作了展望。 相似文献
13.
14.
客户分类是企业客户关系管理的重要基础。本文给出了一种提取客户分类规则的方法,利用自组织映射神经网络对客户购买属性RFM(Recency Frequency Monetary)进行聚类以确定客户价值,并利用粗糙集理论完成规则提取,为客户分类提供了一种新的思路。通过实例验证了这种方法能够有效地对客户进行细分、提取分类规则,并提高了分类准确性。 相似文献
15.
互联网股票新闻对证券市场的投资者有较大的影响,是投资者制订股市投资计划时的重要参考依据之一。本文运用了网络爬虫技术获得文本信息,根据TF-IDF的思想,得到了股票的专业特征词,结合N-gram算法在ICTCLAS平台实现中文分词,并运用评价理论对股票情感词和行为词进行情感分类,最终调用金融词库统计得出股票新闻情感倾向。 相似文献
16.
产业集群已经成为区域经济发展中新的亮点,然而,如何识别和选择产业集群仍然是困扰决策者和研究者的主要技术问题之一.鉴于此,本文在综合国内外相关研究的基础上,以河南省为例,尝试运用基于投入一产出模型的主成份分析法和聚类分析法进行了集群的动态识别和分类研究. 相似文献
17.
18.
顾客需求是企业一切活动的根本出发点,有效地对顾客需求数据进行分析至关重要。本文把模糊聚类方法运用到顾客的需求分类当中,能够弥补定性分析的不足,从而提高了需求分析的科学性和有效性。 相似文献
19.
数值分类复合模型在区域经济差异分析中的应用研究 总被引:3,自引:0,他引:3
针对采用不同方法进行样本分类中存在的结果差异问题,本以聚类分析法,多因素权重法,主成分分析法结合多组判别分析法构筑一种数值分类复合模型,应用于浙江省区域经济差异分析,对其进行特征分区,分类结果更趋合理。 相似文献
20.
本文针对如何有效整合广播电视新闻信息,开发了一个新的新闻编辑方法,即使用文本挖掘技术对信息进行深入挖掘。利用网络爬虫技术获取广播电视新闻信息,用最大匹配法进行处理,通过广播电视新闻相似度检测模型,确定文本的相似度和重复度,从而实现信息分类。测试结果表明,基于文本挖掘的广播电视新闻编辑方法,能够在短时间内精准地分类新闻信息,确保新闻报道质量。 相似文献