首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
中文分词是中文文本挖掘的重要环节。中文分词的方法主要有基于辞典与规则和基于统计两种,"基于串频统计和词形匹配的分词系统"在一定程度上结合了中文分词两种方法的优点于一体,它充分利用文本本身的信息建立临时辞典,再配合一定的常用辞典,用词形匹配的方法达到分词的目的。  相似文献   

2.
Web技术在在线信息服务系统的研究和应用领域中,智能答疑系统得到了越来越广泛的应用。在智能答疑系统中,对汉语自动分词的模型和方法已经有了很多的研究,然而始终不能得到完善的解决。本文利用基于规则和基于统计的歧义消除策略对自动分词模型中的算法和歧义字段的消除作出了一定的研究。  相似文献   

3.
在教育部大力倡导教育信息化发展的今天,自动阅卷技术的研究逐渐成为热点,其已经成为教育信息化平台搭建中不可或缺的一部分。文章针对简答题自动阅卷过程中涉及的分句与分词算法、关键词提取算法、相似度计算算法进行了分析。  相似文献   

4.
关键词是文本处理中很重要的环节,通过提取文档的关键词,可以简要概况该文档的大体内容。在传统算法中,主要依靠词频-逆文档率(TF-IDF)信息提取关键词,此种方法没有利用领域类别信息。文章基于领域类别信息,首先计算每个关键词的词频-方差指标,然后利用领域互斥关键词提取、非领域互斥关键词提取两种方案选择出每个领域的关键词,最后给出了训练和预测的整体流程,具有较强的实用性和较好的分类效果。  相似文献   

5.
任乾坤  宋楠 《价值工程》2021,40(12):139-142
大数据时代下,商品评论在网络购物中发挥着越来越重要的作用.有效分析评论内容,并提取关键信息,将为销售方制定销售方案、消费者选定产品提供有效帮助.因此,本文基于京东购物平台上商品评论,分析评论的情感倾向.首先,通过python的Requests库爬取家用电器的最新的评论数据,并对数据进行分词处理、去除停用词以及情感值可视化处理,进而构建LDA模型.针对京东平台上评论的特点,采用jieba分词进行情感标注以及关键词云生成,经过python的情感值比较,将单一重复、过分强调和短句进行删除,利用最大概率法进行分词处理,遍历情感词,生成情感词表,进行统计分析,构建基于多项式贝叶斯算法与LDA的情感分析模型,为商家和顾客在进行交易之前提供有效信息.  相似文献   

6.
任乾坤  宋楠 《价值工程》2021,40(12):139-142
大数据时代下,商品评论在网络购物中发挥着越来越重要的作用.有效分析评论内容,并提取关键信息,将为销售方制定销售方案、消费者选定产品提供有效帮助.因此,本文基于京东购物平台上商品评论,分析评论的情感倾向.首先,通过python的Requests库爬取家用电器的最新的评论数据,并对数据进行分词处理、去除停用词以及情感值可视化处理,进而构建LDA模型.针对京东平台上评论的特点,采用jieba分词进行情感标注以及关键词云生成,经过python的情感值比较,将单一重复、过分强调和短句进行删除,利用最大概率法进行分词处理,遍历情感词,生成情感词表,进行统计分析,构建基于多项式贝叶斯算法与LDA的情感分析模型,为商家和顾客在进行交易之前提供有效信息.  相似文献   

7.
开展人工智能数据分析技术研究,研究掌握运用人工智能数据分析技术实现智能过滤短信;集成采用智能分析算法、文本挖掘、中文分词、文本搜索算法及神经网络智能分析等技术手段,自动实现对垃圾信息的准确分类过滤;建立一套科学合理和可操作性强的垃圾短信治理重要技术方案。  相似文献   

8.
周成  赵君  方荃  李文君 《经济界》2021,(6):82-91
本文通过对2012年至2020年江苏省出台的168份人才政策进行系统梳理和量化分析,基于ROST和CiteSpace软件对政策文本进行了文献计量可视化分析,通过人才政策关键词的分词统计、演进趋势、共现关系、聚类特征和热点关联等情况进行了分析,系统研究了江苏省人才政策发展特征和演变趋势.  相似文献   

9.
基于改进关键词重要性和近邻传播聚类算法,提出了一种学科领域主题分析方法,通过词频分析法和作者潜意识行为计算高频关键词权重,借助共词分析和Ochiai系数构建带权重高频关键词相似性矩阵,利用近邻传播聚类算法对学科领域主题进行自适应提取与分析。以CSSCI收录的2015—2019年物流学科领域期刊论文为研究对象,借助新方法对其进行主题分析,研究结果表明:高重要性的关键词不一定是核心主题,核心主题与同一簇内其它成员关键词最为相似。与此同时,近五年物流学科存在“降本增效”“区域物流一体化”“现代物流技术研究与创新”“物流体制改革与产业转型升级”“农村物流与农产品物流”“电子商务与跨境电商”“可持续发展理念”等七大热门主题。  相似文献   

10.
本文基于关键词集的中文文本特征表示方法,将本体和词共现的思想引入到中文文本的特征表示中,能够更加准确地表达中文文本特征,进而提高中文文本聚类的质量,  相似文献   

11.
任竞颖 《价值工程》2011,30(31):96-97
提出了一种基于改进的小波变换和模糊核聚类的纹理分割方法。该方法首先用改进的离散小波变换进行纹理特征提取。然后用模糊核聚类方法对特征空间的每个像素进行聚类以实现对纹理的分割。实验结果表明所提算法有很好的分割结果。  相似文献   

12.
Information explosion is a critical challenge to the development of modern information systems. In particular, when the application of an information system is over the Internet, the amount of information over the web has been increasing exponentially and rapidly. Search engines, such as Google and Baidu, are essential tools for people to find the information from the Internet. Valuable information, however, is still likely submerged in the ocean of search results from those tools. By clustering the results into different groups based on subjects automatically, a search engine with the clustering feature allows users to select most relevant results quickly. In this paper, we propose an online semantics-based method to cluster Chinese web search results. First, we employ the generalised suffix tree to extract the longest common substrings (LCSs) from search snippets. Second, we use the HowNet to calculate the similarities of the words derived from the LCSs, and extract the most representative features by constructing the vocabulary chain. Third, we construct a vector of text features and calculate snippets’ semantic similarities. Finally, we improve the Chameleon algorithm to cluster snippets. Extensive experimental results have shown that the proposed algorithm has outperformed over the suffix tree clustering method and other traditional clustering methods.  相似文献   

13.
对于其他身份识别的生物特性而言掌纹有着很多的先天优势,因此在各个领域得到了非常广泛的应用。本文通过研究掌纹的特征,提出了一种基于Gabor小波和增强Fisher线性判别模型(EFM)的掌纹特征提取算法。先对预处理掌纹,在对掌纹灰色图像通过算法进行Gabor小波变换后,得到Gabor的掌纹特征向量。随后,通过主成分分析变换高维特征向量至低维空间,最后在此空间内利用EFM变换矩阵提取到掌纹的特征。由于Gabor函数在特征提取方面有着优良的性能,对高维特征的降维处理问题可有效解决,同时,算法也提高了Fisher线性判别式(FLD)的推广能力,可以较好地实现掌纹的特征提取。  相似文献   

14.
邓箴 《价值工程》2010,29(34):186-186
针对Web信息抽取领域中存在的"项无序"问题,提出了一种基于二维关联边条件随机场模型的Web信息抽取方法。将Web文档解析为一个词性序列,映射待抽取的信息项的状态,映射待抽取的信息项为二维关联边条件随机场中的序列参数,使用归纳算法构造二维关联边条件随机场模型。实验结果证明该方法可以获得更好的抽取性能。  相似文献   

15.
林辉  朱俊平 《价值工程》2011,30(21):144-145
在论述克隆聚类的基本概念及其特点的基础上,探讨了基于克隆聚类的农产品加工企业IDS的优势。根据农产品加工企业的实际需求,重点介绍了无监督的克隆聚类算法,设计并实现了基于克隆聚类算法的入侵检测系统,最后使用KDD CUP 99数据集进行了计算机仿真实验,结果表明能够显著提高检测率和降低误报率。  相似文献   

16.
We propose a novel method and algorithm for the analysis and clustering of mixed-type data using a hierarchical approach based on Forward Search. In our procedure, the identification of groups is based on the identification of similar trajectories and then linked to very intuitive two-dimensional maps. The proposed algorithm can use different measures for the calculation of distance in the case of mixed-type data, such as Gower’s metric and Related metric scaling. A key feature of our algorithm is its ability to discard redundant information from a given set of variables. The practical usefulness of the algorithm is illustrated through two applications of high relevance for empirical economic research. The first one focuses on comparing different indicators of environmental policy stringency in different countries. The second one applies our procedure to identify clusters of countries based on information regarding their institutional characteristics.  相似文献   

17.
文本聚类是文本挖掘领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结。另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标。在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案。  相似文献   

18.
由于部落格(Blogs)的普及,导致愈来愈多的企业希望能从大量的使用者文章中撷取出有用的信息,从中了解消费者需求及市场导向,以帮助企业改善商品及服务质量,抑或评估企业本身或同业竞争者的优劣势。本研究针对部落格中的产品使用心得,提出一套FAIR模块,希望藉由该模块得以达到在短时间内有效地分析产品评价,以利于企业或消费者在掌握商品重点特色及整体评价时,能避免阅读大量文章的时间耗费并无从理出头绪的情形。FAIR模块为模糊自适应共振理论(Fuzzy ART)结合隐含语意索引(LSI)的特性,将文章集予以分群并从中撷取出代表性关键词,以达到信息检索的目的,最终再通过关联法则(AR)提升关键词的解释性。通过FAIR模块所撷取出来的消费者心声,我们更进一步地应用于质量机能展开,将顾客需求转化为技术需求,以分别了解产品本身或同业之间的竞争力,使企业充分掌握顾客需求,并提升产品设计之适用性。最后,我们以美容保养品之部落格文章作为实验对象,以说明并验证所提出的FAIR模块之效力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号