相关推荐
-
国内外优秀开源项目创始人专访
这几年陆续采访了国内外一些优秀开源项目的zuozh
-
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载...
-
中文分词工具Rwordseg
Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别...
-
中文分词的应用 新浪和庖丁两种方式对比
中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...
-
Lucene下分词工具的学习探讨
今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了! 在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,...
-
NLP自然语言处理干货贴
摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:9. 代码共享(完) 文件说明: 1. image... 2.OCR技术浅探:8. 综合评估 摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:8. 综合...
-
天然气汽车供气系统减压装置毕业设计(cad+设计方案).zip
天然气汽车供气系统减压装置毕业设计(cad+设计方案)
-
PHP+SQL考勤系统安全性实现(源代码+论文+答辩PPT+指导书)
PHP+SQL考勤系统安全性实现(源代码+论文+答辩PPT+指导书)
-
NumPy 的用途是什么
NumPy 的用途是什么
-
毕业设计 基于javaweb的在线答题平台
毕业设计 基于javaweb的在线答题平台
-
基于MATLAB的pca人脸识别.zip
基于MATLAB的pca人脸识别.zip
-
课设毕设基于SSM的信息类课程教学知识管理系统LW+源码可运行.zip
课设毕设基于SSM的系统源码可运行
-
JAVAWML信息查询与后端信息发布系统实现-WML信息查询设计(源代码+LW).zip
JAVAWML信息查询与后端信息发布系统实现——WML信息查询设计(源代码+LW)
-
毕业设计[整站程序]情感家园站 v3.0 For 个人版_qgweb30fp.zip
毕业设计[整站程序]情感家园站 v3.0 For 个人版_qgweb30fp.zip
-
熊猫脚本助手V1.8.zip
可以自动刷课,执行重复的脚本工作,内有详细操作教程。支持WIN7---WIN10系统。
-
Java项目之实验室计算机故障报修系统(源码)
Java项目之实验室计算机故障报修系统(源码) 开发语言:Java 框架:ssm 技术:JSP JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7(一定要5.7版本) 数据库工具:Navicat11 开发软件:eclipse/myeclipse/idea Maven包:Maven3.3.9
-
使用hapi框架搭建 基于协同过滤的美食推荐系统——后台.zip
协同过滤算法(Collaborative Filtering)是一种经典的推荐算法,其基本原理是“协同大家的反馈、评价和意见,一起对海量的信息进行过滤,从中筛选出用户可能感兴趣的信息”。它主要依赖于用户和物品之间的行为关系进行推荐。 协同过滤算法主要分为两类: 基于物品的协同过滤算法:给用户推荐与他之前喜欢的物品相似的物品。 基于用户的协同过滤算法:给用户推荐与他兴趣相似的用户喜欢的物品。 协同过滤算法的优点包括: 无需事先对商品或用户进行分类或标注,适用于各种类型的数据。 算法简单易懂,容易实现和部署。 推荐结果准确性较高,能够为用户提供个性化的推荐服务。 然而,协同过滤算法也存在一些缺点: 对数据量和数据质量要求较高,需要大量的历史数据和较高的数据质量。 容易受到“冷启动”问题的影响,即对新用户或新商品的推荐效果较差。 存在“同质化”问题,即推荐结果容易出现重复或相似的情况。 协同过滤算法在多个场景中有广泛的应用,如电商推荐系统、社交网络推荐和视频推荐系统等。在这些场景中,协同过滤算法可以根据用户的历史行为数据,推荐与用户兴趣相似的商品、用户或内容,从而提高用户的购买转化率、活跃度和社交体验。 未来,协同过滤算法的发展方向可能是结合其他推荐算法形成混合推荐系统,以充分发挥各算法的优势。
-
JAVAWEB校园二手平台项目.zip
JAVAWEB校园二手平台项目,基本功能包括:个人信息、商品管理;交易商品板块管理等。本系统结构如下: (1)本月推荐交易板块: 电脑及配件:实现对该类商品的查询、用户留言功能 通讯器材:实现对该类商品的查询、用户留言功能 视听设备:实现对该类商品的查询、用户留言功能 书籍报刊:实现对该类商品的查询、用户留言功能 生活服务:实现对该类商品的查询、用户留言功能 房屋信息:实现对该类商品的查询、用户留言功能 交通工具:实现对该类商品的查询、用户留言功能 其他商品:实现对该类商品的查询、用户留言功能 (2)载入个人用户: 用户登陆 用户注册 (3)个人平台: 信息管理:实现对商品的删除、修改、查询功能 添加二手信息:实现对新商品的添加 修改个人资料:实现对用户个人信息的修改 注销
-
基于协同过滤和SVD算法的音乐推荐系统.zip
协同过滤算法(Collaborative Filtering)是一种经典的推荐算法,其基本原理是“协同大家的反馈、评价和意见,一起对海量的信息进行过滤,从中筛选出用户可能感兴趣的信息”。它主要依赖于用户和物品之间的行为关系进行推荐。 协同过滤算法主要分为两类: 基于物品的协同过滤算法:给用户推荐与他之前喜欢的物品相似的物品。 基于用户的协同过滤算法:给用户推荐与他兴趣相似的用户喜欢的物品。 协同过滤算法的优点包括: 无需事先对商品或用户进行分类或标注,适用于各种类型的数据。 算法简单易懂,容易实现和部署。 推荐结果准确性较高,能够为用户提供个性化的推荐服务。 然而,协同过滤算法也存在一些缺点: 对数据量和数据质量要求较高,需要大量的历史数据和较高的数据质量。 容易受到“冷启动”问题的影响,即对新用户或新商品的推荐效果较差。 存在“同质化”问题,即推荐结果容易出现重复或相似的情况。 协同过滤算法在多个场景中有广泛的应用,如电商推荐系统、社交网络推荐和视频推荐系统等。在这些场景中,协同过滤算法可以根据用户的历史行为数据,推荐与用户兴趣相似的商品、用户或内容,从而提高用户的购买转化率、活跃度和社交体验。 未来,协同过滤算法的发展方向可能是结合其他推荐算法形成混合推荐系统,以充分发挥各算法的优势。
226 楼 qq394829044 2017-02-20 18:09
at org.apache.solr.servlet.HttpSolrCall.sendError(HttpSolrCall.java:593)
at org.apache.solr.servlet.HttpSolrCall.call(HttpSolrCall.java:465)
at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:227)
at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:196)
at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:241)
at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:208)
at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:220)
at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:122)
at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:171)
at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102)
at org.apache.catalina.valves.AccessLogValve.invoke(AccessLogValve.java:950)
at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:116)
at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:408)
at org.apache.coyote.http11.AbstractHttp11Processor.process(AbstractHttp11Processor.java:1040)
at org.apache.coyote.AbstractProtocol$AbstractConnectionHandler.process(AbstractProtocol.java:607)
at org.apache.tomcat.util.net.JIoEndpoint$SocketProcessor.run(JIoEndpoint.java:316)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61)
at java.lang.Thread.run(Thread.java:724)
Caused by: java.lang.NoSuchMethodError: org.ansj.lucene.util.AnsjTokenizer.<init>(Lorg/apache/lucene/util/AttributeFactory;Lorg/ansj/splitWord/Analysis;Ljava/lang/String;Z)V
at org.apache.lucene.analysis.ansj.AnsjTokenizerFactory.create(AnsjTokenizerFactory.java:31)
at org.apache.lucene.analysis.util.TokenizerFactory.create(TokenizerFactory.java:75)
at org.apache.solr.analysis.TokenizerChain.createComponents(TokenizerChain.java:64)
at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:179)
at org.apache.solr.handler.AnalysisRequestHandlerBase.getQueryTokenSet(AnalysisRequestHandlerBase.java:148)
at org.apache.solr.handler.FieldAnalysisRequestHandler.analyzeValues(FieldAnalysisRequestHandler.java:214)
at org.apache.solr.handler.FieldAnalysisRequestHandler.handleAnalysisRequest(FieldAnalysisRequestHandler.java:182)
at org.apache.solr.handler.FieldAnalysisRequestHandler.doAnalysis(FieldAnalysisRequestHandler.java:102)
at org.apache.solr.handler.AnalysisRequestHandlerBase.handleRequestBody(AnalysisRequestHandlerBase.java:63)
at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:143)
at org.apache.solr.core.SolrCore.execute(SolrCore.java:2064)
at org.apache.solr.servlet.HttpSolrCall.execute(HttpSolrCall.java:654)
at org.apache.solr.servlet.HttpSolrCall.call(HttpSolrCall.java:450)
... 18 more
神,这个是什么问题呀,jar包冲突了么,希望神能给解答下?
225 楼 shiqinfu 2016-12-02 17:29
224 楼 shiqinfu 2016-12-02 17:25
223 楼 andyshar 2016-09-09 22:17
最近研究机器学习。觉得中文智能分析大有可为啊。
222 楼 huigaotang 2016-08-10 17:37
221 楼 huigaotang 2016-08-04 11:25
220 楼 lishujuncat 2016-07-11 16:32
219 楼 miaopeiwen 2015-12-28 10:35
218 楼 lliiqiang 2015-11-30 14:50
217 楼 fdgghghjfgh 2015-10-01 13:32
216 楼 BeMyself_wangl 2015-04-02 16:45
对内容: “甲午年十大文史图书盘点”
生成索引后
使用关键词 “甲午年” ,“甲午” 搜索
都搜索不出结果。
使用ansj 对 “甲午年十大文史图书盘点”
的分词结果:
[甲午年/b, 十/m, 大/a, 文史/n, 图书/n, 盘点/vn]
why?
215 楼 ansjsun 2014-11-17 14:17
补充问一句,加了停用词后,原本的为N的词性都变了,没在词性说明中找到nis,nnt对应的说明
[检察院/n,董事长/n,有限公司/n]
[检察院/nis,董事长/nnt,有限公司/nis]
你加的不是停用词词典。是用户自定义词典把。。你e可以参看我的文档
http://nlpchina.github.io/ansj_seg/
214 楼 ansjsun 2014-11-17 14:16
System.out.println(parse);
这个代码 eclispe提示 我的包错误
找到原因了 要导入nlp-lang的一个包 但我在官网没看到~
不报错了 但是运行出来 内存溢出! Java heap space
把jvm内存给大点
213 楼 dsx1013 2014-09-29 16:19
补充问一句,加了停用词后,原本的为N的词性都变了,没在词性说明中找到nis,nnt对应的说明
[检察院/n,董事长/n,有限公司/n]
[检察院/nis,董事长/nnt,有限公司/nis]
212 楼 dsx1013 2014-09-29 16:03
211 楼 wyyina 2014-09-25 17:50
System.out.println(parse);
这个代码 eclispe提示 我的包错误
找到原因了 要导入nlp-lang的一个包 但我在官网没看到~
不报错了 但是运行出来 内存溢出! Java heap space
210 楼 wyyina 2014-09-25 17:47
System.out.println(parse);
这个代码 eclispe提示 我的包错误
找到原因了 要导入nlp-lang的一个包 但我在官网没看到~
209 楼 wyyina 2014-09-25 17:40
System.out.println(parse);
这个代码 eclispe提示 我的包错误
208 楼 zcl243 2014-08-07 17:43
207 楼 ansjsun 2014-07-23 19:42
lucene插件支持 停用词表
206 楼 jenight 2014-07-18 11:46
205 楼 garfieldkai 2014-07-12 00:13
204 楼 ansjsun 2014-02-15 12:08
1.测试时内存是调整到1024m的
2.并且先测试一句话加载词库到内存
3.测试简单的一句话,然后累计测试是可以达到180w字/s,比如测试“我是中国人”,测试十万次,计算总时间为time,500000/time.
4.测试大文本进行反复测试,明显效率下降很多,一般在30w/s
5.我是抽取关键词使用,所以必须获取词性,大文本获取词性,内存瞬间上G
6.另外我只需要分词结果,不需要人名 新词 等发现策略,这个自己有单独的模块去实现了。
我qq 93618236 ,合适的话加我下,我把测试文本传给你。
明白了你加我吧..5144694
203 楼 louiswang 2014-02-15 10:06
1.测试时内存是调整到1024m的
2.并且先测试一句话加载词库到内存
3.测试简单的一句话,然后累计测试是可以达到180w字/s,比如测试“我是中国人”,测试十万次,计算总时间为time,500000/time.
4.测试大文本进行反复测试,明显效率下降很多,一般在30w/s
5.我是抽取关键词使用,所以必须获取词性,大文本获取词性,内存瞬间上G
6.另外我只需要分词结果,不需要人名 新词 等发现策略,这个自己有单独的模块去实现了。
我qq 93618236 ,合适的话加我下,我把测试文本传给你。
202 楼 ansjsun 2014-02-14 23:34
List<Term> terms = ToAnalysis.parse(lines[i]);
163ms
new NatureRecognition(terms).recognition();
214ms
说明文本过长建立到一个图里面对获取词性影响很大
还有一个慢的原因.如果内存不够.你把内存调整大点..应该速度会快..试试调整到 -xms1024m
201 楼 ansjsun 2014-02-14 22:47
多谢解答,
测试没算读取文本的时间,采用的就是ToAnaysis方法 ,测试一个8w字的文档:
List<Term> terms = ToAnalysis.parse(input);
占时间:143ms
new NatureRecognition(terms).recognition();
占时间:2473ms
另外有几个疑问:
1.为何不根据空格和标点分割建立多个有向图,这样计算最短路径时应该会提高效率。
2.标注词性时候占用时间过长,能否在分词的过程中去标注词性而非出来结果后再标注
3.有咩有考虑如果一个句子过长,假设一句话全是汉字且非常长的情况下,计算最短路径时会比较耗时。
请问你qq多少,我加你qq聊下。
1.空格和标点对分词结果也有影响的.比如 人名 顿号 人名 都是需要考虑进来的
2.词性标注如果分词的时候就标注.速度会慢更多.词性标注.不建议句子太长.太长的话对内存占用太多..
3.其实最短路径.和句子长短关系不大.短句反而时间长..
最后.我估计你时间长是把加载词典的时间也算进去了吧?否则不可能这么慢...你可以在分词前先分一句话.."孙健123好公司...."类似这样然后在开始算时间
200 楼 louiswang 2014-02-14 17:04
List<Term> terms = ToAnalysis.parse(lines[i]);
163ms
new NatureRecognition(terms).recognition();
214ms
说明文本过长建立到一个图里面对获取词性影响很大
199 楼 louiswang 2014-02-14 16:50
多谢解答,
测试没算读取文本的时间,采用的就是ToAnaysis方法 ,测试一个8w字的文档:
List<Term> terms = ToAnalysis.parse(input);
占时间:143ms
new NatureRecognition(terms).recognition();
占时间:2473ms
另外有几个疑问:
1.为何不根据空格和标点分割建立多个有向图,这样计算最短路径时应该会提高效率。
2.标注词性时候占用时间过长,能否在分词的过程中去标注词性而非出来结果后再标注
3.有咩有考虑如果一个句子过长,假设一句话全是汉字且非常长的情况下,计算最短路径时会比较耗时。
请问你qq多少,我加你qq聊下。
198 楼 ansjsun 2014-02-14 14:12
1.你不是在lucene中用的吧?
2.你用的NlpAnalysis吧?
你常识用下 ToAnalysis 。这个速度快。应该是200w/s左右。。。还有你读文本的方式。。最好能把代码发上来我看看
197 楼 louiswang 2014-02-14 12:33