letiantian / jianshu-site-search
简书站内搜索
☆23Updated 6 years ago
Related projects ⓘ
Alternatives and complementary repositories for jianshu-site-search
- 文本去重算法,研究自推荐系统中新闻的去重,采用了雅虎的Near-duplicates and shingling算法,服务端用c实现,客户端用java实现,利用thrift框架进行通信,为了提高扩展性,去重可以在服务端实现,服务器也提供了计算的接口,方便客户端自己扩展☆22Updated 10 years ago
- hlseg analysis plugin for elasticsearch(海量hylanda中文分词es插件)☆80Updated 2 years ago
- Tree-split 搬新家..给各位带来的不便深表歉意☆57Updated 8 years ago
- ☆14Updated 7 years ago
- 通过web服务器对word分词的资源进行集中统一管理☆17Updated 7 years ago
- 无损转换OpenCC词典为HanLP格式☆9Updated 3 years ago
- 基于jieba的elasticsearch中文分词插件☆20Updated 7 years ago
- 基于知识图谱技术的搜素引擎研发☆20Updated 7 years ago
- 基于nutch的新闻分类系统☆33Updated 8 years ago
- IK分词器:支持不同索引使用不同的字典进行独立切词 联系:871057529@qq.com☆26Updated 2 years ago
- 搜狐实习自动回复项目:语音识别、问题过滤、答案推荐☆8Updated 10 years ago
- 此文本分类项目主要面向机器学习初学者和文本分类效果测试者,项目内部含有朴素贝叶斯,余弦定理,逻辑回归多种分类算法以及mm,rmm分词器,同时从某新闻站点爬取了多个分类共6000多篇文章,以及一个中文词典。项目方便自由拓展各种分类器和分词器,并通过组装测试分类效果。☆34Updated 7 years ago
- 本项目转移到https://github.com/cocolian/cocolian-nlp☆34Updated 10 years ago
- 自定制的精准短文本搜索服务☆18Updated 3 years ago
- 一个以文本类算法为基础、结合场景的风险防控系统☆14Updated 7 years ago
- ☆24Updated 7 years ago
- 基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎☆19Updated 8 years ago
- 基于大师兄行情的PHP版API☆20Updated last year
- 这是Word2vec和Doc2vec的一个应用示例:用Word2vec计算词的相似度和用doc2vec计算句子的相似度。☆26Updated 7 years ago
- 百度爬虫:热词,词频,音乐,poi信息☆22Updated 9 years ago
- ☆22Updated 8 years ago
- dw etl 工具 mysql 增量、全量抽取 to hive. 合并 hive 数据表, 等数据平台清洗工具☆9Updated 7 years ago
- 维基百科离线语料获取☆28Updated 7 years ago
- 一种尝试解决情绪分类任务中的不平衡问题的分类方法研究。☆9Updated 7 years ago
- 基于标题分类的主题句提取方法可描述为: 给定一篇新闻报道, 计算标题与新闻主题词集的相似度, 判断标题是否具有提示性。对于提示性标题,抽取新闻报道中与其最相似的句子作为主题句; 否则, 综合利用多种特征计算新闻报道中句子的重要性, 将得分最高的句子作为主题句。☆39Updated 8 years ago
- 微博爬虫。通过调用weibo api,而非暴力爬取的方式获取信息。☆32Updated 8 years ago
- ☆55Updated 4 months ago
- 数据预处理模块☆11Updated 6 years ago