LiuRoy / sakura
搜索引擎入门学习
☆85Updated 8 years ago
Alternatives and similar repositories for sakura:
Users that are interested in sakura are comparing it to the libraries listed below
- 搜索引擎原理详解,开源电子书☆204Updated 11 years ago
- [译] Python 自然语言处理 中文第二版☆63Updated 7 years ago
- 机器学习文本分类器☆46Updated 8 years ago
- 为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq☆37Updated 9 years ago
- 搜索输入框-下拉提示(推荐), 提示词根据权重排序.基于double-array-trie的darts, golang语言实现.☆180Updated 8 years ago
- [译] Gainlo 面试指南☆19Updated 4 years ago
- web部分(vuejs+beego框架+webpack组件化);爬虫部分(1680位明星的sina微博首页收据);分词部分(结巴分词);索引构建部分(快拍+败者树);索引搜索部分(倒排索引R+tree)☆72Updated 7 years ago
- 中文分词程序,可以在没有中文语料库的情况下通过相关性将一段文本中的中文词汇抽取出来☆56Updated 11 years ago
- auto generate chinese words in huge text.☆91Updated 10 years ago
- Python源码注释版本☆47Updated 10 years ago
- A simple search engine.☆43Updated 9 years ago
- 分布式爬虫,redis缓存,mysql持久化,rpc实现分布式。可用docker部署☆48Updated 7 years ago
- FastText 中文文档☆61Updated 4 years ago
- 一个简单的网络小说推荐系统。☆126Updated 6 years ago
- 新闻网站爬虫,目前能够爬取网易,新浪,qq,搜狐等三家网站的新闻页面,并保存到本地。☆35Updated 9 years ago
- 基于mongodb存储,redis缓存,celery 实现的分布式爬虫。☆13Updated 2 years ago
- Web服务:使用腾讯 800 万词向量模型和 spotify annoy 引擎得到相似关键词☆102Updated 5 years ago
- 阿里巴巴大数据竞赛☆62Updated 10 years ago
- 新闻评论观点挖掘系统,粗粒度的分析出新闻网评观点的倾向和走势☆53Updated 9 years ago
- 多算法综合的文本分类系统☆24Updated 8 years ago
- 提取新闻、博客等长文本网页的正文工具☆41Updated 9 years ago
- 算法与数据结构练习(主要是Python3)。☆104Updated 9 years ago
- A flexible web crawler based on Scrapy for fetching most of Ajax or other various types of web pages. Easy to use: To customize a new web…☆45Updated 9 years ago
- 猫头鹰搜索引擎,爬虫,分词,索引,搜索☆27Updated 9 years ago
- ☆20Updated 8 years ago
- 互联网新闻推荐系统(myNews)--2016全国计算机设计大赛企业命题参赛作品☆45Updated 8 years ago
- python实现简单redis,实现redis基本功能以及可插拔数据结构☆47Updated 5 years ago
- [译] UCSD COGS108 数据科学实战中文笔记☆33Updated 4 years ago
- 自然语言处理,目前想识别的是帮短信分级,如垃圾短信,重要短信,一般短信,群发短信等等☆30Updated 7 years ago
- 基于标题分类的主题句提取方法可描述为: 给定一篇新闻报道, 计算标题与新闻主题词集的相似度, 判断标题是否具有提示性。对于提示性标题,抽取新闻报道中与其最相似的句子作为主题句; 否则, 综合利用多种特征计算新闻报道中句子的重要性, 将得分最高的句子作为主题句。☆40Updated 8 years ago