url2io / url2io-python-client
ULR2io Python Client 用于网页信息提取、文本处理等,如正文提取、中文分词等。
☆8Updated 6 months ago
Related projects: ⓘ
- 中文文本改写☆19Updated 3 years ago
- 中文文本的向量表示方法(Sentence-BERT, CoSENT)的PyTorch简单实现,可以用于文本相似度计算。☆9Updated 2 years ago
- 中文新词发现算法PNW算法,可以识别任意长度的新词。☆15Updated last year
- 百度百科 500 万数据集☆29Updated 9 months ago
- lightsmile个人的用于爬取网络公开语料数据的mini通用爬虫框架。☆12Updated 3 years ago
- 基于qlora对baichuan-7B大模型进行指令微调。☆18Updated last year
- 时间关键词正则提取以及标准化☆21Updated 2 years ago
- 有一个通用实体关系事件抽取的任务,需要使用到UIE模框架,而且需要将起部署到昇腾310服务器上,因为UIE模型底层使用的是ernie3.0,但是目前paddle官方还不支持ernie3.0模型在昇腾310上部署,所以才有了以下的操作,主要过程是,先试用paddle训练处模型…☆16Updated 2 years ago
- 针对口语进行时间抽取并标准化☆14Updated 4 years ago
- 百度QA100万数据集☆48Updated 9 months ago
- 该项目主要是抽取病历文件中的一些关键信息。并将抽取的内容进行streamlit前端的展示。目前支持的文件类型:图片,pdf文件,word文件☆22Updated last year
- ☆24Updated 2 years ago
- 大规模中文语料☆34Updated 4 years ago
- 这个项目是用来从文本中提取时间段信息,采用树状的结构☆9Updated 5 years ago
- Large-scale exact string matching tool☆15Updated 11 months ago
- TensorRT☆11Updated 3 years ago
- LLama3中文个人版本☆39Updated 4 months ago
- pinyintokenizer, 拼音分词器,将连续的拼音切分为单字拼音列表。☆26Updated 8 months ago
- news spider wrote by scrapy ,now it can crawl the news in sina ,and continue to update it.这个是多新闻的增量爬虫版本,爬取腾讯,网易,搜狐的每日新闻 scrapy 实现的版本☆11Updated 4 years ago
- Tracking the hot Github repos and update daily 每天自动追踪Github热门项目☆39Updated this week
- 一个非常高效的字符串匹配工具,支持正向/反向最大匹配分词和多模式字符串精确匹配☆17Updated last year
- accelerate generating vector by using onnx model☆10Updated 7 months ago
- Translation model based on sequence to sequence model. 基于seq2seq模型的翻译模型demo☆17Updated 6 years ago
- Finetune baichuan pretrained model with QLora method☆16Updated last year
- 词、句拼音转汉字、拼音分割、拼音补全、pygame输入中文☆14Updated 4 years ago
- 机器学习训练简单模型判定一个句子是不是疑问句☆15Updated 2 years ago
- 对dbpedia和百科采集而来的语料进行清洗,得到合适的三元组☆14Updated 7 years ago
- Llama2-SFT, Llama-2-7B微调(transformers)/LORA(peft)/推理☆20Updated last year
- ChatGLM2-6B微调, SFT/LoRA, instruction finetune☆107Updated last year
- English or Chinses GPT2Dialog model from GPT2-chitchat☆11Updated 4 years ago