Skip to content

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断、三元组抽取、预训练模型等。

License

Notifications You must be signed in to change notification settings

jasoncao11/nlp-notebook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

项目描述

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、文本生成、句子相似度判断、三元组抽取、预训练模型等。

依赖

python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2

目录

0. 新词发现算法

1. 词向量

2. 文本分类 (每个模型内部使用optuna进行调参)

数据集(data文件夹): 二分类舆情数据集,划分如下:

数据集 数据量
训练集 56700
验证集 7000
测试集 6300

3. 实体识别NER

4. 文本摘要生成

1). 生成式

2). 抽取式

5. 句子相似度判别

6. 多标签分类

7. 三元组抽取

8. 预训练模型(ELECTRA + SimCSE)

9. 提示学习

该文件夹记录一些paper及其所对应的模型代码:

11. QA

该文件夹内记录机器学习/深度学习一些知识点的简单总结。

About

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断、三元组抽取、预训练模型等。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy