jupyter
step1: ssh -N -L 8888:localhost:8888 txr@ssh.mlbrainstorm.club -p 6000
8888为jupyter端口号
step2:jupyter notebook –port 8888
step3:本地浏览器 localhost:8888
step1: ssh -N -L 8888:localhost:8888 txr@ssh.mlbrainstorm.club -p 6000
8888为jupyter端口号
step2:jupyter notebook –port 8888
step3:本地浏览器 localhost:8888
SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver ICML 2019
[NIPS 2018]Implicit Maximum Likelihood Estimation
天津大学的RL讲习班,分为九个章节
conda install ipykernel
python -m ipykernel install –user –name python_inn –display-name “python_inn”
ssh -N -D 7073 txr@cas
配置命令
未完待续
SFFAI
得到上下文相关的embedd传递给下游任务
gpt用于下游任务对模型参数精调
bert base和bert large
既可以feature也可以finetuning
#对比bert和gpt
#对比bert和elmo
1.bert使用了Transformer
2.bert实现了真正的双向,elmo是将两个模型拼接在一起的,而bert是用masked Transformer,克服了自己看自己的问题
bert优点:高效捕捉长距离依赖、捕捉真正双向信息
bert缺点:每次挑选百分之15,很慢
finetuning是多任务的(无需大量标注数据)
bert不能用于生成式任务:序列生成的问题是给定前n个词,生成后面词。但是bert是挡出前面和后面,然后来挖空。他就特点就是完全双向。
bert启发是masked language model同时,也预测next Sentence (object function)
language model+Transformer=bert(encoder)、gpt(Decoder)
经典的Transformer是从左到右自回归顺序解码,在解码中加mask
主要贡献是self Attention的提出,每个位置可以同步。在编码中没有mask,在解码中加。
nli任务是是不是有关系,如果这两句子确实跟language model有关系。而分类就没啥意义。
不管是bert 还是gpt肯定会对 task specific的任务有提升
gpt启示是把语言模型当做无监督多任务学习器。
低语料的文本生成上用language model会有用。
青年基金调研
source ~/.bashrc
conda create –name python3 python=3.4
source activate python3
改为清华源
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config –set show_channel_urls yes
cp ~/.condarc{,.bak}
cat ~/.condarc.bak
vim ~/.condarc
修改为如下
channels: