AI智能
改变未来

2019年8月13日 《TensorFlow 实战Google深度学习框架 》学习 20190813-20180814

2014年提出的Seq2Seq模型。

训练步骤分为  预处理,词对齐,短语对齐,抽取短语特征,训练语言模型,学习特征权重等诸多步骤。

基本思想为:使用一个循环神经网络读取输入句子,将整个句子的信息压缩到一个固定维度的编码中;再使用另一个循环神经网络读取这个编码,将其解压为目标语言的一个句子。

对于平行预料的处理,首先,需要统计语料中出现的单词,为每个单词分配一个ID,将词汇表存入一个vocab文件,然后将文本转化为用单词编号的形式来表达。

这个WMT真是搞死我啦,从下载好到分词真的超级波折!!!因为对perl一窍不通!

首先你一定要在https://github.com/moses-smt/mosesdecoder网站上下载好所有代码,存入一个路径。

然后下载一个可以对perl进行运行的ActivePerl,下载好后运行下面语句可以查看其版本,我将perl直接放入了C盘下。

然后就可以按照书中教程对语料进行切词操作了!

首先以管理员身份运行cmd

C:\\>perl E:/mosesdecoder-master/scripts/tokenizer/tokenizer.perl -no-escape -1 en <E:/en-zh/train.tags.en-zh.en> train.text.en

注意:运行完以上语句后,文件存在了C盘里面

完成!!!

为了分好中文的词,我又浪费了一个下午!可是丝毫没有结果,因为我的所有代码都在win下运行,而书中给出的sed是linux中的,换了很多命令都没有实现!

 

转载于:https://www.cnblogs.com/beautifulchenxi/p/11348044.html

赞(0) 打赏
未经允许不得转载:爱站程序员基地 » 2019年8月13日 《TensorFlow 实战Google深度学习框架 》学习 20190813-20180814