2019年8月13日《TensorFlow 实战Google深度学习框架》学习 20190813-20180814

2014年提出的Seq2Seq模型。

训练步骤分为 预处理，词对齐，短语对齐，抽取短语特征，训练语言模型，学习特征权重等诸多步骤。

基本思想为：使用一个循环神经网络读取输入句子，将整个句子的信息压缩到一个固定维度的编码中；再使用另一个循环神经网络读取这个编码，将其解压为目标语言的一个句子。

对于平行预料的处理，首先，需要统计语料中出现的单词，为每个单词分配一个ID，将词汇表存入一个vocab文件，然后将文本转化为用单词编号的形式来表达。

这个WMT真是搞死我啦，从下载好到分词真的超级波折！！！因为对perl一窍不通！

首先你一定要在https://github.com/moses-smt/mosesdecoder网站上下载好所有代码，存入一个路径。

然后下载一个可以对perl进行运行的ActivePerl，下载好后运行下面语句可以查看其版本，我将perl直接放入了C盘下。

然后就可以按照书中教程对语料进行切词操作了！

首先以管理员身份运行cmd

C:\\>perl E:/mosesdecoder-master/scripts/tokenizer/tokenizer.perl -no-escape -1 en <E:/en-zh/train.tags.en-zh.en> train.text.en

注意：运行完以上语句后，文件存在了C盘里面

完成！！！

为了分好中文的词，我又浪费了一个下午！可是丝毫没有结果，因为我的所有代码都在win下运行，而书中给出的sed是linux中的，换了很多命令都没有实现！

转载于:https://www.cnblogs.com/beautifulchenxi/p/11348044.html