2014年提出的Seq2Seq模型。
训练步骤分为 预处理,词对齐,短语对齐,抽取短语特征,训练语言模型,学习特征权重等诸多步骤。
基本思想为:使用一个循环神经网络读取输入句子,将整个句子的信息压缩到一个固定维度的编码中;再使用另一个循环神经网络读取这个编码,将其解压为目标语言的一个句子。
对于平行预料的处理,首先,需要统计语料中出现的单词,为每个单词分配一个ID,将词汇表存入一个vocab文件,然后将文本转化为用单词编号的形式来表达。
这个WMT真是搞死我啦,从下载好到分词真的超级波折!!!因为对perl一窍不通!
首先你一定要在https://github.com/moses-smt/mosesdecoder网站上下载好所有代码,存入一个路径。
然后下载一个可以对perl进行运行的ActivePerl,下载好后运行下面语句可以查看其版本,我将perl直接放入了C盘下。
然后就可以按照书中教程对语料进行切词操作了!
首先以管理员身份运行cmd
C:\\>perl E:/mosesdecoder-master/scripts/tokenizer/tokenizer.perl -no-escape -1 en <E:/en-zh/train.tags.en-zh.en> train.text.en
注意:运行完以上语句后,文件存在了C盘里面
完成!!!
为了分好中文的词,我又浪费了一个下午!可是丝毫没有结果,因为我的所有代码都在win下运行,而书中给出的sed是linux中的,换了很多命令都没有实现!
转载于:https://www.cnblogs.com/beautifulchenxi/p/11348044.html