Seq2Seq模型
Seq2seq()模型,是将序列()映射到序列的神經網絡機器學習模型。這個模型最初設計用於改進機器翻譯技術,可容許機器通過此模型發現及學習將一種語言的語句(詞語序列)映射到另一種語言的對應語句上。[1]除此之外,Seq2Seq也能廣泛地應用到各種不同的技術上,如聊天機器人、Inbox by Gmail等,但需要有配對好的文本集才能訓練出對應的模型。[2]
历史
在2019年, Facebook宣布其用于求解微分方程。 相比 Mathematica,MATLAB 和 Maple等商业解决方案,该算法能够更快更精准的解决复杂方程。首先,方程被解析为树形结构来避免书写方式带来的偏差。 之后应用一个LSTM神经网络,基于标准模式识别来处理方程树。[5]
在2020年,谷歌发布了Meena,一个在341GB数据集上训练的26亿参数的seq2seq聊天机器人。谷歌称,该聊天机器人的模型容量比OpenAI的GPT-2多出1.7倍.[6]
技术
Seq2seq将输入序列转换为输出序列。它通过利用循环神经网络(递归神经网络)或更常用的LSTM GRU网络来避免梯度消失问题。当前项的内容总来源于前一步的输出。Seq2seq主要由一个编码器和一个解码器组成。 编码器将输入转换为一个隐藏状态向量,其中包含输入项的内容。 解码器进行相反的过程,将向量转换成输出序列,并使用前一步的输出作为下一步的输入。[4]
优化包括:[4]
相关的软件
采用类似的算法的软件包括OpenNMT(Torch),Neural Monkey(TensorFlow)和NEMATUS(Theano)。[2]
参考
参考文献
- Li, Zuchao and Cai, Jiaxun and He, Shexia and Zhao, Hai, , Proceedings of the 27th International Conference on Computational Linguistics, 2018: 3203––3214
- . google.github.io. [2019-12-17]. (原始内容存档于2019-09-25).
- Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet. . 2014. arXiv:1409.3215 [cs.CL].
- Wadhwa, Mani. . GeeksforGeeks. 2018-12-05 [2019-12-17]. (原始内容存档于2019-12-17) (美国英语).
- . MIT Technology Review. December 17, 2019 [2019-12-17]. (原始内容存档于2019-12-27) (美国英语).
- Mehta, Ivan. . The Next Web. 2020-01-29 [2020-02-03]. (原始内容存档于2020-01-30) (美国英语).
- Hewitt, John. (PDF). Stanford University. 2018. (原始内容存档 (PDF)于2019-12-17).
外部链接
- . blog.keras.io. [2019-12-19]. (原始内容存档于2018-05-18).
- Dugar, Pranay. . Medium. 2019-11-24 [2019-12-19]. (原始内容存档于2020-09-12) (英语).
- Nag, Dev. . Medium. 2019-04-24 [2019-12-19]. (原始内容存档于2019-12-19) (英语).
- Adiwardana, Daniel; Luong, Minh-Thang; So, David R.; Hall, Jamie; Fiedel, Noah; Thoppilan, Romal; Yang, Zi; Kulshreshtha, Apoorv; Nemade, Gaurav; Lu, Yifeng; Le, Quoc V. (2020-01-31). "Towards a Human-like Open-Domain Chatbot". arXiv:2001.09977 [cs.CL].
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.