分类:机器学习尤其是自然语言处理学习材料

来自Big Physics
Jinshanw讨论 | 贡献2019年3月29日 (五) 10:29的版本


这里整理了机器学习,尤其是其中的自然语言处理,的学习材料。这个学习材料请各位再补充一下,例如文献、作业、素材等。

课程

  1. Chris Manning和Richard Socher的《Natural Language Processing with Deep Learning》课程,Stanford CS224N,http://onlinehub.stanford.edu/cs224
  2. YSDA Natural Language Processing course, 视频、作业程序 https://github.com/yandexdataschool/nlp_course
  3. Andrew Ng和Kian Katanforoosh的 《Deep Learning》课程,Stanford CS230, http://onlinehub.stanford.edu/cs230
  4. Andrew Ng的系列课程,https://study.163.com/my#/smarts

  1. Ian Goodfellow and Yoshua Bengio and Aaron Courville 的《Deep Learning》教材, http://www.deeplearningbook.org, 中文版: https://github.com/exacity/deeplearningbook-chinese
  2. Yoav Goldberg 《Neural Network Methods for Natural Language Processing》教材, 链接
  3. Dan Jurafsky and James H. Martin 《Speech and Language Processing》 (3rd ed.) 教材, 链接

原始论文

  1. T Mikolov, K Chen, G Corrado, J Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781.
  2. T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean, Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, 3111-3119.
  3. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation, https://nlp.stanford.edu/projects/glove/
  4. Omer Levy, Yoav Goldberg and Ido Dagan, Improving Distributional Similarity with Lessons Learned from Word Embeddings, https://doi.org/10.1162/tacl_a_00134

科普和讲解

  1. 吴军 《数学之美》
  2. 刘知远 《大数据智能》
  3. jaylin008, word2vec与cw2vec的数学原理, https://www.jianshu.com/p/f258d0c5c317
  4. Making sense of word2vec,几种表示算法之间的联系,尤其是word2vec和词共现矩阵之间的联系, https://rare-technologies.com/making-sense-of-word2vec/
  5. Andrej Karpathy blog,这个研究者记录了自己的学习和思考过程,从一个学生到机器学习领域的专家的过程,并且分享对很多算法、博士生涯的理解 http://karpathy.github.io/2015/05/21/rnn-effectiveness/

平台、算法和素材

  1. 平台:http://hpc.systemsci.org (需要hpc.systemsci.org的linux用户账号,不对公众开放,仅供研究团队内部使用)
  2. 平台搭建:anaconda和jupyter (https://www.anaconda.com/) , pytorch(https://pytorch.org/tutorials/), genism(https://radimrehurek.com/gensim/)
  3. word2vec和GloVe: 顺序读取词袋或者利用词语共现矩阵学习词表示。链接。在上面列出的Stanford CS224N课程里面有很好的讲解。
  4. fasttext: 以训练分类标签为目标,产生词向量的副产物,并集成了subword信息。链接
  5. ELMo: 基于双向语言模型(采用LSTM模型)学习contextualized word embedding,真正意义上实现了一词多表示。链接
  6. BERT: 基于双向语言模型(采用深层Transformer模型),将其隐层表示取出,可以得到更高效的contextualized embedding表示。链接
  7. 素材:
  8. 作业:尝试用word2vec处理论文的作者,author2vec,计算作者和论文的相似性,作者之间的相似性,作者和词之间的相似性,作者和主题(分类标记词)之间的相似性;产品网络或者国家-产品贸易网络、产业投入产出网络的Glove算法来得到产品、国家、产业的矢量表示。

讨论班安排

  1. 开班前:分发这个学习材料,参与成员决定自己负责讲解的材料。其中对于没有系统学习过自然语言处理的参与者,Stanford CS224N是必看材料。然后,认领一次或者两次课,来串讲一下。串讲主要是整理思路,不能代替各自自己看。此外,在讲某一个视频或者论文的时候,最好能够做到把相关的基础和概念在其他什么视频中、论文中联系起来。认领材料的同时,在讨论群里面决定后续时间安排。
  2. 第一次:吴金闪讲一讲自然语言处理,尤其是矢量表示算法,在自己的研究中主要完成什么,以及自己对矢量表示算法以及其他自然语言处理,甚至一般的机器学习的理解。胡韧奋讲一讲自然语言处理概述以及重点讲一讲矢量表示算法,并且做几种自然语言处理技术的展示。Stanford CS224N课程的一次或者两次课的串讲,有必要的话,结合Deep Learning书和Andrew的视频。
  3. 第二次-第五次:Stanford CS224N课程的一次或者两次课的串讲,有必要的话,结合Deep Learning书和Andrew的视频。两三篇文献。
  4. 第六次-第七次:自然语言处理技术和自己的研究工作的联系,最好有应用或者基础研究的例子,或者讲解本班的作业。

本分类目前不含有任何页面或媒体文件。