摘要:近日,英偉達(dá)發(fā)表了一篇大規(guī)模語言建模的論文,他們使用塊在小時(shí)內(nèi)使得可以收斂,值得注意的是,他們使用的數(shù)據(jù)集包含的文本,這在以前通常需要花費(fèi)數(shù)周的時(shí)間進(jìn)行訓(xùn)練。表示訓(xùn)練出現(xiàn)發(fā)散。 近日,英偉達(dá)發(fā)表了一篇大規(guī)模語言建模的論文,他們使用 128 塊 GPU 在 4 小時(shí)內(nèi)使得 mLSTM 可以收斂,值得注意的是,他們使用的 Amazon Reviews 數(shù)據(jù)集包含 40GB 的文本,這在以前通常需...
暫無介紹