当前位置: 顶点小说> 其他类型> 科技入侵现代> 第210章 联合登月前(求月票!)(2/6)

第210章 联合登月前(求月票!)(2/6)

、算力和算法三要素里,对数据和算法的依赖远高于算力。”Pony对人工智能也颇为了解,腾讯每年从ai领域挖来的大牛不计其数,哪怕此时ChatGPT还没有横空出世,他希望从林燃这了解更多信息,好为后续开展工作提供方向:“林生,你仔细说说。”林燃进一步解释道:“这是因为材料科学领域的数据非常非常有限,数据共享也好获取也好都面临着空前的障碍。不同实验室产出的实验数据除非刊登到论文里,不然各家的数据是不会进同一个池子,当然他们想要进同一个池子,也会有各种各样的担心。因为你很难保证,所有研究机构提供的数据不会污染数据库。有人数据造假,就会污染整个数据源。目前就我了解到的情况,类似研究数据非常稀缺,最多的数据也要少于4000个样本。特征工程是AI模型成功的关键,但其设计在材料属性预测中尤为复杂。物理元素性质,像原子量、电负性这些和材料结构,像晶格类型、键长这些,都要转化为数值特征,提供给模型学习。其中特征选择直接影响模型准确性,错误选择可能导致性能下降。目前整个过程仍然需要依赖研究人员去手动处理特征值,去做筛查。非常依赖研究者经验和直觉,极可能遗漏重要信息。nature去年的子刊他们整出了一个MODNet的学习框架,就是一个材料属性预测的机器学习框架。(《通过特征选择和MODNet的联合学习实现有限数据集的材料属性预测》于2021年6月3日刊登在Nature子刊NPJ上)他们发现要预测材料的振动熵时,反向键长和p价电子是关键特征,但手动识别这些特征需深厚领域知识。这些数据的提取需要有足够丰富经验的科研民工来做,同时还要确保数据的精确,降低误差,整个过程非常繁琐。因为我们要做的东西远比他们更复杂,我们要做的是一个更大的,更复杂的模型,特征数据的归纳总结和收集,速度肯定很慢。毕竟这件事无法像网络空间的数据那样,可以通过特征值剔除,各种办法来确保数据的准确,它的数据用计算机术语来说,从外表看上去是结构化数据,但内核却非常的不结构化。因此按照我的估计,至少前五年,前五年华为的计算卡都够用。至于五年之后,华为的计算卡也会与时俱进,加上我们本身也会和华为合作来推进他们计算卡的进度。”Pony听完

上一页 章节目录 下一页