TG体育人工智能和科学发现相互赋能的新范式：AI+Science 读书会启动

发布时间：2023-03-11

　AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的第五范式。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新

　　集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业（Susanne Yelin教授研究组）、麻省理工学院物理系博士生刘子鸣（Max Tegmark教授指导），共同发起以AI+Science为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会从2023年3月26日开始，每周日早上 9:00-11:00 线周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

　　科学对于人类社会的发展具有根本性的推动作用。它让我们更加深刻地认识自然，从最基本的粒子，到原子、分子，从复杂的生物，再到浩瀚的宇宙。掌握了科学的工具，我们也能更好地改造自然。从开发新药物分子、新材料，到解决气候变化问题，从设计航天器，到操控可控核聚变。而在这其中，AI将发挥越来越核心的作用。

　　AI+Science 是近年兴起的一个前沿而激动人心的研究方向。它一方面通过开发新的AI和机器学习方法，解决上述科学中的重要问题（AI for Science）。另一方面，在科学（尤其是物理学）中长期积累的重要概念，也能为机器学习提供全新的视角和方法（Science for AI)。

　　AI+Science 是将人工智能和科学相结合的一种趋势，旨在利用机器学习和其他AI技术来解决科学研究中的问题。在此过程中，复杂系统理论是一个非常重要的概念，因为许多科学领域都与复杂系统有关。AI+Science 中提到的技术可以通过对复杂系统的建模和分析来帮助科学家更好地理解和研究复杂系统。利用 AI+Science 可以构建高精度的复杂系统模型，并对这些模型进行仿线年曾组织了以「复杂系统自动建模」为主题的读书会，从复杂系统理论出发，借助人工智能方法和技术，揭开人工智能的黑箱。

　　本次读书会，我们将详细探讨 AI+Science 中的重要分支，在每一个分支中探讨重要的问题，当前前沿方法，以及待解决的开放性问题。在 AI for Science 下，我们将着重探讨以下三个分支：AI 用于科学仿真，AI 用于科学设计，以及 AI 用于科学发现。在 Science for AI，我们将着重探讨物理启发下的生成模型，以及物理启发下的学习理论。

　　科学发现和创新传统上依赖于观察、建模、提出理论和实践。如今，算力强大的计算机和收集大量高分辨率实验数据的先进仪器正在成为产生知识的新引擎。更多的挑战来自于考察这些数据，将其转化为信息，进而转化为知识——这是单靠人类无法完成的任务，只有与强大的机器和算法结合才能推动这场 AI+Science 革命。人工智能和机器学习将从根本上改变科学发现，让复杂的推理不再受人类经验的限制，我们才刚刚开始理解由此带来的各种可能性。

　　机器学习已经彻底改变了许多科学领域，解决了一系列重大问题：预测天气、模拟星系碰撞、为黑洞拍照、预测蛋白质结构、设计优化核聚变反应堆、自动化药物发现，甚至像科学家一样进行科学发现，识别复杂系统中的对称性和守恒律。重大挑战的解决方案通常涉及多个学科，因此，AI+Science 也是一个多学科交叉探索的前沿方向，吸引了来自计算机科学、数学、物理学、化学、生物学等各个领域的探索者。其中有两位研究者格外引人瞩目：物理学方向的 Max Tegmark 和计算机科学方向的 Jure Leskovec。

　　Max Tegmark是麻省理工学院物理学教授、未来生命研究所（Future of Life Institute）创始人。在学术生涯的早期阶段，Max Tegmark 专注于宇宙学和量子信息的研究，利用基于信息论的数据分析工具进行宇宙微波背景辐射实验，结合最新观测数据和理论修正我们的宇宙学模型。现阶段，他的研究重点是将物理学和机器学习联系起来：AI for physics，physics for AI，利用基于物理的技术更好地理解生物和人工智能；同时也关注人工智能安全和可解释性。他在《穿越平行宇宙》一书中阐述了自己的数学宇宙假说（Mathematical universe hypothesis），在《生命3.0》中表达了对智能和未来生命终极形式的想象。个人主页：。

　　Jure Leskovec 是斯坦福大学计算机科学学院副教授，在图网络领域做出众多贡献，是图表示学习方法 node2vec 和 GraphSAGE 框架的贡献者之一。他的研究领域是大型互联系统的应用机器学习，致力于建模各种尺度系统中复杂丰富的关系结构、图和网络，从细胞中蛋白质的相互作用到社会中人类之间的相互作用。应用领域包括常识推理、推荐系统、计算社会科学和计算生物学，特别是药物发现。个人主页：。

　　src=吴泰霖，斯坦福大学计算机科学系的博士后研究员，由Jure Leskovec教授指导。他从麻省理工物理学博士毕业，其毕业论文主题为 AI for Physics and Physics for AI，本科毕业于北京大学。他的研究兴趣为 AI+Science，包括开发机器学习方法用于大规模科学和工程仿真，开发神经符号方法用于科学发现，以及由科学问题启发的表示学习（运用图神经网络、信息理论和物理等方法）。他的工作发表在NeurIPS、ICLR、UAI等顶级机器学习会议以及物理学顶级期刊上，并被 MIT Technology Review 报道。他是美国国家科学院院刊（PNAS）、Nature Communications、Nature Machine Intelligence、Science Advances等顶级期刊的审稿人。

　　src=扈鸿业，现作为哈佛量子计划研究员(HQI Fellow)，就职于哈佛大学物理系与哈佛大学量子计划。2022年在加州大学圣地亚哥分校获得物理博士学位（导师尤亦庄教授），2016年在北京大学获得物理学士学位（导师吴飙教授）。主要研究兴趣为量子计算，变分量子算法，量子态层析理论，生成型神经网络与无监督学习，强化学习，量子纠错码，量子多体物理，量子最优控制理论等。博士期间曾获得UCSD物理系挑战奖，NASA-USRA费曼奖学金，幺正基金(unitary fund)奖金。

　　src=刘子鸣，目前是麻省理工学院（MIT）物理系博士生，导师是Max Tegmark。此前2020年他从北京大学获得物理学士学位。他的研究兴趣在AI和物理的交叉：一方面 AI for Physics，利用AI工具自动化物理规律和概念的发现；另一方面 Physics for AI，利用物理启发构建AI理论和更具可解释性的模型。

　　基于 AI+Science 的相关学科研究，特别是对 AI+Science 研究中的模型、方法有浓厚兴趣的一线科研工作者；

　　能熟练阅读英文文献，并对复杂科学充满激情，对世界的本质充满好奇的探索者；

　　为确保专业性和讨论的聚焦，本读书会谢绝脱离读书会文本和复杂科学问题本身的空泛的哲学和思辨式讨论；不提倡过度引申在社会、人文、管理、政治、经济等应用层面的讨论。我们将对参与人员进行筛选，如果出现讨论内容不符合要求、经提醒无效者，会被移除群聊并对未参与部分退费，解释权归集智俱乐部所有。

　　每周进行线名读书会成员以PPT讲解的形式领读相关论文，与会者可以广泛参与讨论，会后可以获得视频回放持续学习。

　　从 2023 年 3 月 26 日开始，每周日早上 9:00-11:00，持续时间预计10 周。我们也会对每次分享的内容进行录制，剪辑后发布在集智斑图网站上，供读书会成员回看，因此报名的成员可以根据自己的时间自由安排学习时间。

　　读书会通过共学共研的机制，围绕前沿主题进行内容梳理和沉淀，所以针对于学生，可以通过参与共创任务TG体育，获取积分，积分达到退费标准之后，可以直接退费。

　　交互式播放器高效回看：快速定位主讲人提到的术语、论文、大纲、讨论等重要时间点

　　超多学习资源随手可得：从不同尺度记录主题下的路径、词条、前沿解读、算法、学者等

　　参与社区内容共创任务：读书会笔记、百科词条、公众号文章、论文解读分享等不同难度共创任务，在学习中贡献，在付出中收获。

　　公众号文章：以翻译整理或者原创生产形式生产公众号文章，以介绍前沿进展。例如：

　　PS：具体参与方式可以加入读书会后查看对应的共创任务列表，领取任务，与运营负责人沟通详情，上述规则的最终解释权归集智俱乐部所有。

　　科学仿真（scientific simulation）是科学中的核心任务之一。从微观的量子物理、化学、材料科学、生命科学，到宏观的流体力学、等离子体物理、气象学、天文学，它们都需要对一个大型的复杂系统进行模拟，以准确预测系统未来的演化，以及更好地控制和优化这个系统。传统的基于第一性原理的方法往往需要极大的计算量（比如需要上百万CPU hours），其准确度也有待提高。AI用于科学仿真（AI for scientific simulation）的目标是通过机器学习的方法构建代理模型（surrogate models），以极大提高科学仿真的速度和准确度。

　　对称性和守恒律：如何设计机器学习的模型架构使得物理系统的对称性和守恒律能被严格遵守？

　　多尺度和多分辨率：很多系统的时空动力学横跨多个尺度和分辨率，往往某些部分非常动态，需要非常精细的分辨率来准确模拟，而其他部分则比较静态。如何设计机器学习的模型架构能够达到准确度和计算量的合理权衡？

　　大规模特性：当需要模拟系统的自由度有上百万甚至上亿时，如何设计模型以降低计算量，或者让机器学习的架构能够适应这样大规模的特性？

　　长时预测的准确性：很多系统的模拟需要用相同的模型自回归地预测几十步甚至上千步，在这个过程中，模型的预测误差会累积，导致在自回归中机器学习模型的输入会来自分布外(out-of-distribution)。如何降低长时预测的误差，提高准确性？

　　由于任务的复杂度，AI用于科学仿真也能为机器学习和计算机科学提供全新的挑战，在如何设计全新的结合对称性的神经网络、表示学习、泛化理论、高性能计算、不确定性量化（uncertainty quantification）等方面有很多全新的机会。

　　推荐语：DeepMind 提出的一个用图神经网络作为代理模型来实现中程天气预报（7天）。其模型超越了开发了几十年的传统方法天气预报的准确度。其使用的多尺度图神经网络架构和训练方法有借鉴意义。

　　推荐语：本文提出了基于傅里叶变换的神经算子(neural operator)架构，能够实现函数空间之间的直接映射。其在偏微分方程的模拟中具有很好的准确率，并且能够实现superresolution。

　　推荐语：第一篇文章(Pfaff et al.)提出了MeshGraphNets，能够很好地进行基于网格的模拟(mesh-based simulation)，能够用于流体力学、计算机图形学等物理仿真领域。

　　第二篇文章(Wu et al.)本文针对众多科学仿真中的多分辨率的问题，提出了一个新的方法，用一个MeshGraphNet学习系统的演化，另一个MeshGraphNet学习空间局域的再网格化（remeshing)，实现准确率和计算量的合理权衡。

　　推荐语：本文提出了著名的 AlphaFold 2.0，其对蛋白质三维构象的预测的准确度极大超越了其他方法。

　　推荐语：本文提出了Deep Potential Molecular Dynamics的方法用于分子模拟。其模型包含系统的所有自然对称性，其准确率达到了量子力学精度。

　　推荐语：本文提出了等变图神经网络，将空间平移和旋转的等变性（equivariance）植入到图神经网络的设计中，实现了在分子性质预测的优越性能。其将对称性植入神经网络的设计的思想值得学习。

　　设计和控制是科学和工程中的另一个核心任务。当有了准确和快速的科学仿真或者实际的实验仪器，那么在此之上可以设计系统的参数和边界条件（比如设计航天器的形状，设计药物，设计新材料）以及进行实验的设计和控制（比如设计量子纠错码，控制可控核聚变的实时磁场输入），以达到预先设定的目标。这个领域目前刚刚起步，其复杂性和难度为AI提供了一个极佳的施展空间，能够极大促进强化学习、扩散模型、图神经网络、泛化等机器学习领域新算法的开发。

　　另外，由于这个领域目前刚刚起步，还有很多重要的问题和领域并未或者极少有文章涉足。一些可能性如下：

　　1. 如何优化可控核聚变的托克马克装置的形状，或者设计新的托克马克装置？

　　2. 如何通过机器学习设计政策（比如碳市场）或者设计大气工程以减缓全球变暖？

　　3. 如何通过model-free的方式设计高鲁棒性的量子操控方案，实现高保真度多比特量子门？是否可以通过强化学习的方式来设计新的量子纠错码，帮助实验实现可纠错量子计算？

　　推荐语：本文第一次将深度强化学习用于可控核聚变的实验控制。其先将强化学习算法在模拟器中训练，然后直接移植用于可控核聚变实验的控制，并且实现了之前无法实现的等离子体构象。其成功证明了深度强化学习在大型试验控制的广阔前景。

　　推荐语：本文在机器学习的代理模型之上，通过梯度下降学习系统的边界条件以优化目标。其表明了以机器学习代理模型为核心的设计系统的可行性和优越性。

　　推荐语：本文结合等变图神经网络和扩散模型用于生成分子的三维构象。其将对称性结合扩散模型的方法值得学习。

　　推荐语：量子纠错码是实现可纠错量子计算并实现量子优势的关键，但是由于量子计算机硬件噪声的不同，针对硬件设计合适的量子纠错码是一个重要且艰巨的任务，改文章利用强化学习首次对70个qubit的surface code进行了优化，数值上展示了强化学习可以实现接近最优的量子纠错码设计。

　　推荐语：结合深度神经网络的强化学习技术在最优控制方向展现了巨大的潜力。在量子计算中，如何操控底层物理体系的参数，实现高保真度且高效的量子比特门对量子技术尤为关键。本文利用TRPO强化学习对超导量子体系的参数进行优化，实现了高保真度的多量子比特门。

　　推荐语：该研究的主要工作是探讨如何通过引入额外的控制驱动和耗散作用来保护量子信息。其中研究人员通过利用数值变分优化来设计自主量子纠错编码，并在谐振子系统上展示了该方法的有效性，并提出了一种基于超导线路的硬件实现方案。

　　推荐语：模型误差是当前主流量子最优控制的瓶颈。由于数值模型和实验的不匹配，常常会导致数值优化的最优控制在实际中并不能达到理想的效果。该文章利用强化学习model-free的最优控制方案对制备高保真度量子态进行了最优控制的操作TG体育。该方案不依赖于制备量子态的保真度的实验估计，所以在所需量子测量数量和所需要制备量子态的数量上远超过传统的model-free的实验方案。

　　推荐语：量子纠错码是实现可靠量子计算的关键。变分量子线路是不依赖可纠错量子计算机的一种针对中尺度有噪声量子计算机的变分算法。该文章首次利用变分量子线路来对量子纠错码进行优化。

　　推荐语：强化学习作为一种新型的技术开始被人们应用到量子最优控制问题上。然而量子最优控制问题也具有传统的优化算法，比如随机梯度下降算法。本文通过对比实验讨论了在哪些问题上，新型的强化学习算法，例如deep-Q learning, policy gradient可能会比传统的优化算法更优。

　　科学发现是科学中最激动人心的过程。它让我们对一个系统的组成部分，组成部分之间的关系，以及系统满足的规律有更深入的认识。而AI可以极大地加速这一过程。在AI用于科学发现中，有以下一些重要问题：

　　如何识别复杂系统中重要的自由度？比如虽然一团物质有很多微观自由度，但仍可以很好地被少数几个宏观自由度描述，如压强，体积，温度等。

　　如何发现观测数据所遵循的理论（theory）？比如发现万有引力定律，发现麦克斯韦方程等。

　　推荐语：这篇文章在玩具例子上展示了重要的物理概念如何在神经网络中涌现，比如相关参数、守恒量、日心说等等。

　　推荐语：这两篇文章介绍了一种基于遗传算法的符号回归方法，并将其与图神经网络结合用于天体规律的发现。

　　推荐语：这篇文章构造了一个AI物理学家，能够从观测数据中抽象总结出理论。它借鉴了人类物理学家的方法论：分而治之，奥卡姆剃刀，寻求理论统一，终身学习等等。

　　推荐语：这两篇文章讨论了如何从数据中学习守恒系统的拉格朗日量和哈密顿量。

　　推荐语：第一篇文章展示了如何把数守恒量个数的问题转化为流形学习问题，第二篇文章展示了如何把找守恒量的问题转化为解微分方程的问题。

　　推荐语：本文提出了一种方法，能够预测细胞中单个或者多个基因的扰动导致的转录反应，尤其能够泛化到训练集中没有出现过的基因扰动。通过这一文章，我们可以深入了解AI在精准医疗(precision medicine)这一重要领域的应用。

　　What I cannot create, I do not understand. by Richard Feynman. 费曼曾经说过：我无法理解那些我无法创造出来的东西。同样的逻辑，对于复杂的系统/数据，如果我们可以创造/生成它，我们就能获得对它一定的理解。而物理特别擅长生成：简简单单的几条物理规律就可能生成出复杂的宇宙万物。这是物理启发的生成模型的出发点和动机。最近大火的Stable Diffusion也验证了这种思维模式的成功。

　　苹果神一样存在！iPhone彻底统治日本市场：出货量继续第一安卓被摩擦

　　最便宜竖折叠继任者！摩托罗拉Razr 2023真机图出炉：首次拼色后壳

　　苹果14黄色款首销破发，京东徐雷称百亿补贴对利润率影响很低，宝马回应降价，苹果新专利以点头调整耳机音量，这就是今天的其它大新闻！TG体育TG体育

上一篇： TG体育黛艺美拉丨公司团队介绍

下一篇：“医疗小丑”在上海：看到他们的喜悦我也感受到自己的价值TG体育