Skip to content

AI for Science 论文解读合集(持续更新ing),论文/数据集/教程下载:hyper.ai

License

Notifications You must be signed in to change notification settings

hyperai/awesome-ai4s

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 

Repository files navigation

Awesome AI for Science

前言

从 2020 年开始,以 AlphaFold 为代表的科研项目将 AI for Science (AI4S) 推向了 AI 应用的主舞台。近年来,从生物医药到天文气象、再到材料化学等基础学科,都成为了 AI 的新战场。

随着越来越多的交叉学科人才开始在其研究领域应用机器学习、深度学习等技术进行数据处理、构建模型,加之跨学科研究团队的合作日益加强,AI4S 的能力被更多科研人员所关注到,但却未达到规模化应用的目标。提高相关研究的可复用性、降低技术门槛、提高数据质量等诸多问题亟待解决。

目前,除了高校、科研机构在积极探索 AI4S 外,多国政府及头部科技企业也都关注到了 AI 革新科研的潜力,并进行了相关的政策疏导与布局,可以说 AI4S 已经是大势所趋。

作为最早一批关注到 AI for Science 的社区,「HyperAI超神经」在陪伴行业成长的同时,也乐于将最新的研究进展与成果进行普适化分享,我们希望通过解读前沿论文与政策的方式,令更多团队看到 AI 对于科研的帮助,为 AI for Science 的发展贡献力量。

目前,HyperAI超神经已经解读分享了近 200 篇论文,为了便于大家检索,我们将文章根据学科进行分类,并展示了发表期刊及时间,提取了关键词(研究团队、相关研究、数据集等),大家可以点击题目跳转论文中文解读页面(内含完整论文下载链接)。

本文档将以开源项目的形式呈现,我们将持续更新解读文章,同时也欢迎大家投稿优秀研究成果,如果您所在的团队/课题组有报道需求,可添加微信:神经星星(微信号:Hyperai01)。

AI+ 生物医药:AI+Biopharmaceutical

  • 中文解读: https://hyper.ai/news/24578

  • 科研团队: 梅奥诊所的 James L. Kirkland 博士等人

  • 相关研究: 机器学习、随机森林模型、5倍交叉验证、随机森林(RF)模型。发现抗衰老药物 Ginkgetin、Periplocin 和 Oleandrin

  • 发布期刊: Nature Communications, 2023.06

  • 论文链接: Discovery of Senolytics using machine learning

  • 中文解读: https://hyper.ai/news/32544

  • 科研团队: 俄亥俄州立大学 Jiaman Wu 团队

  • 相关研究: 生物图像数据集 TreeOfLife-10M、多模态模型、计算机视觉、视觉编码器、文本编码器、自回归语言模型、模型在零样本和少样本任务中均表现出色

  • 发布期刊: CVPR 2024, 2024.02

  • 论文链接: BIoCLIP: A Vision Foundation Model for the Tree of Life

  • 中文解读: https://hyper.ai/news/32623

  • 科研团队: 清华大学自动化系生命基础模型实验室主任张学工教授、电子系/AIR 马剑竹教授和百图生科宋乐博士

  • 相关研究: 人工智能细胞大模型、人类单细胞组学数据 DISCO,欧洲分子生物学实验室-欧洲生物信息学研究所数据库 EMBL-EBI、GEO 数据集,Single Cell Portal 数据集,HCA 数据集,hECA 数据集、Transformer、非对称的编码器-解码器结构、向量模块、RDA 建模

  • 发布期刊: Nature Methods, 2024.06

  • 论文链接: Large-scale foundation model on single-cell transcriptomics

  • 中文解读: https://hyper.ai/news/32822

  • 科研团队: 上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组,联合上海人工智能实验室青年研究员谈攀团队

  • 相关研究: 蛋白质突变数据集 ProteinGym、预训练蛋白质语言模型、元迁移学习、排序学习、参数高效微调、LTR 技术、有效优化蛋白质语言模型的训练策略 FSFP、模型无关元学习方法

  • 发布期刊: Nature Communications, 2024.07

  • 论文链接: Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning

  • 中文解读: https://hyper.ai/news/34225

  • 科研团队: 香港中文大学李煜、复旦大学智能复杂体系实验室、上海人工智能实验室青年研究员孙思琦、耶鲁大学 Mark Gerstein

  • 相关研究: 蛋白质工程、蛋白质语言模型、密集检索技术、密集同源物检索器 、混合模型 DHR-meta、UR90 数据集、JackHMMER 算法、BFD/MGnify 数据集、DHR 方法。蛋白质同源物检测灵敏度提高 56%

  • 发布期刊: Nature Biotechnology, 2024.08

  • 论文链接: Fast, sensitive detection of protein homologs using deep dense retrieval

  • 中文解读: https://hyper.ai/news/34214

  • 科研团队: DeepMind、弗朗西斯·克里克研究所

  • 相关研究: 蛋白质工程、蛋白质语言模型、AI 药物设计、靶蛋白 、AI 工具、机器学习模型 AlphaProteo、VEGF-A 蛋白结合体设计、生成模型 (Generator) 、过滤器 (Filter)。候选结合物与靶蛋白结合数量高出 5-100 倍

  • 发布期刊: DeepMind, 2024.09

  • 论文链接: AlphaProteo 为生物学和健康研究生成新型蛋白质

  • 中文解读: https://hyper.ai/cn/news/34954

  • 科研团队: 浙江大学计算机科学与技术学院、浙江大学国际联合学院、浙江大学杭州国际科创中心陈华钧教授、张强博士

  • 相关研究: 去噪蛋白质语言模型 (DePLM)、ProteinGym 深度突变筛选 (DMS) 实验集合、DMS 数据集、随机交叉验证方法、泛化能力实验、基于排序信息的前向过程来扩展扩散模型以去噪进化信息、基于排序的去噪扩散过程、排序算法 (sorting algorithm) 生成轨迹、PromptProtein 模型

  • 发布期刊: NeurIPS 2024, 2024.11

  • 论文链接: DePLM: Denoising Protein Language Models for Property Optimization

  • 中文解读: https://hyper.ai/cn/news/35781

  • 科研团队: 西湖大学未来产业研究中心团队

  • 相关研究: CATH4.3 数据集、ESM2 模型、CASP15 数据集、新晶体结构、NovelPro 数据集、RDesign 收集的数据集、CHILI-3K 数据集、基于氨基酸和核苷酸的预定义框架、GNN、几何特征提取器 (Geometric Featurizer) 、块图注意力层 (Block Graph Attention)。在蛋白质设计、 RNA 设计、材料设计上都优于其他对比的先进方法

  • 发布期刊: NeurIPS 2024, 2024.5

  • 论文链接: UniIF: Unified Molecule Inverse Folding

  • 中文解读: https://hyper.ai/cn/news/35874

  • 科研团队: 海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组,上海交大助理研究员周冰心,联合上海人工智能实验室青年研究员谈攀

  • 相关研究: 预训练蛋白质语言模型 ProSST、Transformer、解耦注意力机制、蛋白质结构量化器、AlphaFoldDB 数据集、CATH43-S40 数据集、CATH43-S40 局部结构数据集、ProteinGYM 基准数据集。在热稳定性预测、金属离子结合预测、蛋白质定位预测、 GO 注释预测等任务中优于现有模型

  • 发布期刊: NeurIPS 2024, 2024.05

  • 论文链接: ProSST: Protein Language Modeling with Quantized Structure and Disentangled Attention

AI+ 医疗健康:AI+Healthcare

  • 中文解读: https://hyper.ai/news/31535

  • 科研团队: Google 研究团队

  • 相关研究: 机器学习、HEAL (The health equity framework) 框架、逻辑回归分析、交叉性分析、健康公平

  • 中文解读: https://hyper.ai/news/32068

  • 科研团队: 上海国家应用数学中心(上海交通大学分中心)俞章盛课题组(生命科学技术学院/医学院临床研究中心)

  • 相关研究: 深度学习系统、ST 数据集、integrated graph 和图深度学习的模型、卷积神经网络和图神经网络、外部测试集 MCO-CRC、空间基因表达预测模型、super-patch graph 生存模型、H&E 染色组织学图像 (H&E-stained histological image) 预处理、IGI-DL 模型

  • **发布期刊:**Cell Reports Medicine, 2024.05

  • 论文链接: Harnessing TME depicted by histological images to improve cancer prognosis through a deep learning system

  • 中文解读: https://hyper.ai/news/32372

  • 科研团队: 深圳大学吴惠思

  • 相关研究: 视觉模型、医学视频分割、超声心动图视频分割模型、记忆强化机制、超声心动图数据集 CAMUS 和 EchoNet-Dynamic、图像编码器、提示编码器、掩码解码器、Softmax 函数、基于 CNN 的 UNet 、基于 Transformer 的 SwinUNet、CNN-Transformer 混合的 H2Former、SonoSAM 模型、SAMUS 模型

  • 发布期刊: CVPR 2024, 2024.05

  • 论文链接: MemSAM: Taming Segment Anything Model forEchocardiography Video Segmentation

  • 中文解读: https://hyper.ai/news/33292

  • 科研团队: 清华大学副教务长、医学院主任黄天荫教授团队,上海交通大学电院计算机系/教育部人工智能重点实验室盛斌教授团队,上海交通大学医学院附属第六人民医院贾伟平教授及李华婷教授团队,新加坡国立大学及新加坡国家眼科中心覃宇宗教授团队

  • 相关研究: 大语言模型、基于眼底图像的深度学习技术、融合适配器 (Adaptor) 和低秩自适应、Transformer 模型架构、监督微调方法、可提高基层 DR 筛查能力和糖尿病诊疗水平

  • 发布期刊: Nature Medicine, 2024.07

  • 论文链接: Integrated image-based deep learning and language models for primary diabetes care

  • 中文解读: https://hyper.ai/news/34720

  • 科研团队: 美国麻省理工学院计算机科学与人工智能实验室团队、麻省总医院、哈佛医学院

  • 相关研究: 深度学习、医学图像分割、MegaMedical 数据集、交互式分割方法、生物医学成像数据集、生物医学图像分割的通用模型 ScribblePrompt、生成合成标签机制、全卷积架构、ScribblePrompt 架构、CNN-Transformer 混合解决方案

  • 发布期刊: ECCV 2024, 2024.07

  • 论文链接: ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image

  • 中文解读: https://hyper.ai/cn/news/34968

  • 科研团队: 中山大学医学院的施莽教授、浙江大学、复旦大学、中国农业大学、香港城市大学、广州大学、悉尼大学、阿里云飞天实验室

  • 相关研究: 云计算与 AI 技术、宏基因组挖掘技术、NCBI SRA 数据库、CNGBdb 数据库、基于数据驱动的深度学习模型 LucaProt、Transformer 框架、大模型表征技术、揭露了 161,979 种潜在 RNA 病毒物种和 180 个病毒超群的存在

  • 发布期刊: Cell, 2024.9

  • 论文链接: Using artificial intelligence to document the hidden RNA virosphere

  • 中文解读: https://hyper.ai/cn/news/35128

  • 科研团队: 浙江大学胡浩基团队、微软亚洲研究院邱锂力团队

  • 相关研究: 「伪配对」(Pseudo-Pairs) 技术、MIMIC-CXR 2.0.0 数据集、BIMCV 数据集、预训练 UniMedI 框架、ViT-B/16 视觉编码器 、BioClinicalBERT 文本编码器 、VL (Vision-Language) 对比学习、辅助任务设计、UniMiss 医学自我监督表达学习框架

  • 发布期刊: ECCV 2024

  • 论文链接: Unified Medical Image Pre-training in Language-Guided Common Semantic Space

  • 中文解读: https://hyper.ai/cn/news/35242

  • 科研团队: 上海交通大学王延峰教授与谢伟迪教授团队

  • 相关研究: 多语言医疗语料库 MMedC、多语言医疗问答评测标准 MMedBench、基座模型 MMed-Llama 3、MMedLM 多语言模型、MMedLM 2 多语言模型、 MMed-Llama 3 多语言模型

  • 发布期刊: Nature Communications, 2024.9

  • 论文链接: Towards building multilingual language model for medicine

  • 中文解读: https://hyper.ai/cn/news/36192

  • 科研团队: 华中科技大学陆枫团队、悉尼大学 Zomaya 院士团队、同济医院

  • 相关研究: MIMIC-III 数据集、 LSST 数据集、 NATOPS 数据集、 AE 数据集。将时间序列预测与可解释性结合,CGS-Mask 既能提高模型预测精度,又能使预测结果更加直观和可解释

  • 发布期刊: Proceedings of the 38th AAAI Conference on Artificial Intelligence (AAAI’24), 2024.3

  • 论文链接: CGS-Mask: Making Time Series Predictions Intuitive for All

AI+ 材料化学:AI+Materials Chemistry

  • 中文解读: https://hyper.ai/news/33440

  • 科研团队: 清华大学戴琼海院士、方璐教授研究团队

  • 相关研究: 神经网络、全前向模式、机器学习、MNIST 数据集、Fashion-MNIST 数据集、CIFAR-10 数据集、ImageNet 数据集、MWD 数据集、鸢尾花数据集、Chromium target 数据集

  • 发布期刊: Nature, 2024.08

  • 论文链接: Fully forward mode training for optical neural networks

  • 中文解读: https://hyper.ai/news/34170

  • 科研团队: 上海人工智能实验室

  • 相关研究: 大规模化学数据集 ChemData 、ChemPref-10K 的中英文版本数据集、C- MHChem 数据集、ChemBench4K 化学能力评测基准数据集、大规模化学基准测试 ChemBench、Multi-Corpus 综合语料库、NLP 任务、化学大语言模型

  • 发布期刊: arXiv, 2024.02

  • 论文链接: ChemLLM: A Chemical Large Language Model

AI+动植物科学:AI+Zoology-Botany

  • 中文解读: https://hyper.ai/news/28787

  • 科研团队: 系统生物学家 Patrick Müller 及康斯坦茨大学研究团队

  • 相关研究: ImageNet 数据集、孪生网络、深度学习、迁移学习、三联体损失训练、迭代训练、分任务训练。在没有人为干预的情况下识别胚胎发育特征阶段点

  • 发布期刊: Nature Methods, 2023.11

  • 论文链接: Uncovering developmental time and tempo using deep learning

  • 中文解读: https://hyper.ai/news/33931

  • 主要内容: AI 在同源搜索、多重比对及系统发育构建、基因组序列分析、基因发现等生物学领域中,都有丰富的应用案例。作为一名生物学研究人员,能熟练地将机器学习工具整合到数据分析中,必将加速科学发现、提升科研效率。

  • 中文解读: https://hyper.ai/cn/news/34781

  • 科研团队: Google Research 团队

  • 相关研究: 梅尔尺度的频率轴 、压缩数振幅、可通过 TensorFlow 的 SavedModel API 独立调用、卷积神经网络、用于检测座头鲸叫声的分类模型、互动可视化工具「Pattern Radio」。专门用于识别蓝鲸和长须鲸的模型、可识别目前已知 94 种鲸鱼种类中的 8 个不同物种

  • 发布期刊: Google Research, 2024.9

  • 论文链接: Whistles, songs, boings, and biotwangs: Recognizing whale vocalizations with AI

AI+农林畜牧业:AI+Agriculture-Forestry-Animal husbandry

AI+ 气象学:AI+Meteorology

  • 中文解读: https://hyper.ai/news/28124

  • 主要内容: 数值天气预报是天气预报的主流方法。它通过数值积分,对地球系统的状态进行逐网格的求解,是一个演绎推理的过程。 2022 年以来,天气预报领域的机器学习模型取得了一系列突破,部分成果可以与欧洲中期天气预报中心的高精度预测匹敌。

  • 中文解读: https://hyper.ai/news/25874

  • 主要内容: 2021 年,达摩院与国家气象中心联合研发了 AI 算法用于天气预测,并成功预测了多次强对流天气。同年 9 月,Deepmind 在《Nature》上发表文章,利用深度生成模型进行降雨量的实时预报。

2023 年年初,Deepmind 正式推出了 GraphCast,可以在一分钟内对全球未来 10 天的气象,进行分辨率为 0.25° 的预测。 4 月,南京信息工程大学和上海人工智能实验室合作研发了「风乌」气象预测大模型,误差较 GraphCast 进一步降低。

随后,华为推出了「盘古」气象大模型。由于模型中引出了三维神经网络,「盘古」的预测准确率首次超过了目前最准确的 NWP 预测系统。近期,清华大学和复旦大学相继发布了「NowCastNet」和「伏羲」模型。

AI+ 天文学:AI+Astronomy

AI+ 自然灾害:AI+Natural Disaster

  • 中文解读: https://hyper.ai/news/33044

  • 科研团队: 浙江大学计算机科学与技术学院张宁豫、陈华钧团队

  • 相关研究: 海洋领域大语言模型、正则表达式、哈希算法海洋科学指令生成框架 DoInstruct、多 Agent 协作、gpt-3.5-turbo、BM25 算法、LLaMA-2、Vicuna-7b-1.5、具身智能

  • 发布期刊: ACL 2024, 2024.05

  • 论文链接: OceanGPT: A Large Language Model for Ocean Science Tasks

AI4S 政策解读:AI4S Policy

其他:Others

  • 中文解读: https://hyper.ai/news/30069

  • 科研团队: 清华大学电子工程系城市科学与计算研究中心、清华大学深圳国际研究生院深圳市泛在数据赋能重点实验室、鹏城实验室的研究团队

  • 相关研究: GC 数据集、UCY 数据集、条件去噪扩散模型、SPDiff、GN、EGCL、LSTM、多帧推演训练算法。5% 训练数据量即可达到最优性能

  • 发布期刊: Nature, 2024.02

  • 论文链接: Social Physics Informed Diffusion Model for Crowd Simulation

  • 中文解读: https://hyper.ai/news/28166

  • 主要内容: 来自斯坦福大学计算机科学与基因技术学院的博士后 Hanchen Wang,与佐治亚理工学院计算科学与工程专业的 Tianfan Fu,以及康奈尔大学计算机系的 Yuanqi Du 等 30 人,回顾了过去十年间,基础科研领域中的 AI 角色,并提出了仍然存在的挑战和不足

  • 论文链接: Scientific discovery in the age of artificial intelligence

  • 中文解读: https://hyper.ai/news/31499

  • 主要内容: 斯坦福大学 HAI 研究中心发布《2024 年人工智能指数报告》。这份报告全面追踪了 2023 年全球人工智能的发展趋势。还探讨人工智能在科学和医学领域的深远影响。报告中展示了 2023 年 AI 在科学领域的辉煌成就,以及 AI 在医疗领域取得的重要创新成果,包括 SynthSR 和 ImmunoSEIRA 等突破性技术。此外,还分析了 FDA 对 AI 医疗设备审批的趋势,为行业提供了宝贵的参考。

  • 中文解读: https://hyper.ai/news/33010

  • 科研团队: 华中科技大学白翔、刘禹良研究团队联合阿德莱德大学、安阳师范学院、华南理工大学团队

  • 相关研究: 条件扩散模型、图像生成技术、局部分析采样技术、HUST-OBS 数据集、EVOBC 数据集、ResNet-101 骨干网络、OCR 技术、零样本学习策略、风格编码器、内容编码器

  • 发布期刊: ACL 2024, 2024.06

  • 论文链接: Deciphering Oracle Bone Language with Diffusion Models

  • 中文解读: https://hyper.ai/news/34669

  • 科研团队: 复武汉纺织大学计算机与人工智能学院可视计算与数字纺织团队

  • 相关研究: 多针刺绣数据集、生成对抗网络模型、卷积神经网络、CNN、多缝线刺绣生成对抗网络模型 MSEmbGAN、区域感知纹理生成网络、着色网络、可提高刺绣中纹理真实度和色彩保真度等关键方面的精度

  • 发布期刊: IEEE Transactions on Visualization and Computer Graphics, 2024

  • 论文链接: MSEmbGAN: Multi-Stitch Embroidery Synthesis via Region-Aware Texture Generation

About

AI for Science 论文解读合集(持续更新ing),论文/数据集/教程下载:hyper.ai

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •