Skip to content

Latest commit

 

History

History
301 lines (272 loc) · 31.3 KB

README.zh_CN.md

File metadata and controls

301 lines (272 loc) · 31.3 KB

🤖 我们的目标是建立并培养一系列项目的全面收藏,展示大型语言模型(LLM)应用的非凡多样性和潜力。

项目索引:

项目

‼️注意:如果项目名称以 * 开头,意味着该项目既不是开源的,也尚未发布任何应用程序。

🦄 LLMs

  • Command-R: Command-R 是一个面向 RAG 和工具使用的可扩展生成模型,旨在为企业启用生产规模的 AI。
  • Grok-1: Grok-1 是由 xAI 从头开始训练的 314 亿参数混合专家模型。
  • Mistral: Mistral AI 发布开源 LLMs,包括 Mistral 7B, Mistral 8x7B。
  • DBRX: DBRX 是 Databricks 创建的开放、通用 LLM。
  • mPLUG-DocOwl: 用于文档理解的模块化多模态大型语言模型。
  • OpenChat: 通过不完美数据推进开源语言模型
  • WizardLM: 使大型预训练语言模型能够遵循复杂指令
  • CodeGemma-7b: Google 官方发布的代码 LLMs。
  • Awesome-Chinese-LLM: 包括许多开源中文 LLMs。
  • llama3: Meta 新发布的 LLMs。
  • Snowflake Arctic: Arctic 是由 Snowflake AI 研究团队从头开始预训练的密集 MoE 混合变换器架构。平均采用编码(HumanEval+ 和 MBPP+)、SQL 生成(Spider)和指令遵循(IFEval)。
  • DeepSeek-V2-Chat: 强大、经济、高效的专家混合语言模型
  • Qwen 1.8B,7B,14B,72B: 阿里云提出的聊天和预训练大型语言模型。
  • Granite Code Models 3b,8b,20b,34b: Granite Code Models,IBM 的开源代码模型:代码智能的开放基础模型系列
  • Hunyuan-DiT: 一种强大的多分辨率扩散变换器,具有细粒度的中文理解能力
  • MiniCPM-V 2.0: 一种高效的端侧多模态大模型,具有强大的 OCR 和理解能力
  • Stable Audio Open 1.0: Stable Audio Open 1.0 从文本提示生成可变长度(最长 47 秒)的 44.1kHz 立体声音频。
  • Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, and Qwen2-72B: Qwen2 是阿里云 Qwen 团队开发的大型语言模型系列。
  • GLM-4-9B: GLM-4 系列:开放的多语言多模态聊天大模型
  • AutoCoder: 一种为代码生成任务设计的新模型。其在 HumanEval 基础数据集上的测试准确率超过了 GPT-4 Turbo(2024 年 4 月)和 GPT-4o。
  • Nemotron 4 340B: Nvidia 的开放模型,用于合成数据生成(SDG)。包括基础、指令和奖励模型。
  • Fish Speech V1.2: Fish Speech V1.2 是一个领先的文本到语音(TTS)模型,训练了 30 万小时的英语、中文和日语音频数据。
  • Phi-3 family: Phi-3 系列的小型语言和多模态模型。语言模型提供短上下文和长上下文长度。
  • Gemma 2: Gemma 2 提供一流的性能,在不同硬件上以惊人的速度运行,并轻松集成其他 AI 工具。

🏆 基准排行榜

💬 聊天机器人

  • ChatGPT: ChatGPT 是一个免费使用的 AI 系统。用它进行引人入胜的对话、获得洞察、自动化任务,并见证 AI 的未来,所有这些都在一个地方。
  • Gemini: Bard 现在是 Gemini。从 Google AI 获取写作、计划、学习等方面的帮助。
  • character.ai: 智能代理的所在地!
  • Claude: 与来自 Anthropic 的 AI 助手 Claude 对话。
  • Mistral AI: Mistral 使前沿 AI 无处不在,并为所有建设者提供量身定制的 AI。

🗣️ 语音

包括文本到语音、语音到文本、语音到语音、生成语音:

  • *Vall-E: 一种用于语音合成的神经编解码器语言模型。
  • ElevenLabs: AI 语音生成器 & 文本到语音
  • Whisper: 通过大规模弱监督实现强大的语音识别
  • Krisp: Krisp 在通话中取消背景噪音并减少回声。
  • Voicemod: Voicemod 是一个免费的实时声音变换器和声音板,适用于 Windows 和 macOS。
  • *NaturalSpeech 3: 使用因子化编解码器和扩散模型的零样本语音合成。
  • VoiceCraft: VoiceCraft 是零样本语音编辑和文本到语音的开源项目。
  • Parler-TTS: Parler-TTS 是一个轻量级的文本到语音(TTS)模型,可以以给定发言者的风格(性别、音高、说话风格等)生成高质量、自然听起来的语音。
  • Sounds: Sounds 为创作者、游戏开发者、艺术家、视频制作者提供声音。体验最佳 AI 声音 FX 生成器
  • VIVA: VIVA 是一个 AI 驱动的创意视觉设计平台
  • ChatTTS: ChatTTS 是一个用于日常对话的生成语音模型。
  • StreamSpeech: StreamSpeech 是一个“全能”无缝模型,用于离线和同时语音识别、语音翻译和语音合成。
  • Dream Machine: Dream Machine 是一个 AI 模型,可以快速从文本和图像生成高质量、逼真的视频。
  • CosyVoice: 多语言大规模语音生成模型,提供推理、训练和部署的全栈能力。

🎵 音乐

  • Suno: Suno 是一个创新工具,旨在利用人工智能从文本输入创建原创歌曲
  • Udio: 创作你的音乐。发现、创作并与世界分享音乐。
  • Haimian Music: 由字节跳动推出的 AI 生成音乐产品,提供中文和英文的优质人声。
  • Jamboss: Jamboss 是一个超级简单的 AI 音乐生成应用程序,可以将您的想法和歌词变成令人惊叹的完整歌曲。

🌄 图像

包括文本到图像、图像到图像:

  • DALL-E: 从文本创建图像。
  • Stable Diffusion: Stable Diffusion 是一个深度学习的文本到图像模型。
  • Midjourney: Midjourney 是一个生成式人工智能程序和服务,它从自然语言描述中创建图像,类似于其他 AI 技术,如 OpenAI 的 DALL-E 和 Stability AI 的 Stable Diffusion。
  • StickerBaker: StickerBaker 是一个开源工具,允许用户使用 AI 技术创建贴纸。
  • *PIXART-Σ: 从弱到强训练扩散变换器进行 4K 文本到图像生成。
  • ResAdapter: ResAdapter 是一个即插即用的分辨率适配器,使任何风格领域的扩散模型能够生成分辨率自由的图像:无需额外训练、无需额外推理、无需风格转换。
  • FaceChain: FaceChain 是一个深度学习工具链,用于生成你的数字孪生。
  • APISR: Anime Production Inspired Real-World Anime Super-Resolution (CVPR 2024)
  • OMG: Occlusion-friendly Personalized Multi-concept Generation In Diffusion Models: OMG 是一个框架,用于多概念图像生成
  • BasicPBC: 学习包容性匹配以进行动画填色桶着色。
  • DesignEdit: 多层次潜在分解和融合,用于统一和准确的图像编辑。
  • VAR: 一种新的视觉生成方法,将 GPT 风格的模型提升到扩散之上,并观察到缩放定律。
  • Ideogram: Ideogram 是一个免费使用的 AI 工具,可以生成逼真的图像、海报、标志等。
  • MagicClothing: 专注于可控制的服装驱动图像合成。
  • *IntrinsicAnything: 学习扩散先验,用于未知照明下的逆渲染。
  • HeyBeauty: 用 AI 发现美,重新定义时尚。
  • IC-Light: IC-Light 是一个项目,用于操纵图像的照明。
  • Logo Diffusion: 使用生成式 A.I. 在几秒钟内创建标志。
  • MistoLine: 一个多功能且强大的 SDXL-ControlNet 模型,用于适应线条艺术条件
  • InstaDrag: 从视频中出现的基于拖动的图像编辑
  • Omost: Omost 是一个项目,将 LLM 的编码能力转换为图像生成(或更准确地说,图像合成)能力。
  • ToonCrafter: ToonCrafter 可以通过利用预训练的图像到视频扩散先验来插值两个卡通图像。
  • Hallo: 用于人像图像动画的分层音频驱动视觉合成
  • UniAnimate: 驯服统一视频扩散模型以实现一致的人像动画。
  • Krea: 使用强大的 AI 免费生成和增强图像和视频。
  • Leonardo AI: Leonardo AI 是一个生成式 AI 工具,可让您为您的项目制作顶级视觉资产。
  • MimicBrush: 参考模仿的零样本图像编辑
  • SketchDeco: 用颜色装饰黑白草图。
  • Tensor.Art: AI 模型共享平台,在线运行模型生成图像并免费训练模型。
  • AutoStudio: AutoStudio:在多轮交互图像生成中制作一致的主题
  • LivePortrait: 通过缝合和重定目标控制实现高效的人像动画
  • IMAGDressing: 用于虚拟试衣的交互式模块化服装生成
  • PaintsUndo: 数字绘画中绘画行为的基础模型

🧸 3D 模型

包括文本到 3D 模型:

  • TripoSR: TripoSR 是一种快速且前馈的 3D 生成模型,由 Stability AI 和 Tripo AI 合作开发。
  • PantoMatrix: PantoMatrix: 生成面部和身体动画
  • Gaussian Head Avatar: 通过动态高斯实现超高保真度头像。
  • *Make-It-Vivid: 从文本为你的可动漫化双足角色着装。
  • *CAT3D: CAT3D:使用多视图扩散模型创建任何 3D
  • DiffTF: 大词汇量 3D 扩散模型与变压器
  • DreamMat: 使用几何和光照感知扩散模型生成高质量的 PBR 材质
  • Unique3D: 从单个图像生成高质量和高效的 3D 网格。
  • Era3D: 使用高效的行级注意力进行高分辨率多视图扩散。
  • *OccFusion: 使用生成扩散先验渲染被遮挡的人物
  • AIUNI: AI 生成独特的资产、头像、动画。
  • MeshFormer: 使用 3D 引导重建模型生成高质量的网格

🎥 视频

包括文本到视频、图像到视频、视频到视频:

  • *Sora: 从文本创建视频。Sora 是一个 AI 模型,能够根据文本指令创建现实和富有想象力的场景。
  • *Emote Portrait Alive: 在弱条件下使用 Audio2Video 扩散模型生成表情丰富的人像视频
  • Runway: Runway 是一家应用 AI 研究公司,塑造艺术、娱乐和人类创造力的下一个时代。
  • HeyGen: HeyGen 是一个创新的视频平台,利用生成式 AI 的力量简化您的视频创建流程。
  • AniPortrait: 音频驱动的逼真人像动画合成
  • MuseV: 无限长度和高保真度虚拟人视频生成,具有视觉条件的并行去噪。
  • CameraCtrl: 为文本到视频生成启用相机控制。
  • Pika: Pika 是将你的创意付诸行动的想法到视频平台。
  • *VASA-1: 实时生成逼真的音频驱动的说话面孔。
  • OpenVoice: MyShell 的即时语音克隆。
  • Veo: Veo 是 Google 迄今为止最强大的视频生成模型。
  • AniTalker: 通过身份解耦的面部运动编码生成生动多样的说话面孔
  • Pandora: 通过自然语言动作和视频状态实现通用世界模型
  • EasyAnimate: 基于变压器扩散的高分辨率和长视频生成的端到端解决方案。
  • V-Express: V-Express 旨在在参考图像、音频和一系列 V-Kps 图像的控制下生成说话头视频。
  • MusePose: 基于姿态驱动的虚拟人生成框架
  • Hedra: Hedra 是一个视频内容生成平台和社交媒体平台,允许个人编辑、导出和分享 AI 生成的视频和视频组件。
  • MASA: 通过分割任何东西进行匹配
  • MotionClone: 用于可控视频生成的无训练运动克隆
  • MimicMotion: 使用置信度感知姿态引导生成高质量的人体运动视频
  • Video-Infinity: Video-Infinity 使用多个 GPU 快速生成长视频,无需额外训练。
  • DiffSynth Studio: DiffSynth Studio 是一个扩散引擎。
  • SAM 2: Segment Anything Model 2 (SAM 2) 是一个基础模型,旨在解决图像和视频中的可提示视觉分割问题。

🕸️ 搜索引擎

包括搜索引擎、网络浏览器:

  • Phind: 网络浏览器,根据网络搜索结果和 LLMs 生成答案,并提供可定制的功能以调整搜索结果来源的权重
  • Devv: 下一代开发者用 AI 搜索引擎。在几秒钟内解决您的编程问题。
  • Perplexity: Perplexity AI 通过信息发现和分享释放知识的力量。
  • Arc: 轻松组织您在线上的一切 — 工作、学习、爱好 — 所有这些都在一个窗口中,通过空间和配置文件。
  • Perplexica: Perplexica 是一个 AI 驱动的搜索引擎。它是 Perplexity AI 的开源替代品
  • Reor: 私密和离线的 AI 个人知识管理应用。

👩🏽‍💻 开发助手

  • GitHub Copilot: 实时获取基于 AI 的建议。
  • Codeium: Codeium 提供最佳的 AI 代码补全、搜索和聊天服务 — 全部免费。它支持 70 多种语言,并与您喜爱的 IDEs 集成,具有闪电般的速度和最先进的建议质量。
  • Amazon CodeWhisperer: Amazon CodeWhisperer 是 IDE 和命令行的 AI 驱动生产力工具,根据注释和现有代码生成代码建议。
  • Transformer Debugger: Transformer Debugger (TDB) 是 OpenAI 的 Superalignment 团队开发的工具,旨在支持对小型语言模型的特定行为进行调查。该工具结合了自动可解释性技术和稀疏自动编码器。
  • CopilotKit: 用于构建自定义 AI Copilots 的框架 🤖 应用内 AI 聊天机器人、应用内 AI 代理和 AI 驱动的文本区域。
  • Codium: CodiumAI 的第一个工具是一个 IDE 扩展,能够与开发人员互动,为忙碌的开发人员生成有意义的测试和代码解释。
  • Tabby: 自托管的 AI 编码助手
  • CodeRabbit: CodeRabbit 是一个创新的 AI 代码审查平台,简化并增强了开发过程。
  • Cursor: AI 代码编辑器。
  • Melty: Melty 是第一个 AI 代码编辑器,能够从终端到 GitHub 了解您在做什么,并与您合作编写生产就绪的代码。

🧠 AI 代理

  • AgentGPT: 在您的浏览器中组装、配置和部署自治 AI 代理。
  • *Devin: 介绍 Devin,第一个 AI 软件工程师,并在 SWE-bench 编码基准上设定了新的最佳水平。
  • OpenDevin: 一个能够执行复杂工程任务并与用户积极合作进行软件开发项目的自治 AI 软件工程师。
  • Plandex: 一个用于复杂任务的 AI 编码引擎。
  • Devika: 一个 AI 软件工程师,能够理解高级人类指令,将其分解为步骤,研究相关信息,并编写代码以实现给定目标。
  • Aider: Aider 是您终端中的 AI 对编程。
  • Agent Protocol: 与代理通信的单一通用接口
  • Devon: 一个开源的对编程伙伴
  • PR-Agent: CodiumAI PR-Agent:一个用于自动化拉取请求分析、反馈、建议等的 AI 驱动工具 🤖
  • FinRobot: 一个开源的 AI 代理平台,用于使用 LLMs 进行金融应用
  • AgentQL: 使用查询语言构建 AI 代理,以实现精确的网络和应用自动化
  • Husky: 一个统一的开源语言代理,用于多步骤推理
  • Translation Agent: 使用反思工作流进行代理翻译
  • DigiRL: 使用自主强化训练野外设备控制代理

🤼 多智能体协作

  • MetaGPT: MetaGPT 以一行需求为输入,并输出用户故事 / 竞争分析 / 需求 / 数据结构 / API / 文档等。
  • ChatDev: ChatDev 的主要目标是提供一个易用、高度可定制和可扩展的框架,它基于大型语言模型 (LLMs) 并作为研究集体智能的理想场景。
  • TransAgents: 多智能体用于翻译超长文学文本

💻 终端

  • Warp: Warp 是一个工具,旨在通过提供 AI 驱动的命令查找帮助和允许用户以纯英语输入他们的目标来增强终端体验。
  • Gorilla: Gorilla CLI 以用户为中心,增强您的命令行交互体验。
  • CodeWhisperer Cli: CodeWhisperer 命行为数百个流行的 CLIs(如 Git、npm、Docker、MongoDB Atlas 和 AWS CLI)添加了 IDE 风格的补全。以前被称为 fig
  • Open Interpreter: 计算机的自然语言接口。

📰 网站

  • Dora: 轻松设计和发布令人惊叹的 3D 和动画网站,无需编码。
  • Design2Code: 我们离自动化前端工程有多远
  • Tempo: Tempo 直接在您的代码库中生成和编辑高质量的 react 代码,让您可以在几分钟内发布 UI。
  • OpenUI: OpenUI 让您使用您的想象力描述 UI,然后实时呈现。
  • v0: 使用简单的文本提示和图像从 shadcn/ui 生成 UI。

🗜️ 硬件

  • Groq: Groq 的使命是为 GenAI 推理速度设定标准,帮助实时 AI 应用今天就成为现实。
  • *LOOI Root: 将您的智能手机变成桌面机器人
  • Friend: 开源 AI 可穿戴设备,单次充电可持续 24 小时以上
  • insight: 一个树莓派闲置,构建了一个名为 insight 的 AI 可穿戴设备。
  • Limitless: 由您所见、所说和所听驱动的个性化 AI。
  • Frame AI glasses: 开源眼镜。
  • Rabbit R1: 您的口袋伴侣。
  • *Haptic Source-effector: 通过非侵入性脑刺激实现全身触觉
  • OpenGlass: 将任何眼镜变成 AI 驱动的智能眼镜
  • Octo: Octo 是一个基于变压器的机器人策略,训练在 80 万个机器人轨迹的多样化混合上。
  • HumanPlus: 从人类身上模仿和模仿人形机器人
  • LeRobot: LeRobot:用于现实世界机器人技术的端到端学习
  • Ray-Ban Meta Smart Glasses: Ray-Ban Meta 系列结合了最新的可穿戴技术和正宗的 Ray-Ban 设计,让您随时随地保持连接。
  • Solos AirGo Vision: 由 ChatGPT 驱动的音频智能眼镜

⌨️ 提示词工程

🤯 LLM 推理和服务

  • vLLM: 一个用于 LLMs 的高吞吐量和内存高效的推理和服务引擎。
  • Text Generation Inference: 大型语言模型文本生成推理
  • Ollama: 在本地使用大型语言模型。
  • LM Studio: 发现、下载和运行本地 LLMs。

💡生产力

  • Podwise: 是一款知识管理应用程序,使用 AI 从播客中提取关键信息,自动生成听众的转录、提纲、关键词和思维导图

📋 其他

  • Cradle: Cradle 框架是通用计算机控制 (GCC) 的首次尝试。Cradle 支持代理在一个标准化的通用环境中,以最少的要求,展现强大的推理能力、自我提升和技能管理,从而精通任何计算机任务。
  • LLMPerf: 一个用于评估 LLM API 性能的工具。还提供了相应的 排行榜
  • WebLINX: 使用多轮对话进行真实网站导航。
  • Latent Box: 一个关于 AI、创意和艺术的 awesome-lists 集合。
  • LLM Transparency Tool: LLM 透明度工具 (LLM-TT),一个用于分析基于 Transformer 的语言模型内部工作的开源交互式工具包。
  • LLM Visualization: 一个可视化和演练,展示了支持 OpenAI 的 ChatGPT 的 LLM 算法。探索算法的每一个加法和乘法,看到整个过程的实际操作。
  • HippoRAG: HippoRAG 是一个新颖的 RAG 框架,受人类长期记忆的启发,使 LLMs 能够跨外部文档连续整合知识。
  • Vanna: Vanna 是一个 MIT 许可的开源 Python RAG(检索增强生成)框架,用于 SQL 生成和相关功能。
  • Rewind: Rewind 是一个个性化的 AI,基于您所见、所说或所听的一切。你的同事会想知道你是如何做到这一切的。
  • Cursor: AI 代码编辑器。
  • Wordware: 一个网络托管的 IDE,非技术领域专家可以在其中与 AI 工程师合作构建特定任务的 AI 代理。它将提示视为一种新的编程语言,而不是低/无代码块。
  • Raycast: Raycast 是一个快速且完全可扩展的启动器。它让你完成任务、计算、共享常用链接,以及更多操作。
  • Gamma: 一个由 AI 驱动的呈现想法的新媒介。创建美观、吸引人的内容,无需任何格式化和设计工作。
  • Deep-tempest: 使用深度学习窃听 HDMI 的非预期电磁辐射
  • Great Tables: 使用 Python 制作出色的显示表。
  • ComfyUI: 最强大和模块化的扩散模型 GUI、api 和后端,具有图形/节点界面。
  • Gauth: 你的 AI 作业助手。