AI 学习路上的总结
引言
在当下的发展趋势非常火热,可以说是“百花齐放”,从大模型的崛起,到各类垂直领域的应用落地,AI 技术正以前所未有的速度改变着各行各业。作为一名程序员,我对新技术始终保持着高度的热情,同时也意识到,随着 AI 与软件开发的深度融合,掌握一定的 AI 知识已经成为未来发展的必然趋势。一个多月前,我正式开始系统性地探索 AI 领域。其实在此之前,我也曾断断续续接触过一些 AI 相关的知识和技术,但大多停留在概念层面,比如了解什么是机器学习、神经网络。真正深入学习之后,我才意识到,AI 不仅仅是算法和模型,它背后涉及数学、工程、数据等多个维度的知识体系。
知识总结与划分:
市面上的主流模型:
国外主流 AI 模型
- GPT 系列(OpenAI)
- 版本:GPT-3、GPT-3.5、GPT-4、GPT-4 Turbo
- 特点:高质量文本生成、对话理解;GPT-4 支持图像输入。
- Claude(Anthropic)
- 版本:Claude 3、Claude Instant
- 特点:减少幻觉风险、高效推理、私有化部署支持。
- Llama 系列(Meta)
- 版本:Llama 3、Llama2、Llama-Instruction
- 特点:完全开源、多语言支持、轻量化部署。
- Gemini(Google)
- 版本:Gemini Pro、Gemini Enterprise、Gemini Vision
- 特点:多模态统一模型处理文本、图像、代码协同;效率优化。
- Stable Diffusion(Stability AI)
- 版本:v2、v3、xl
- 特点:高质量文本到图像生成、开源生态。
国内主流 AI 模型
- 通义千问(阿里云)
- 特点:多语言支持、代码生成能力、多模态能力(如图像生成、语音处理)、部分开源。
- 文心一言(百度)
- 特点:结合百度搜索数据的知识覆盖广、支持多轮对话和复杂指令、行业定制化。
- 混元(腾讯)
- 特点:多模态统一架构处理文本、图像、音频;工业级应用。
- 讯飞星火(科大讯飞)
- 特点:语音技术优势、教育场景优化、开放平台 API 接口。
- 智谱清言
- 特点:基于 GLM-4 模型,多模态生成能力强,推出自主智能体 AutoGLM 沉思。
基础知识:
目前的主流 AI 结构 Transformers(了解基本原理就好了想彻底读懂有点困难)
推荐学习网站:https://transformers.run/
提示词 Prompts(重要,可以影响 AI 的回答质量)
RAG(重要,可以降低 AI 的幻觉,扩充 AI 的知识能力)
推荐文章:https://waytoagi.feishu.cn/wiki/S0Zww5IHziMrWykIOuTcLt44nah
MCP
推荐文章:https://waytoagi.feishu.cn/wiki/EHOjwN37KiRzXak4xm6cqfBCnYC
国内模型供应商平台:
LLM 模型应用开发工具:
Ollama(模型运行)
Ollama 是一个开源工具,专门用于简化大型语言模型(如 LLaMA 2、Mistral 和 Gemma)在本地计算机上的运行、部署和交互过程。它为开发者和研究者提供了一个便捷的环境,以便于进行本地实验和开发基于 AI 的应用程序,确保数据隐私并减少延迟。
LangChain(使用代码进行流程编排)
LangChain 是一款开源框架,专为基于大语言模型(LLM)的应用程序开发而设计。通过模块化设计与标准化流程,它使得开发者能够高效地创建复杂的 LLM 工作流。利用代码进行流程编排,LangChain 支持从简单的文本生成任务到复杂的数据处理和决策制定等高级应用场景。
LlamaIndex(使用代码进行 RAG 数据管理)
LlamaIndex 是一个专为大语言模型(LLMs)设计的数据框架,它使这些模型能够连接到外部数据源,并从中检索信息。通过高效的索引和查询机制,LlamaIndex 能够增强模型的响应能力,尤其适用于需要实时访问私有或领域特定数据的检索增强生成(RAG)场景。
Dify(可视化流程编排)
Dify 是一个专注于大语言模型(LLM)集成与部署的平台,旨在让非技术人员也能轻松运用先进的 AI 技术。该平台提供了直观的用户界面,支持可视化流程编排,使得构建智能客服系统、知识问答系统等应用变得简单快捷。
Coze(可视化流程编排)
Coze 是一个集成了 AI 应用开发和发布的平台,不仅作为 AI App 的集成开发环境(IDE),还充当了 AI 应用商店的角色。借助其强大的可视化流程编排功能,用户可以快速创建、测试并发布自己的 AI 应用。功能上和 Dify 类似但是只能使用 Coze 自带的模型灵活度不如 dify。
官网地址:
国际版本 (可以使用的模型较多)
国内版本(收费低)
Ragflow(Rag 知识库)
Ragflow 是一个开源引擎,专注于实现检索增强生成(RAG)。这个引擎允许开发者将最新的 RAG 技术整合到他们的 AI 解决方案中,以提升模型输出的相关性和准确性,尤其是在需要引用具体数据或文献的情况下。
目前我个人使用较多的是 Dify,我个人觉得对比其他的流程编排 Dify 在上手难度和灵活性上都是折中的选择只用关心流程的编排又不用写代码,还支持多种扩展插件(没有的插件也可以通过自己手写)、同时还内置了 RAG 知识库。