
前言
写作背景
2022年11月,OpenAI发布了一款通用大模型ChatGPT。ChatGPT不仅能够回答用户问题、生成文本,还能够完成文章摘要、多语言翻译等任务。2023年3月,OpenAI的首席执行官山姆·奥尔特曼(Sam Altman)宣布了他们的最新人工智能系统——GPT-4。GPT-4支持多模态,在各方面的表现都有显著的提升,GPT-4的发布让大模型的热度达到了新的高峰。在首届开发者大会上,OpenAI首次公开了AI Agent相关功能,让用户可以自己构建GPT。OpenAI还开放了许多新的API(包括视觉API、图像DALL-E 3、语音API等),让开发者可以更方便地构建自己专属的GPT。
2023年3月,百度发布了文心一言大模型,打响了国内大模型市场的“第一枪”。2023年4月,阿里云发布了通义千问大模型。2023年7月,华为发布了盘古大模型3.0……国内大模型呈现百花齐放的状态。2023年10月,百度发布了文心一言4.0大模型,并开启了付费模式,成为国内第一家面向C端的付费大模型。
在这个大模型火爆全球、快速发展的今天,我们有必要系统地梳理大模型的知识结构,拨开大模型的层层面纱,帮助读者构建大模型的技术框架。本书将从模型结构、训练优化、推理优化、应用场景等方面,全方位解读大模型。本书介绍的大模型主要基于GPT结构,如清华大学的GLM、Meta公司的Llama等。本书还将介绍业界提出的稀疏Transformer、混合精度训练、并行训练等各种优化技术,这些技术显著提升了大模型的训练速度。
2022年7月,一款名为Midjourney的AI绘画工具的公测将AIGC的热度推向新高峰。AIGC和大模型的强强联合,使得大模型的应用越来越广泛。GPT-4、文心一言、讯飞星火等大模型都选择了和AIGC结合,不仅能生成文字,还能生成各种新奇的图像。Stable Diffusion作为文生图的主流模型,越来越受到业界的关注,基于Stable Diffusion的应用也越来越广泛。本书将对Stable Diffusion模型进行介绍。