第九章新兴技术架构 · 软考高级-系统架构设计师

📊

大数据架构

热门考点

🏠大数据技术栈全景

Hadoop生态：HDFS（分布式文件存储）+ MapReduce（批处理计算）+ YARN（资源管理调度）。Hadoop 1.0（MapReduce+HDFS）vs 2.0（+YARN）

Spark：基于内存的分布式计算引擎，比MapReduce快10-100倍。支持Spark SQL、Spark Streaming、MLlib、GraphX

Flink：真正的流式计算框架。支持有状态计算、精确一次（Exactly-Once）语义、事件时间处理。适合实时数据处理

🗃数据存储与分析引擎

技术	类型	特点	适用场景
Hive	数据仓库（离线）	SQL转MapReduce，延迟高	离线批处理、ETL
ClickHouse	OLAP列式存储	列式存储，查询极快	实时分析、报表查询
Doris	实时OLAP	MPP架构，亚秒级响应	实时数据分析
Delta Lake	数据湖	ACID事务、Schema管理	数据湖存储层
Iceberg	数据湖	多引擎支持（Spark/Flink）	数据湖表格式
Hudi	数据湖	Upsert/增量处理	数据管道、CDC

📐数据仓库 vs 数据湖 vs 湖仓一体

对比维度	数据仓库	数据湖	湖仓一体
数据格式	结构化	原始格式（任意类型）	任意类型+结构化访问
Schema	写入时定义（Schema-on-Write）	读取时定义（Schema-on-Read）	灵活定义
用户	数据分析师	数据科学家	全部角色
特点	高性能查询、治理成熟	灵活、成本低、易扩展	兼顾两者优势

🎯

考试要点：Hadoop三核心=HDFS+MapReduce+YARN。Spark是内存计算，比MapReduce快。Flink是真正的流计算（非微批）。数据仓库=结构化+Schema-on-Write，数据湖=原始数据+Schema-on-Read。湖仓一体（Lakehouse）结合两者优势。

🔄

Lambda与Kappa架构

架构对比

λLambda架构（三层架构）

批处理层（Batch Layer）：处理全量历史数据，使用Hadoop/MapReduce。生成批处理视图（Batch View）。优点：准确完整；缺点：延迟高（小时级）

速度层（Speed Layer）：处理实时增量数据，使用Storm/Spark Streaming/Flink。生成实时视图（Real-time View）。优点：低延迟；缺点：近似计算

服务层（Serving Layer）：合并批处理视图和实时视图，提供查询接口。如Druid、Elasticsearch

κKappa架构（一切皆流）

核心理念：去掉批处理层，所有数据都通过流处理管道处理

架构：消息队列（Kafka）作为数据存储 + 流处理引擎（Flink/Spark Streaming）处理

历史数据处理：需要重新计算时，将历史数据重新注入消息队列，用相同流处理逻辑处理

优点：架构简单、只维护一套代码、统一处理逻辑

缺点：对流处理引擎要求高、重新计算历史数据成本高

⚖Lambda vs Kappa对比

对比维度	Lambda架构	Kappa架构
架构层数	三层（批处理+速度+服务）	两层（消息队列+流处理）
代码维护	两套代码（批处理+流处理）	一套代码（统一流处理）
数据准确性	高（批处理层保证）	依赖流处理引擎能力
延迟	批处理延迟高，速度层低延迟	全部低延迟
复杂度	高（三层+两套代码）	低（统一架构）
适用	对数据准确性要求极高的场景	实时性要求高的场景

🎯

考试要点：Lambda三层=批处理层（全量数据、高延迟、高准确）+速度层（增量数据、低延迟、近似）+服务层（合并查询）。Kappa架构去掉了批处理层，一切数据都走流处理，只需维护一套代码。Lambda两套代码，Kappa一套代码。

Lambda vs Kappa 架构对比

Lambda 架构（三层）

服务层 — 合并查询
速度层 — 实时增量
批处理层 — 全量历史

Kappa 架构（两层）

流处理层 — 统一处理

消息队列 — 数据存储

Lambda 两套代码｜Kappa 一套代码

📡

物联网架构

基础考点

🏠物联网四层架构

感知层：数据采集。传感器、RFID、GPS、摄像头、执行器等物理设备。负责识别物体和采集信息

网络层：数据传输。WiFi、蓝牙、ZigBee、LoRa、NB-IoT、5G等通信技术。负责将感知层数据传输到平台层

平台层：数据处理与管理。设备管理、数据存储、规则引擎、数据分析。IoT Hub、设备影子

应用层：业务应用。智慧城市、工业4.0、智能家居、车联网、智慧农业等具体应用场景

📶物联网通信技术对比

技术	传输距离	功耗	带宽	典型应用
WiFi	短距离（~100m）	高	高（Mbps级）	智能家居、视频监控
蓝牙/BLE	短距离（~10m）	低（BLE）	低（~1Mbps）	可穿戴设备、近场通信
ZigBee	中短距离（~100m）	低	低（250Kbps）	智能家居、传感器网络
LoRa	远距离（~10km）	极低	低（~50Kbps）	农业监控、城市传感
NB-IoT	远距离（蜂窝覆盖）	低	低（~250Kbps）	智能水表、智慧停车
5G	蜂窝覆盖	较高	极高（Gbps级）	车联网、工业控制

📱5G三大应用场景

eMBB（增强移动宽带）：高速率、大带宽。峰值速率10Gbps。适用：4K/8K视频、VR/AR

uRLLC（超可靠低延迟通信）：低延迟（<1ms）、高可靠。适用：自动驾驶、远程手术、工业控制

mMTC（海量机器类通信）：海量连接（每平方公里百万级设备）。适用：智慧城市、大规模传感器网络

🎯

考试要点：物联网四层=感知（采集）+网络（传输）+平台（处理）+应用（业务）。5G三大场景：eMBB（高带宽）、uRLLC（低延迟）、mMTC（海量连接）。LoRa远距离低功耗低带宽；NB-IoT基于蜂窝网络；5G高带宽高延迟要求。

物联网四层架构图

应用层 — 智慧城市 / 智能家居 / 车联网
平台层 — 数据存储 / 规则引擎 / 设备管理
网络层 — WiFi / 5G / LoRa / NB-IoT
感知层 — 传感器 / RFID / GPS / 摄像头

数据流：感知层 → 网络层 → 平台层 → 应用层

⚡

边缘计算

新兴热点

📖边缘计算核心概念

定义：在靠近数据源（设备/传感器）的网络边缘侧进行计算、存储和分析，而非将所有数据上传到云端

核心优势：低延迟（本地处理）、节省带宽（只上传结果）、数据隐私（本地处理不上传）、离线可用

vs 云计算：云计算=集中处理、高延迟、大带宽；边缘计算=分布式处理、低延迟、节省带宽

vs 雾计算：雾计算是边缘计算的扩展，在边缘设备和云之间增加中间层（雾节点），形成多级计算架构

🔗边缘计算常用协议

协议	类型	特点	适用场景
MQTT	消息协议	轻量级、发布/订阅、基于TCP	物联网设备通信
CoAP	应用协议	基于UDP、RESTful风格、极低开销	资源受限设备
OPC UA	工业协议	跨平台、安全、语义互操作	工业自动化、智能制造

🔮数字孪生（Digital Twin）

定义：物理实体在虚拟空间的数字化映射，实时反映物理实体的状态和行为

核心价值：实时监控、仿真预测、优化决策、故障预警

技术支撑：物联网（数据采集）、大数据（分析处理）、AI（智能决策）、3D建模（可视化）

应用场景：智能制造（产线仿真）、智慧城市（交通模拟）、航空航天（飞行器监控）

🎯

考试要点：边缘计算=靠近数据源的计算，核心优势是低延迟和省带宽。MQTT=发布/订阅+TCP；CoAP=RESTful+UDP+轻量；OPC UA=工业互操作。数字孪生=物理实体的虚拟映射。边缘vs云：边缘低延迟、云大算力。

🤖

人工智能

新增考点

🧠机器学习类型

类型	数据特征	目标	典型算法	应用
监督学习	有标注数据（输入+输出）	学习输入到输出的映射	线性回归、决策树、SVM、CNN	分类、回归、识别
无监督学习	无标注数据（只有输入）	发现数据内在结构	K-Means、PCA、DBSCAN	聚类、降维、异常检测
半监督学习	少量标注+大量无标注	利用无标注数据提升效果	自训练、协同训练	标注成本高的场景
强化学习	环境交互，奖励信号	学习最优策略（最大化累积奖励）	Q-Learning、Policy Gradient	游戏、机器人、推荐

🔬深度学习模型类型

模型	全称	核心特点	典型应用
CNN	卷积神经网络	卷积核提取局部特征，池化降维	图像分类、目标检测、图像分割
RNN/LSTM	循环神经网络	处理序列数据，LSTM解决长依赖	文本生成、机器翻译、语音识别
Transformer	注意力机制	自注意力、并行计算、捕获全局依赖	NLP（BERT/GPT）、多模态
GNN	图神经网络	处理图结构数据	社交网络、知识图谱、推荐
GAN	生成对抗网络	生成器+判别器对抗训练	图像生成、风格迁移

💬大语言模型（LLM）

架构基础：基于Transformer的Decoder-only架构（GPT系列）或Encoder-Decoder架构（T5）

训练过程：预训练（大规模语料自监督学习）→ 指令微调（SFT，有监督微调）→ 人类对齐（RLHF/DPO）

Prompt Engineering：设计提示词引导模型输出。技巧：Zero-shot/Few-shot、CoT（思维链）、角色扮演

AIGC：AI生成内容。文本生成（GPT）、图像生成（Stable Diffusion/DALL-E）、代码生成（Copilot）

🎯

考试要点：CNN处理图像（卷积提取特征），RNN/LSTM处理序列（时间/文本），Transformer处理全局依赖（注意力）。监督学习=有标注，无监督=无标注，强化学习=奖励驱动。大模型训练三阶段：预训练→微调→对齐。

🔧

AI工程化

前沿考点

🔄MLOps（机器学习运维）

定义：将DevOps理念应用于机器学习项目，实现ML模型的自动化训练、部署、监控和更新

核心流程：数据采集 → 特征工程 → 模型训练 → 模型评估 → 模型部署 → 模型监控 → 模型更新（迭代循环）

关键实践：版本控制（数据/模型/代码）、CI/CD for ML、模型注册表、A/B测试、模型漂移检测

工具生态：MLflow（模型管理）、Kubeflow（K8s ML）、TensorFlow Extended（TFX）、SageMaker

📚RAG架构（检索增强生成）

定义：Retrieval-Augmented Generation。将外部知识检索与大模型生成结合，而非重新训练模型

工作流程：用户提问 → 向量检索（从知识库找相关文档） → 将检索结果+问题组合为Prompt → 大模型生成回答

核心优势：无需重新训练模型、知识可实时更新、减少幻觉（Hallucination）、数据隐私可控

核心组件：文档切分 → 向量化（Embedding） → 向量数据库 → 检索器 → 大模型生成

🚀模型部署方式

在线推理：模型部署为API服务，实时响应请求。适合交互式应用

批量推理：离线批量处理数据。适合定期报表、批量预测

边缘推理：模型部署到边缘设备（手机/IoT），本地推理。适合低延迟/离线场景

模型优化：量化（降低精度）、剪枝（去除冗余参数）、知识蒸馏（大模型教小模型）、ONNX转换

🎯

考试要点：RAG = 检索 + 生成，不是重新训练模型。核心是用外部知识库增强大模型，减少幻觉。MLOps将DevOps理念用于ML生命周期。模型部署分在线、批量、边缘三种方式。大模型幻觉是指模型生成不准确但看似合理的内容。

📝

章节练习

10题

📝 第九章 · 新兴技术架构练习题

0 / 10