🚀 第九章 · 新兴技术架构
新兴技术架构
涵盖大数据技术栈(Hadoop/Spark/Flink)、Lambda与Kappa架构、物联网四层架构、边缘计算、人工智能(机器学习/深度学习/大模型)、AI工程化(MLOps/RAG)等新兴热点考点。本章在综合知识中占3-6分。
6知识小节
3-6分综合知识分值
★★★重要程度
10练习题
大数据架构
热门考点🏠大数据技术栈全景
Hadoop生态:HDFS(分布式文件存储)+ MapReduce(批处理计算)+ YARN(资源管理调度)。Hadoop 1.0(MapReduce+HDFS)vs 2.0(+YARN)
Spark:基于内存的分布式计算引擎,比MapReduce快10-100倍。支持Spark SQL、Spark Streaming、MLlib、GraphX
Flink:真正的流式计算框架。支持有状态计算、精确一次(Exactly-Once)语义、事件时间处理。适合实时数据处理
🗃数据存储与分析引擎
| 技术 | 类型 | 特点 | 适用场景 |
|---|---|---|---|
| Hive | 数据仓库(离线) | SQL转MapReduce,延迟高 | 离线批处理、ETL |
| ClickHouse | OLAP列式存储 | 列式存储,查询极快 | 实时分析、报表查询 |
| Doris | 实时OLAP | MPP架构,亚秒级响应 | 实时数据分析 |
| Delta Lake | 数据湖 | ACID事务、Schema管理 | 数据湖存储层 |
| Iceberg | 数据湖 | 多引擎支持(Spark/Flink) | 数据湖表格式 |
| Hudi | 数据湖 | Upsert/增量处理 | 数据管道、CDC |
📐数据仓库 vs 数据湖 vs 湖仓一体
| 对比维度 | 数据仓库 | 数据湖 | 湖仓一体 |
|---|---|---|---|
| 数据格式 | 结构化 | 原始格式(任意类型) | 任意类型+结构化访问 |
| Schema | 写入时定义(Schema-on-Write) | 读取时定义(Schema-on-Read) | 灵活定义 |
| 用户 | 数据分析师 | 数据科学家 | 全部角色 |
| 特点 | 高性能查询、治理成熟 | 灵活、成本低、易扩展 | 兼顾两者优势 |
考试要点:Hadoop三核心=HDFS+MapReduce+YARN。Spark是内存计算,比MapReduce快。Flink是真正的流计算(非微批)。数据仓库=结构化+Schema-on-Write,数据湖=原始数据+Schema-on-Read。湖仓一体(Lakehouse)结合两者优势。
Lambda与Kappa架构
架构对比λLambda架构(三层架构)
批处理层(Batch Layer):处理全量历史数据,使用Hadoop/MapReduce。生成批处理视图(Batch View)。优点:准确完整;缺点:延迟高(小时级)
速度层(Speed Layer):处理实时增量数据,使用Storm/Spark Streaming/Flink。生成实时视图(Real-time View)。优点:低延迟;缺点:近似计算
服务层(Serving Layer):合并批处理视图和实时视图,提供查询接口。如Druid、Elasticsearch
κKappa架构(一切皆流)
核心理念:去掉批处理层,所有数据都通过流处理管道处理
架构:消息队列(Kafka)作为数据存储 + 流处理引擎(Flink/Spark Streaming)处理
历史数据处理:需要重新计算时,将历史数据重新注入消息队列,用相同流处理逻辑处理
优点:架构简单、只维护一套代码、统一处理逻辑
缺点:对流处理引擎要求高、重新计算历史数据成本高
⚖Lambda vs Kappa对比
| 对比维度 | Lambda架构 | Kappa架构 |
|---|---|---|
| 架构层数 | 三层(批处理+速度+服务) | 两层(消息队列+流处理) |
| 代码维护 | 两套代码(批处理+流处理) | 一套代码(统一流处理) |
| 数据准确性 | 高(批处理层保证) | 依赖流处理引擎能力 |
| 延迟 | 批处理延迟高,速度层低延迟 | 全部低延迟 |
| 复杂度 | 高(三层+两套代码) | 低(统一架构) |
| 适用 | 对数据准确性要求极高的场景 | 实时性要求高的场景 |
考试要点:Lambda三层=批处理层(全量数据、高延迟、高准确)+速度层(增量数据、低延迟、近似)+服务层(合并查询)。Kappa架构去掉了批处理层,一切数据都走流处理,只需维护一套代码。Lambda两套代码,Kappa一套代码。
Lambda vs Kappa 架构对比
Lambda 架构(三层)
服务层 — 合并查询
速度层 — 实时增量
批处理层 — 全量历史
Kappa 架构(两层)
流处理层 — 统一处理
消息队列 — 数据存储
Lambda 两套代码|Kappa 一套代码
物联网架构
基础考点🏠物联网四层架构
感知层:数据采集。传感器、RFID、GPS、摄像头、执行器等物理设备。负责识别物体和采集信息
网络层:数据传输。WiFi、蓝牙、ZigBee、LoRa、NB-IoT、5G等通信技术。负责将感知层数据传输到平台层
平台层:数据处理与管理。设备管理、数据存储、规则引擎、数据分析。IoT Hub、设备影子
应用层:业务应用。智慧城市、工业4.0、智能家居、车联网、智慧农业等具体应用场景
📶物联网通信技术对比
| 技术 | 传输距离 | 功耗 | 带宽 | 典型应用 |
|---|---|---|---|---|
| WiFi | 短距离(~100m) | 高 | 高(Mbps级) | 智能家居、视频监控 |
| 蓝牙/BLE | 短距离(~10m) | 低(BLE) | 低(~1Mbps) | 可穿戴设备、近场通信 |
| ZigBee | 中短距离(~100m) | 低 | 低(250Kbps) | 智能家居、传感器网络 |
| LoRa | 远距离(~10km) | 极低 | 低(~50Kbps) | 农业监控、城市传感 |
| NB-IoT | 远距离(蜂窝覆盖) | 低 | 低(~250Kbps) | 智能水表、智慧停车 |
| 5G | 蜂窝覆盖 | 较高 | 极高(Gbps级) | 车联网、工业控制 |
📱5G三大应用场景
eMBB(增强移动宽带):高速率、大带宽。峰值速率10Gbps。适用:4K/8K视频、VR/AR
uRLLC(超可靠低延迟通信):低延迟(<1ms)、高可靠。适用:自动驾驶、远程手术、工业控制
mMTC(海量机器类通信):海量连接(每平方公里百万级设备)。适用:智慧城市、大规模传感器网络
考试要点:物联网四层=感知(采集)+网络(传输)+平台(处理)+应用(业务)。5G三大场景:eMBB(高带宽)、uRLLC(低延迟)、mMTC(海量连接)。LoRa远距离低功耗低带宽;NB-IoT基于蜂窝网络;5G高带宽高延迟要求。
物联网四层架构图
应用层 — 智慧城市 / 智能家居 / 车联网
平台层 — 数据存储 / 规则引擎 / 设备管理
网络层 — WiFi / 5G / LoRa / NB-IoT
感知层 — 传感器 / RFID / GPS / 摄像头
数据流:感知层 → 网络层 → 平台层 → 应用层
边缘计算
新兴热点📖边缘计算核心概念
定义:在靠近数据源(设备/传感器)的网络边缘侧进行计算、存储和分析,而非将所有数据上传到云端
核心优势:低延迟(本地处理)、节省带宽(只上传结果)、数据隐私(本地处理不上传)、离线可用
vs 云计算:云计算=集中处理、高延迟、大带宽;边缘计算=分布式处理、低延迟、节省带宽
vs 雾计算:雾计算是边缘计算的扩展,在边缘设备和云之间增加中间层(雾节点),形成多级计算架构
🔗边缘计算常用协议
| 协议 | 类型 | 特点 | 适用场景 |
|---|---|---|---|
| MQTT | 消息协议 | 轻量级、发布/订阅、基于TCP | 物联网设备通信 |
| CoAP | 应用协议 | 基于UDP、RESTful风格、极低开销 | 资源受限设备 |
| OPC UA | 工业协议 | 跨平台、安全、语义互操作 | 工业自动化、智能制造 |
🔮数字孪生(Digital Twin)
定义:物理实体在虚拟空间的数字化映射,实时反映物理实体的状态和行为
核心价值:实时监控、仿真预测、优化决策、故障预警
技术支撑:物联网(数据采集)、大数据(分析处理)、AI(智能决策)、3D建模(可视化)
应用场景:智能制造(产线仿真)、智慧城市(交通模拟)、航空航天(飞行器监控)
考试要点:边缘计算=靠近数据源的计算,核心优势是低延迟和省带宽。MQTT=发布/订阅+TCP;CoAP=RESTful+UDP+轻量;OPC UA=工业互操作。数字孪生=物理实体的虚拟映射。边缘vs云:边缘低延迟、云大算力。
人工智能
新增考点🧠机器学习类型
| 类型 | 数据特征 | 目标 | 典型算法 | 应用 |
|---|---|---|---|---|
| 监督学习 | 有标注数据(输入+输出) | 学习输入到输出的映射 | 线性回归、决策树、SVM、CNN | 分类、回归、识别 |
| 无监督学习 | 无标注数据(只有输入) | 发现数据内在结构 | K-Means、PCA、DBSCAN | 聚类、降维、异常检测 |
| 半监督学习 | 少量标注+大量无标注 | 利用无标注数据提升效果 | 自训练、协同训练 | 标注成本高的场景 |
| 强化学习 | 环境交互,奖励信号 | 学习最优策略(最大化累积奖励) | Q-Learning、Policy Gradient | 游戏、机器人、推荐 |
🔬深度学习模型类型
| 模型 | 全称 | 核心特点 | 典型应用 |
|---|---|---|---|
| CNN | 卷积神经网络 | 卷积核提取局部特征,池化降维 | 图像分类、目标检测、图像分割 |
| RNN/LSTM | 循环神经网络 | 处理序列数据,LSTM解决长依赖 | 文本生成、机器翻译、语音识别 |
| Transformer | 注意力机制 | 自注意力、并行计算、捕获全局依赖 | NLP(BERT/GPT)、多模态 |
| GNN | 图神经网络 | 处理图结构数据 | 社交网络、知识图谱、推荐 |
| GAN | 生成对抗网络 | 生成器+判别器对抗训练 | 图像生成、风格迁移 |
💬大语言模型(LLM)
架构基础:基于Transformer的Decoder-only架构(GPT系列)或Encoder-Decoder架构(T5)
训练过程:预训练(大规模语料自监督学习)→ 指令微调(SFT,有监督微调)→ 人类对齐(RLHF/DPO)
Prompt Engineering:设计提示词引导模型输出。技巧:Zero-shot/Few-shot、CoT(思维链)、角色扮演
AIGC:AI生成内容。文本生成(GPT)、图像生成(Stable Diffusion/DALL-E)、代码生成(Copilot)
考试要点:CNN处理图像(卷积提取特征),RNN/LSTM处理序列(时间/文本),Transformer处理全局依赖(注意力)。监督学习=有标注,无监督=无标注,强化学习=奖励驱动。大模型训练三阶段:预训练→微调→对齐。
AI工程化
前沿考点🔄MLOps(机器学习运维)
定义:将DevOps理念应用于机器学习项目,实现ML模型的自动化训练、部署、监控和更新
核心流程:数据采集 → 特征工程 → 模型训练 → 模型评估 → 模型部署 → 模型监控 → 模型更新(迭代循环)
关键实践:版本控制(数据/模型/代码)、CI/CD for ML、模型注册表、A/B测试、模型漂移检测
工具生态:MLflow(模型管理)、Kubeflow(K8s ML)、TensorFlow Extended(TFX)、SageMaker
📚RAG架构(检索增强生成)
定义:Retrieval-Augmented Generation。将外部知识检索与大模型生成结合,而非重新训练模型
工作流程:用户提问 → 向量检索(从知识库找相关文档) → 将检索结果+问题组合为Prompt → 大模型生成回答
核心优势:无需重新训练模型、知识可实时更新、减少幻觉(Hallucination)、数据隐私可控
核心组件:文档切分 → 向量化(Embedding) → 向量数据库 → 检索器 → 大模型生成
🚀模型部署方式
在线推理:模型部署为API服务,实时响应请求。适合交互式应用
批量推理:离线批量处理数据。适合定期报表、批量预测
边缘推理:模型部署到边缘设备(手机/IoT),本地推理。适合低延迟/离线场景
模型优化:量化(降低精度)、剪枝(去除冗余参数)、知识蒸馏(大模型教小模型)、ONNX转换
考试要点:RAG = 检索 + 生成,不是重新训练模型。核心是用外部知识库增强大模型,减少幻觉。MLOps将DevOps理念用于ML生命周期。模型部署分在线、批量、边缘三种方式。大模型幻觉是指模型生成不准确但看似合理的内容。
章节练习
10题📝 第九章 · 新兴技术架构练习题
0 / 10