🚀 第九章 · 新兴技术架构

新兴技术架构

涵盖大数据技术栈(Hadoop/Spark/Flink)、Lambda与Kappa架构、物联网四层架构、边缘计算、人工智能(机器学习/深度学习/大模型)、AI工程化(MLOps/RAG)等新兴热点考点。本章在综合知识中占3-6分。

6知识小节
3-6分综合知识分值
★★★重要程度
10练习题
📊

大数据架构

🏠大数据技术栈全景

Hadoop生态:HDFS(分布式文件存储)+ MapReduce(批处理计算)+ YARN(资源管理调度)。Hadoop 1.0(MapReduce+HDFS)vs 2.0(+YARN)
Spark:基于内存的分布式计算引擎,比MapReduce快10-100倍。支持Spark SQL、Spark Streaming、MLlib、GraphX
Flink:真正的流式计算框架。支持有状态计算、精确一次(Exactly-Once)语义、事件时间处理。适合实时数据处理

🗃数据存储与分析引擎

技术类型特点适用场景
Hive数据仓库(离线)SQL转MapReduce,延迟高离线批处理、ETL
ClickHouseOLAP列式存储列式存储,查询极快实时分析、报表查询
Doris实时OLAPMPP架构,亚秒级响应实时数据分析
Delta Lake数据湖ACID事务、Schema管理数据湖存储层
Iceberg数据湖多引擎支持(Spark/Flink)数据湖表格式
Hudi数据湖Upsert/增量处理数据管道、CDC

📐数据仓库 vs 数据湖 vs 湖仓一体

对比维度数据仓库数据湖湖仓一体
数据格式结构化原始格式(任意类型)任意类型+结构化访问
Schema写入时定义(Schema-on-Write)读取时定义(Schema-on-Read)灵活定义
用户数据分析师数据科学家全部角色
特点高性能查询、治理成熟灵活、成本低、易扩展兼顾两者优势
🎯
考试要点:Hadoop三核心=HDFS+MapReduce+YARN。Spark是内存计算,比MapReduce快。Flink是真正的流计算(非微批)。数据仓库=结构化+Schema-on-Write,数据湖=原始数据+Schema-on-Read。湖仓一体(Lakehouse)结合两者优势。
🔄

Lambda与Kappa架构

λLambda架构(三层架构)

批处理层(Batch Layer):处理全量历史数据,使用Hadoop/MapReduce。生成批处理视图(Batch View)。优点:准确完整;缺点:延迟高(小时级)
速度层(Speed Layer):处理实时增量数据,使用Storm/Spark Streaming/Flink。生成实时视图(Real-time View)。优点:低延迟;缺点:近似计算
服务层(Serving Layer):合并批处理视图和实时视图,提供查询接口。如Druid、Elasticsearch

κKappa架构(一切皆流)

核心理念:去掉批处理层,所有数据都通过流处理管道处理
架构:消息队列(Kafka)作为数据存储 + 流处理引擎(Flink/Spark Streaming)处理
历史数据处理:需要重新计算时,将历史数据重新注入消息队列,用相同流处理逻辑处理
优点:架构简单、只维护一套代码、统一处理逻辑
缺点:对流处理引擎要求高、重新计算历史数据成本高

Lambda vs Kappa对比

对比维度Lambda架构Kappa架构
架构层数三层(批处理+速度+服务)两层(消息队列+流处理)
代码维护两套代码(批处理+流处理)一套代码(统一流处理)
数据准确性高(批处理层保证)依赖流处理引擎能力
延迟批处理延迟高,速度层低延迟全部低延迟
复杂度高(三层+两套代码)低(统一架构)
适用对数据准确性要求极高的场景实时性要求高的场景
🎯
考试要点:Lambda三层=批处理层(全量数据、高延迟、高准确)+速度层(增量数据、低延迟、近似)+服务层(合并查询)。Kappa架构去掉了批处理层,一切数据都走流处理,只需维护一套代码。Lambda两套代码,Kappa一套代码。
Lambda vs Kappa 架构对比
Lambda 架构(三层)
服务层 — 合并查询
速度层 — 实时增量
批处理层 — 全量历史
Kappa 架构(两层)
流处理层 — 统一处理
消息队列 — 数据存储
Lambda 两套代码|Kappa 一套代码
📡

物联网架构

🏠物联网四层架构

感知层:数据采集。传感器、RFID、GPS、摄像头、执行器等物理设备。负责识别物体和采集信息
网络层:数据传输。WiFi、蓝牙、ZigBee、LoRa、NB-IoT、5G等通信技术。负责将感知层数据传输到平台层
平台层:数据处理与管理。设备管理、数据存储、规则引擎、数据分析。IoT Hub、设备影子
应用层:业务应用。智慧城市、工业4.0、智能家居、车联网、智慧农业等具体应用场景

📶物联网通信技术对比

技术传输距离功耗带宽典型应用
WiFi短距离(~100m)高(Mbps级)智能家居、视频监控
蓝牙/BLE短距离(~10m)低(BLE)低(~1Mbps)可穿戴设备、近场通信
ZigBee中短距离(~100m)低(250Kbps)智能家居、传感器网络
LoRa远距离(~10km)极低低(~50Kbps)农业监控、城市传感
NB-IoT远距离(蜂窝覆盖)低(~250Kbps)智能水表、智慧停车
5G蜂窝覆盖较高极高(Gbps级)车联网、工业控制

📱5G三大应用场景

eMBB(增强移动宽带):高速率、大带宽。峰值速率10Gbps。适用:4K/8K视频、VR/AR
uRLLC(超可靠低延迟通信):低延迟(<1ms)、高可靠。适用:自动驾驶、远程手术、工业控制
mMTC(海量机器类通信):海量连接(每平方公里百万级设备)。适用:智慧城市、大规模传感器网络
🎯
考试要点:物联网四层=感知(采集)+网络(传输)+平台(处理)+应用(业务)。5G三大场景:eMBB(高带宽)、uRLLC(低延迟)、mMTC(海量连接)。LoRa远距离低功耗低带宽;NB-IoT基于蜂窝网络;5G高带宽高延迟要求。
物联网四层架构图
应用层 — 智慧城市 / 智能家居 / 车联网
平台层 — 数据存储 / 规则引擎 / 设备管理
网络层 — WiFi / 5G / LoRa / NB-IoT
感知层 — 传感器 / RFID / GPS / 摄像头
数据流:感知层 → 网络层 → 平台层 → 应用层

边缘计算

📖边缘计算核心概念

定义:在靠近数据源(设备/传感器)的网络边缘侧进行计算、存储和分析,而非将所有数据上传到云端
核心优势:低延迟(本地处理)、节省带宽(只上传结果)、数据隐私(本地处理不上传)、离线可用
vs 云计算:云计算=集中处理、高延迟、大带宽;边缘计算=分布式处理、低延迟、节省带宽
vs 雾计算:雾计算是边缘计算的扩展,在边缘设备和云之间增加中间层(雾节点),形成多级计算架构

🔗边缘计算常用协议

协议类型特点适用场景
MQTT消息协议轻量级、发布/订阅、基于TCP物联网设备通信
CoAP应用协议基于UDP、RESTful风格、极低开销资源受限设备
OPC UA工业协议跨平台、安全、语义互操作工业自动化、智能制造

🔮数字孪生(Digital Twin)

定义:物理实体在虚拟空间的数字化映射,实时反映物理实体的状态和行为
核心价值:实时监控、仿真预测、优化决策、故障预警
技术支撑:物联网(数据采集)、大数据(分析处理)、AI(智能决策)、3D建模(可视化)
应用场景:智能制造(产线仿真)、智慧城市(交通模拟)、航空航天(飞行器监控)
🎯
考试要点:边缘计算=靠近数据源的计算,核心优势是低延迟和省带宽。MQTT=发布/订阅+TCP;CoAP=RESTful+UDP+轻量;OPC UA=工业互操作。数字孪生=物理实体的虚拟映射。边缘vs云:边缘低延迟、云大算力。
🤖

人工智能

🧠机器学习类型

类型数据特征目标典型算法应用
监督学习有标注数据(输入+输出)学习输入到输出的映射线性回归、决策树、SVM、CNN分类、回归、识别
无监督学习无标注数据(只有输入)发现数据内在结构K-Means、PCA、DBSCAN聚类、降维、异常检测
半监督学习少量标注+大量无标注利用无标注数据提升效果自训练、协同训练标注成本高的场景
强化学习环境交互,奖励信号学习最优策略(最大化累积奖励)Q-Learning、Policy Gradient游戏、机器人、推荐

🔬深度学习模型类型

模型全称核心特点典型应用
CNN卷积神经网络卷积核提取局部特征,池化降维图像分类、目标检测、图像分割
RNN/LSTM循环神经网络处理序列数据,LSTM解决长依赖文本生成、机器翻译、语音识别
Transformer注意力机制自注意力、并行计算、捕获全局依赖NLP(BERT/GPT)、多模态
GNN图神经网络处理图结构数据社交网络、知识图谱、推荐
GAN生成对抗网络生成器+判别器对抗训练图像生成、风格迁移

💬大语言模型(LLM)

架构基础:基于Transformer的Decoder-only架构(GPT系列)或Encoder-Decoder架构(T5)
训练过程:预训练(大规模语料自监督学习)→ 指令微调(SFT,有监督微调)→ 人类对齐(RLHF/DPO)
Prompt Engineering:设计提示词引导模型输出。技巧:Zero-shot/Few-shot、CoT(思维链)、角色扮演
AIGC:AI生成内容。文本生成(GPT)、图像生成(Stable Diffusion/DALL-E)、代码生成(Copilot)
🎯
考试要点:CNN处理图像(卷积提取特征),RNN/LSTM处理序列(时间/文本),Transformer处理全局依赖(注意力)。监督学习=有标注,无监督=无标注,强化学习=奖励驱动。大模型训练三阶段:预训练→微调→对齐。
🔧

AI工程化

🔄MLOps(机器学习运维)

定义:将DevOps理念应用于机器学习项目,实现ML模型的自动化训练、部署、监控和更新
核心流程:数据采集 → 特征工程 → 模型训练 → 模型评估 → 模型部署 → 模型监控 → 模型更新(迭代循环)
关键实践:版本控制(数据/模型/代码)、CI/CD for ML、模型注册表、A/B测试、模型漂移检测
工具生态:MLflow(模型管理)、Kubeflow(K8s ML)、TensorFlow Extended(TFX)、SageMaker

📚RAG架构(检索增强生成)

定义:Retrieval-Augmented Generation。将外部知识检索与大模型生成结合,而非重新训练模型
工作流程:用户提问 → 向量检索(从知识库找相关文档) → 将检索结果+问题组合为Prompt → 大模型生成回答
核心优势:无需重新训练模型、知识可实时更新、减少幻觉(Hallucination)、数据隐私可控
核心组件:文档切分 → 向量化(Embedding) → 向量数据库 → 检索器 → 大模型生成

🚀模型部署方式

在线推理:模型部署为API服务,实时响应请求。适合交互式应用
批量推理:离线批量处理数据。适合定期报表、批量预测
边缘推理:模型部署到边缘设备(手机/IoT),本地推理。适合低延迟/离线场景
模型优化:量化(降低精度)、剪枝(去除冗余参数)、知识蒸馏(大模型教小模型)、ONNX转换
🎯
考试要点:RAG = 检索 + 生成,不是重新训练模型。核心是用外部知识库增强大模型,减少幻觉。MLOps将DevOps理念用于ML生命周期。模型部署分在线、批量、边缘三种方式。大模型幻觉是指模型生成不准确但看似合理的内容。
📝

章节练习

📝 第九章 · 新兴技术架构练习题

0 / 10