特定应用领域术语

1. 自然语言处理(NLP)中的命名实体识别(NER)是做什么的?

定义: 从文本中识别并分类具有特定意义的实体。

实体类型:

类型	缩写	示例
人名	PER	张三、马云
地名	LOC	北京、长江
组织	ORG	阿里巴巴、清华大学
时间	TIME	2024年、下周一
金额	MONEY	100万美元

示例:

输入: "马云在杭州创立了阿里巴巴"
输出: [马云/PER] 在 [杭州/LOC] 创立了 [阿里巴巴/ORG]

应用场景:

信息抽取
知识图谱构建
问答系统
智能客服

技术演进: 规则 → CRF → BiLSTM-CRF → BERT-based

2. 词性标注(POS Tagging)如何帮助AI理解句子结构?

定义: 为每个词标注其语法类别(词性)。

常见词性标签:

标签	词性	示例
NN	名词	猫、书
VB	动词	跑、吃
JJ	形容词	大、漂亮
RB	副词	很、非常
IN	介词	在、从

示例:

"小猫在桌子上睡觉"
→ 小猫/NN 在/IN 桌子/NN 上/IN 睡觉/VB

帮助理解句子结构:

消歧: "花/NN"(名词)vs"花/VB"(动词:花费)
句法分析基础: 确定主谓宾结构
下游任务: 信息抽取、机器翻译的基础

3. 语义分割(Semantic Segmentation)在计算机视觉中如何工作?

定义: 为图像中的每个像素分配一个类别标签。

与其他任务的区别:

任务	粒度	输出
图像分类	整图	单一类别
目标检测	物体框	边界框+类别
语义分割	像素级	每个像素的类别
实例分割	像素级	每个像素的类别+实例ID

工作流程:

输入图像 → 编码器(提取特征) → 解码器(恢复分辨率) → 像素级分类

典型架构: FCN, U-Net, DeepLab, SegFormer

应用: 自动驾驶(道路/车辆/行人)、医学影像(器官/病灶)、遥感图像

4. 目标检测(Object Detection)与图像分类(Image Classification)有何不同?

核心区别:

维度	图像分类	目标检测
问题	图像是什么?	图像中有什么、在哪里?
输出	类别标签	边界框+类别+置信度
数量	单标签或多标签	多个目标
定位	无	有

目标检测输出示例:

[
  {box: [x1,y1,x2,y2], class: "猫", confidence: 0.95},
  {box: [x3,y3,x4,y4], class: "狗", confidence: 0.87}
]

主流方法:

两阶段: R-CNN系列 (先提议区域,再分类)
单阶段: YOLO, SSD (直接预测框和类别)

评估指标: mAP (mean Average Precision), IoU (交并比)

5. 什么是文本摘要(Text Summarization),抽取式和生成式方法各有什么优劣?

定义: 将长文本压缩为保留核心信息的短文本。

两种方法对比:

方面	抽取式	生成式
原理	选择原文中的关键句子	生成新的概括性文本
保真度	高,原文句子	可能引入错误
流畅度	可能不连贯	更自然流畅
压缩率	有限	可高度压缩
技术难度	较低	较高

抽取式方法: TextRank, LexRank, BERT-based选择器

生成式方法: Seq2Seq, Transformer, GPT/T5

实际应用: 新闻摘要、会议纪要、论文摘要、邮件概述

6. 情感分析(Sentiment Analysis)如何判断文本的情感倾向?

定义: 自动识别文本中表达的情感极性或情感类别。

任务类型:

类型	输出	示例
二分类	正面/负面	商品评价
三分类	正面/中性/负面	社交媒体分析
细粒度	1-5星评分	评分预测
方面级	各方面的情感	"服务好但价格贵"

技术路线:

词典方法: 情感词典匹配计分
机器学习: 特征工程+分类器
深度学习: CNN/LSTM/BERT

挑战:

讽刺/反语检测
隐式情感表达
多情感混合
领域适应性

7. 机器翻译中的BLEU分数真的能准确反映翻译质量吗?

BLEU计算: 基于n-gram精确度,衡量译文与参考译文的重叠程度。

BLEU的局限性:

局限	说明
语义盲区	同义词替换得分低
参考依赖	参考译文有限
顺序不敏感	n-gram无法捕捉长距离语序
与人类判断相关性	中等相关,非完美

示例:

参考: "The cat is on the mat"
译文A: "The cat sits on the mat" → BLEU较低
译文B: "Mat the on is cat the" → BLEU可能不低

改进方向:

chrF: 字符级F1分数
COMET: 基于神经网络的评估
人类评估: 仍是金标准

结论: BLEU是有用的参考,但不应作为唯一标准。

8. 语音识别(Speech Recognition)和语音合成(Text-to-Speech)的技术原理有何不同?

方向对比:

方面	语音识别 (ASR)	语音合成 (TTS)
方向	语音 → 文本	文本 → 语音
输入	音频波形	文本字符
输出	文字序列	音频波形

语音识别流程:

音频 → 特征提取(MFCC) → 声学模型 → 语言模型 → 文本

语音合成流程:

文本 → 文本分析 → 声学特征预测 → 声码器 → 波形

核心技术:

任务	传统方法	深度学习方法
ASR	HMM-GMM	Wav2Vec, Whisper
TTS	拼接/参数合成	Tacotron, VITS

共同挑战: 噪声处理、多说话人、情感表达、实时性

9. 推荐系统中的协同过滤(Collaborative Filtering)是如何工作的?

核心思想: "物以类聚,人以群分"——相似用户喜欢相似物品。

两种主要方法:

用户协同过滤 (User-based CF):

1. 找到与目标用户相似的用户群
2. 推荐这些相似用户喜欢但目标用户未接触的物品

物品协同过滤 (Item-based CF):

1. 计算物品之间的相似度
2. 推荐与用户历史喜欢物品相似的其他物品

相似度计算:

余弦相似度
皮尔逊相关系数
Jaccard相似度

矩阵分解方法: 将用户-物品矩阵分解为用户向量和物品向量的乘积。

局限: 冷启动问题(新用户/新物品无历史数据)

10. 强化学习中的Q-Learning和策略梯度方法有什么区别?

核心区别:

方面	Q-Learning	策略梯度
学习目标	价值函数 Q(s,a)	策略函数 π(a
决策方式	选max Q的动作	直接采样动作
动作空间	离散为主	可处理连续动作
类型	Value-based	Policy-based

Q-Learning:

Q(s,a) ← Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)]

学习"状态-动作对"的价值,选择价值最高的动作。

策略梯度:

∇J(θ) = E[∇log π(a|s) · R]

直接优化策略参数,使高回报动作的概率增加。

典型算法:

Q-Learning: DQN, Double DQN
策略梯度: REINFORCE, PPO, A3C

结合方法: Actor-Critic (演员-评论家) 同时学习策略和价值