如果人工智能的上半场是分类，那么下半场就是聚类

（1）人工智能适合什么人搞

上学时上计算机系，是过去数学系和自动化系合并成的。学了一堆不扎实的数学：微积分、线性代数、概率论、数理统计、复变函数、离散数学等等。也学了一堆不扎实的计算机：计算机图形学、计算机视觉、人工智能、数据挖掘、数据仓库、数据库、专家系统等等

现在研究人工智能，最后想想，拼的还是基础数学。

（2）人工智能在70年前就开启了

这人工智能在1955年夏天被麦卡锡定义下来，已经快70年了。

一开始干的就是明确规则的活儿，如定理证明，如下棋。想想90年代人工智能第二次热潮，IBM的深蓝不就是下象棋么？想想现在第三次人工智能热潮，不就是2015年DeepMind的AlphaGo下围棋么？都是明确规则的活儿。

想想这人工智能一开始发展就是想搞机器人。能视觉识别、能语音识别、能语义合成讲话、能智能问答和会话交流、能外国人之间机器自动翻译来交流。1960年出现的Eliza闲聊机器人、1972年出现的Parry医疗问答机器人就是这样。所以现在NLP领域的问答与会话任务，就分为：问答、任务、闲聊。2014年出来的苹果Siri和微软小冰，这三种都在搞，什么能力，现在大家也都明摆着，就这个水平，这是世界最高工程实用水平了。这就是发展了70年了的水平。

所以从一开始，人工智能的范畴就被定义了下来。所以现在人工智能领域包括商务机器人、家庭机器人、工业机器人、高温高寒高救援危机器狗、无人机、无人车和智能新能源汽车，我也能理解。如果说人工智能市场容量几十万亿，那我也只能说是。

（3）第三次人工智能兴起：哲学博士的误打误撞：反向传播

这第三次人工智能热潮兴起，主要是深度学习引爆。

深度学习的基础，在1957年就产生了，是罗森布拉特做的神经网络模型。但是他被人工智能的奠基人明斯基批的一无是处，于是深度学习这个支脉一直少有人搞，即使有人搞也比较边缘，不能在学术圈子主流发声。

还是外行人瞎蒙瞎闯才使深度学习有了突破。Hinton在英国剑桥大学获得的是文学学士学位，主修实验心理学，然后又在爱丁堡大学获得的是哲学博士学位。也许他一直在思考人脑和神经网络在长相上相似。他误打误撞发明了最有效的反向传播算法（1986年发明），后来应用到神经网络上起到了意想不到的效果，这才引起人工智能学术界的主流注意。

Hinton写了一本书《深度学习》，是现在第三次人工智能热潮中人人捧读的必读书籍。

（4）人工智能有用吗？

深度学习的原理也很简单。打个比方：你把十万张照片里的猫都圈出来，并且都注明是Cat，然后开始训练计算机。训练好后，你再找十万张带猫的照片，你不用事前把这后来的十万张照片里的猫圈出来，但计算机就能找到这后来十万张照片里的猫。这个照片里找猫的实验就是吴恩达做的。

所以你要应用深度学习，你首先要有海量数据，其次还还需要有海量的人把这些海量数据圈出来，最后再用海量的算力计算机把它训练出来。

所以海量的带人工标注的数据、算力，是核心。

你看GTP-3，这就是工程界的暴力美学：有1.7万亿个参数，训练需要上千万美金。

现在中国各行各业都流行人工智能，但我想说，海量数据在哪里？海量人工在哪里？海量算力在哪里？把模型应用到业务场景中每天不断运营观察不断训练不断微调的算法工程师团队在哪里？这ROI太不划算了。

而经典的人工智能呢？就是90年代以统计方法为主的第二次人工智能热潮呢？本质上就是专家来加工好规则、专家加工好语料，根据概率和统计计算，才能做到概率性大的答案填空题和选择题。但这有用吗？没用。

自然语言处理，我围绕智能多轮问答与会话，又是搞语音识别语音转文本和语音合成，又是机器阅读理解、意图识别、情感分析，又是搞搜索、推荐、表格问答、Wiki问答，又是搞任务执行，又是搞文本自动摘要与文本自动生成，力求不搞预设的填空题和选择题。这还又是添油加醋用知识图谱、图神经网络、知识推理增强。

计算机视觉，我还不敢搞人脸、人体、商品识别，这都是四小龙的菜。我就聚焦搞OCR。但OCR领域还是太大，有证照识别、票据识别、文档图像识别、自然场景识别、手写识别。我只能再聚焦文档图像识别。文档图像识别里包含四大要素：印刷文字识别、表格识别、公章识别、公式识别。真是聚焦聚焦再聚焦。

（5）上半场的终结，分类：多模态、多领域、多场景、多语言

第三次人工智能热潮有几个里程碑的算法和方法。

计算机视觉领域：2014年的GAN（生成式对抗网络）、2015年的ResNet（残差网络）

自然语言处理领域：2017年的Transformer方法，以及2018年从Transformer衍生出来的BERT。

这三个东西，经过这五六年的发展，每个东西都演变出20来个变形。但是在实际工程中使用发现，那些在学术实验室中经过精心微调刷高分的变形算法，还是不如经典算法又简单又效果好。

而且自从到了2020年，连在学术实验室里刷高分都难了，各种招儿都用了，都很难再提升1分了。不外乎在测评数据集、测评方法、损失函数搞搞，在网络结构上组合组合、又加了多少层。

所以学术界的人这几年又纷纷回归到高校，工程界只能剩下暴力美学，搞大数据、大模型、开发乘手的开源框架和平台工具。GTP-3、Tensorflow、AutoML平台（含动态神经网络），都是这个背景下的产物。

现在学术界不好刷分了，那在干嘛？只好多模态交叉融合（视觉、语音、NLP大融合）、算法迁移融合（GAN、Resnet、BERT在视觉、语音、NLP各个领域都用）、多业务应用场景融合（比如融合到搜索推荐领域，融合到医学、金融行业），各种的联邦学习、迁移学习、对比学习、强化学习。我相信，2021年学术界还是在满天飞这些Paper。

2021年，我也相信工程界还是暴力美学。而中国呢，我个人挺乐观，肯定是工程界的大丰收，因为我见到不少团队都计划在2021年发布中文大模型、中文大数据、中文开源框架工具。过往那些年，英文论文思想挺好、英文算法模型挺好，但就是很难给中国人用上，看了也只能白看，回到现实中还是只能用老方法。但2021年后，这个局面会大大改观一下。

（6）下半场开启，聚类：少数据、少标注、少样本

唉，搞来搞去，脱离不了本质的经典的贝叶斯分类算法、LSTM（1997年）、隐马尔可夫（1962年）。还是贝叶斯大神（1761年去世）和马尔可夫大神（1922年去世）好啊。

现在学术界在工程界的暴力美学的轰炸下一点脾气都没有，谁让自己缺数据、缺人工标注、缺大算力烧钱呢？所以学术界开始在另一条路上探索，那就是：少数据、少标注、少样本。

而工程界关注的却是如何把大模型装到小性能的智能手机上。于是人们一顿的模型压缩、蒸馏、剪枝等等，就是想如何简化模型但又不影响模型的效果。

这样搞搞搞，就逐步走上了：少数据、少标注、少样本。来吧来吧，各种半监督、自监督、弱监督、无监督，也都朝我来吧。

其实少数据、少标注、少样本也不神秘，大家用的方法归根到底到数学原理其实也就是经典的各种聚类算法。

如果说第三次人工智能热潮的上半场是分类，那么下半场就是聚类。当然，你也别期望聚类就能让人工智能真的成为你想的那种人工智能。做梦。还不如1930年就流行的运筹学实用。

好好学数学吧。

参与讨论

299567

130

相关文章

App

公众号

微信群

如果人工智能的上半场是分类，那么下半场就是聚类

参与讨论

299567

130

相关文章

注册

绑定手机号

绑定已有账号

修改密码

找回密码

找回密码

上传进度