机器学习

机器学习是人工智慧的一个分支。人工智慧的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。显然，机器学习是实现人工智慧的一个途径之一，即以机器学习为手段，解决人工智慧中的部分问题。机器学习在近30多年已发展为一门多领域科际集成，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。

机器学习理论主要是设计和分析一些让电脑可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联络尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法（要防止错误累积）。很多推论问题属于非程序化決策，所以部分的机器学习研究是开发容易处理的近似算法。

机器学习已广泛应用于数据挖掘、电脑视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈（英语：Credit card fraud）、证券市场分析、DNA序列测序、语音和手写识别、游戏和机器人等领域。

定义

机器学习有下面几种定义：

机器学习是一门人工智慧的科学，该领域的主要研究对象是人工智慧，特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的电脑算法的研究。
机器学习是用数据或以往的经验，以此优化电脑程序的性能标准。

电脑科学家Tom M. Mitchell（英语：Tom M. Mitchell）在其著作的Machine Learning一书中定义的机器学习为：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.^[1]

分类

机器学习可以分成下面几种类别：

监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。

监督学习和非监督学习的差别就是训练集目标是否有人为标注。他们都有训练集且都有输入和输出

无监督学习与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有生成对抗网络（GAN）、聚类。
半监督学习介于监督学习与无监督学习之间。
增强学习机器为了达成目标，随着环境的变动，而逐步调整其行为，并评估每一个行动之后所到的回馈是正向的或负向的。^[2]

算法

具体的机器学习算法有：

软件

包含各种机器学习算法的软件套装包括：

免费开源软件

Python软件库及框架

参考文献

引用

^ Tom M. Mitchell. Machine Learning. McGraw-Hill. 1997年3月: 第2页. ISBN 0070428077 （英语）.
^ 林东清. 资讯管理：e化企业的核心竞争能力七版. 台北市: 智胜文化. 2018年8月: 第118页. ISBN 9789864570478 （中文）.

来源

书籍

Bishop, C. M. (1995). 《模式识别神经网络》，牛津大学出版社. ISBN 0-19-853864-2.
Bishop, C. M. (2006). 《模式识别与机器学习》，Springer. ISBN 978-0-387-31073-2.
Richard O. Duda, Peter E. Hart, David G. Stork (2001). 《模式分类》（第2版）, New York: Wiley. ISBN 0-471-05669-3.
MacKay, D. J. C. (2003). 《信息理论、推理和学习算法》（页面存档备份，存于互联网档案馆），剑桥大学出版社. ISBN 0-521-64298-1
Mitchel.l, T. (1997). 《机器学习》, McGraw Hill. ISBN 0-07-042807-7
Sholom Weiss, Casimir Kulikowski (1991). Computer Systems That Learn, Morgan Kaufmann. ISBN 1-55860-065-5.

外部链接

UCI description （页面存档备份，存于互联网档案馆）
机器学习软件Weka （页面存档备份，存于互联网档案馆）
Pablo Castro主页（页面存档备份，存于互联网档案馆）
机器学习网邮件列表（页面存档备份，存于互联网档案馆）
机器学习和自然语言处理-弗莱堡大学（页面存档备份，存于互联网档案馆）
机器学习和数据挖掘，生物资讯学小组，慕尼黑工业大学
机器学习和生物计算-Bristol大学（页面存档备份，存于互联网档案馆）
机器学习和应用统计学@微软研究
机器学习研究月刊（页面存档备份，存于互联网档案馆）
机器学习期刊（页面存档备份，存于互联网档案馆）
机器学习-Kmining，数据挖掘和KDD科学参考（页面存档备份，存于互联网档案馆）
Book "智慧系统社区" by Walter Fritz
开放目录项目（页面存档备份，存于互联网档案馆）
机器学习论文-CiteSeer （页面存档备份，存于互联网档案馆）
Orange，使用Python脚本语言的机器学习组件和可视化编程接口（页面存档备份，存于互联网档案馆）

参见

[1] Tom M. Mitchell. Machine Learning. McGraw-Hill. 1997年3月: 第2页. ISBN 0070428077 （英语）.

[2] 林东清. 资讯管理：e化企业的核心竞争能力七版. 台北市: 智胜文化. 2018年8月: 第118页. ISBN 9789864570478 （中文）.

[1]

[2]

查论编机器学习同数据挖掘主题
基本概念	学习 · 图灵测试 · 运算学习论
数学模型	回归模型 · 人工神经网络（深度学习） · 生成对抗网络 · Transformer模型 · 大语言模型 · 决策树 · 贝叶斯网络 · 支持向量机 · 关联规则学习
学习范型	机器学习 · 深度学习 · 迁移学习 · 微调 (深度学习) · 监督学习 · 半监督学习 · 无监督学习 · 强化学习 · Q学习 · 遗传算法
主要应用	统计分类 · 表征学习 · 降维 · 聚类分析 · 异常检测
相关领域	计算科学 · 人工智慧 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 统计学 · 数据科学 · 电脑科学 · 信息与计算科学 · 神经科学 · 认知科学

查论编深度学习软件（英语：Comparison of deep learning software）
开源软件	Apache Singa（英语：Apache Singa） Blocks（英语：Blocks） Caffe Deeplearning4j Dlib（英语：Dlib） Microsoft Cognitive Toolkit MXNet OpenNN PyTorch scikit-learn LangChain Gradio RETURNN（英语：RETURNN） TensorFlow Keras Theano Torch（英语：Torch (machine learning)）
专有	Neural Designer（英语：Neural Designer） Wolfram Mathematica
分类比较

查论编主要的数学领域
历史纲要（英语：Outline of mathematics）列表（英语：Lists of mathematics topics）符号表
数学基础	范畴论集合论数理逻辑数学哲学
代数	抽象交换群论初等代数线性代数多重线性代数泛代数
数学分析	微积分实变函数复变函数微分方程泛函分析调和分析傅里叶分析几何分析
离散数学	组合数学图论序理论博弈论
几何学	代数几何解析几何微分几何离散几何学欧几里得几何非欧几里得几何有限几何学
数论	算术代数数论解析数论几何数论算术几何丢番图几何
拓扑学	点集拓扑代数拓扑微分拓扑几何拓扑
统计学	测度与概率数理统计学数据科学统计推断回归分析统计学习理论机器学习人工智慧数据结构与算法
计算数学	电脑科学计算理论数值分析最优化电脑代数
应用数学	控制论信息论计算化学数理生物学数理经济学计量经济学数理金融学数学心理学数学物理学生物统计学
其它	娱乐数学数学与艺术（英语：Mathematics and art）数学教育
注释	数学的领域也可根据“MSC分类标准”或“中国学科分类国家标准”进行分类。
分类主题共享资源专题

查论编电脑科学的主要领域
注：该模板大致遵循ACM 电脑分类系统。
电脑硬件	印刷电路板外部装置集成电路超大规模集成电路绿色计算电子设计自动化
系统架构组织	电脑系统架构嵌入式系统实时计算
网络	网络传输协议路由网络拓扑网络服务
软件组织	解释器中间件虚拟机操作系统软件质量
软件符号和工具	编程范型编程语言编译器领域特定语言软件框架集成开发环境软件配置管理函数库
软件开发	软件开发过程需求分析软件设计软件部署软件维护开源模式
计算理论	自动机可计算性理论计算复杂性理论量子计算数值计算方法电脑逻辑形式语义学
算法	算法分析算法设计算法效率随机化算法计算几何
计算数学	离散数学信息与计算科学统计学数学软件数理逻辑集合论数论图论类型论范畴论信息论数值分析数学分析
信息系统	数据库管理系统电脑数据企业信息系统社会性软件地理信息系统决策支持系统过程控制数据挖掘数码图书馆系统平台数码营销万维网信息检索
安全	密码学形式化方法入侵检测系统网络安全资讯安全
人机交互	电脑辅助功能用户界面可穿戴电脑普适计算虚拟实境聊天机器人
并发性	并发计算并行计算分布式计算多线程多元处理
人工智慧	自动推理计算语言学电脑视觉进化计算专家系统自然语言处理机器人学
机器学习	监督式学习无监督学习强化学习交叉验证
电脑图形学	电脑动画可视化渲染修饰照片图形处理器混合实境虚拟实境图像处理图像压缩实体造型
应用计算	电子商务企业级软件计算数学计算物理学计算化学计算生物学计算社会科学医学资讯学数字艺术电子出版网络战电子游戏文字处理器运筹学教育技术学生物资讯学认知科学文件管理系统（英语：Document management system）
分类主题专题维基共享