机器学习入门之机器学习各语言领域工具库中文版汇总
小标 2018-12-27 来源 : 阅读 758 评论 0

摘要:本文主要向大家介绍了机器学习入门之机器学习各语言领域工具库中文版汇总,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。

本文主要向大家介绍了机器学习入门之机器学习各语言领域工具库中文版汇总,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。


主要资源来自TensorFlow中文社区,翻译借助谷歌翻译,仅用于资源分享。

以下是根据不同语言类型和应用领域收集的各类工具库,持续更新中。


C


通用机器学习




推荐人 -一个产品推荐的Ç语言库,利用了协同过滤。



计算机视觉




CCV – C / Cached /核心计算机视觉库,是一个现代化的计算机视觉库。



VLFeat – VLFeat是开源的计算机视觉算法库,有Matlab工具箱。




C ++


计算机视觉




OpenCV – 最常用的视觉库。有C ++,C,Python以及Java接口),支持Windows,Linux,Android和Mac OS。



DLib – DLib有C ++和Python脸部识别和物体检测接口。



EBLearn – Eblearn是一个面向对象的C ++库,实现了各种机器学习模型。



VIGRA – VIGRA是一个跨平台的机器视觉和机器学习库,可以处理任意维度的数据,有Python接口。



通用机器学习




MLPack – 可拓展的C ++机器学习库。



DLib – 设计为方便嵌入到其他系统中。


encog-CPP


鲨鱼



Vowpal Wabbit(VW) – 快速的核心外学习系统。



sofia-ml – 快速增量算法套件。



幕府将军 – 学徒机器学习工具箱



Caffe – 深度学习框架,结构清晰,可读性好,速度快。



CXXNET – 精简的框架,核心代码不到1000行。



XGBoost – 为并行计算优化过的梯度提升库。



CUDA – 这是一个快速的C ++ / CUDA实现卷积[DEEP LEARNING]



Stan – 一种使用哈密尔顿蒙特卡洛取样执行完全贝叶斯统计推理的概率编程语言



BanditLib – 一个简单的多武装强盗图书馆。



Timbl – 实现了多个基于内存的算法,其中IB1-IG(KNN分类算法)和IGTree(决策树)在NLP中广泛应用。



自然语言处理




MIT信息提取工具包 – C,C ++和Python工具,用来命名实体识别和关系抽取。



CRF ++ – 条件随机场的开源实现,可以用作分词,词性标注等。



CRFsuite – CRFsuite是条件随机场的实现,可以用作词性标注等。



BLLIP解析器 – 即Charniak-Johnson解析器。



colibri-core – 一组C ++库,命令行工具以及Python绑定,高效实现了n-gram和skipgrams。



ucto – 多语言tokenizer,支持面向Unicode的正则表达式,支持FoLiA格式。



libfolia – FoLiA格式的 C ++库



MeTA – MeTA:ModErn文本分析从巨量文本中挖掘数据。



机器翻译



埃及(GIZA ++)


摩西


法老


SRILM


NiuTrans



SAMT



语音识别




Kaldi – Kaldi是一个C ++工具,以Apache许可证V2.0发布.Kaldi适用于语音识别的研究。



序列分析




ToPS – 这是一个面向对象的框架,有助于在用户定义的字母表上整合序列的概率模型。




Java


自然语言处理




Cortical.io – Retina:此API执行复杂的NLP操作(消歧义,分类,流文本过滤等),快速,直观如同大脑一般。



CoreNLP – Stanford CoreNLP提供了一组自然语言分析工具,可采取原始英语文本输入并给出单词的基本形式。



斯坦福解析器 – 解析器是一个程序,能分析出句子的语法结构。



Stanford POS Tagger – 词性标注器



斯坦福大学名称实体识别器 – 斯坦福大学NER是一个Java实现的命名实体识别器。



Stanford Word Segmenter – 原始文本的令牌化是许多NLP任务的标准预处理步骤。



Tregex,Tsurgeon和Semgrex – Tregex是匹配树模式的工具,基于树的关系和正则表达式的节点匹配(“树正则表达式”的缩写)。


斯坦福Phrasal:基于短语的翻译系统



斯坦福英语Tokenizer – Stanford Phrasal是最先进的统计的基于短语的机器翻译系统,用Java编写。



斯坦福令牌正则表达式 – 标记器将文本划分成一系列令牌,大致对应于“单词”



斯坦福时代标签 – SUTime是识别和规范时间表达式的库。



斯坦福SPIED – 从种子集开始,迭代使用模式,从未标注文本中习得实体。



斯坦福主题建模工具箱 – 主题建模工具,社会学家用它分析的数据集。



Twitter Text Java – Java实现的Twitter文本处理库。



MALLET – 基于Java的软件包,包括统计自然语言处理,文档分类,聚类,主题建模,信息提取,以及其它机器学习应用。



OpenNLP – 一个基于机器学习的自然语言处理的工具包。



LingPipe – 计算语言学工具包。



ClearTK – ClearTK提供了开发统计自然语言处理组件的框架,其建立在Apache UIMA之上。



Apache cTAKES – Apache临床文本分析及知识提取系统(cTAKES)是从电子病历,临床文本中进行信息抽取的一个开源系统。



通用机器学习




气溶胶 – Airbnb从头开始设计的机器学习库,易用性好。



Datumbox – 机器学习和统计应用程序的快速开发框架。



ELKI – 数据挖掘工具。(非监督学习:聚类,离群点检测等。)



Encog中包含用于创建各种网络,以及规范和处理数据的神经网络Encog训练采用多线程弹性的传播方式。Encog还可以利用GPU的进一步加快处理时间。有基于GUI的工作台。



H2O – 机器学习引擎,支持Hadoop,Spark等分布式系统和个人电脑,可以通过R,Python,Scala,REST / JSON调用API。



htm.java – 通用机器学习库,使用Numenta的皮质学习算法



Java-deeplearning – 分布式深度学习平台Java,Clojure,Scala



JAVA-ML – Java通用机器学习库,所有算法统一接口。



JSAT – 具有很多分类,回归,聚类等机器学习算法。



Mahout – 分布式机器学习工具。



Meka – 一个开源实现的多标签分类和评估方法。



Apache Spark中的 MLlib – Spark分布式机器学习库



Neuroph – 轻量级Java神经网络框架



ORYX – Lambda架构框架,使用Apache Spark和Apache Kafka实现实时大规模机器学习。



RankLib – 排序算法学习库。



斯坦福分类器 – 分类器是一种机器学习工具,它将获取数据项并将它们放入k类之一。



SmileMiner – 统计机器智能和学习引擎



SystemML – 灵活的,可扩展的机器学习语言。



WalnutiQ – 面向对象的人脑模型



Weka – WEKA是机器学习算法用于数据挖掘任务的算法集合。



语音识别




CMU Sphinx – 开源工具包,用于语音识别,完全基于Java的语音识别库。



数据分析,可视化




Hadoop – Hadoop / HDFS



Spark – Spark快速通用的大规模数据处理引擎。



Impala – 实时Hadoop查询。



DataMelt – 数学软件,包含数值计算,统计,符号计算,数据分析和数据可视化。


迈克尔·托马斯·弗拉纳根博士的Java科学图书馆



深度学习




Deeplearning4j – 可扩展的产业化的深度学习,利用并行的GPU。




Python


计算机视觉




Scikit-Image – Python中的图像处理算法的集合。



SimpleCV – 一个开源的计算机视觉框架,允许访问几个高性能计算机视觉库,如OpenCV。可以运行在Mac,Windows和Ubuntu Linux操作系统上。



Vigranumpy – 计算机视觉库VIGRA C ++的Python绑定。



自然语言处理




NLTK – 构建与人类语言数据相关工作的Python程序的领先平台。



模式 – 基于Python的Web挖掘模块。它有自然语言处理,机器学习等工具。



Quepy – 将自然语言问题转换成数据库查询语言。



TextBlob – 为普通的自然语言处理(NLP)任务提供一致的API。构建于NLTK和Pattern上,并且很好地与两者交互。



YAlign – 句子对齐工具,从对照语料中抽取并行句子。



jieba – 中文分词工具



SnowNLP – 中文文本处理库。



loso – 中文分词工具



天才 – 基于条件随机场的中文分词工具



KoNLPy – 韩语自然语言处理



坚果 – 自然语言理解工具



Rosetta – 文字处理工具和包装纸(例如Vowpal Wabbit)



BLLIP解析器 – BLLIP自然语言解析器的Python绑定(即Charniak-Johnson解析器)



PyNLPl – Python的自然语言处理库。还包含用于解析常见NLP格式的工具,如FoLiA,以及ARPA语言模型,Moses短语,GIZA ++对齐等。



python-ucto – ucto(面向unicode的基于规则的tokenizer)的Python绑定



python-frog – Frog的Python绑定。荷兰语的词性标注,lemmatisation,依存分析,NER。



python-zpar – ZPar的Python绑定(英文的基于统计的词性标注,constiuency解析器和依赖解析器)



colibri-core – 高效提取n-gram和skipgrams的C ++库的Python绑定



spaCy – 工业级NLP与Python和Cython。



PyStanfordDependencies – 将Penn Treebank树转换到Stanford依存树的Python接口。



通用机器学习




机器学习 – 构建和Web界面, 程序化界面兼容的支持向量机API。相应的数据集存储到一个SQL数据库,然后生成用于预测的模型,存储到一个的NoSQL的数据库。



XGBoost – eXtreme Gradient Boosting(Tree)库的Python绑定



Featureforge一组工具,用于创建和测试机器学习的特征,具有与scikit学习兼容的API



scikit-learning – 基于SciPy的机器学习的Python模块。



度量学习 – 度量学习的Python模块



SimpleAI – 实现了“人工智能现代方法”一书中描述的许多人工智能算法。它着重于提供一个易于使用的,文档良好的和经过测试的库。



astroML – 天文学机器学习和数据挖掘库。



graphlab-create – 基于磁盘支持的DataFrame的库,实现了各种机器学习模型(回归,聚类,推荐系统,图形分析等)。



BigML – 与外部服务器交流的库。



模式 – Web数据挖掘模块。



NuPIC – Numenta智能计算平台。



Pylearn2 – 基于Theano的机器学习库。



keras – 基于Theano的神经网络库



hebel – GPU加速的Python深度学习库。



Chainer – 灵活的神经网络架构



gensim – 易用的主题建模工具



topik – 主题建模工具包



PyBrain – 另一个Python机器学习库。



Crab – 灵活的,快速的推荐引擎



python-recsys – 实现一个推荐系统的Python工具



限制玻尔兹曼机器 – 受限玻尔兹曼机



CoverTree – 覆盖树的Python实现,scipy.spatial.kdtree的近似替换



nilearn – NeuroImaging机器学习库



幕府将军学习机器学习工具箱



Pyevolve – 遗传算法框架



Caffe – 深度学习框架,结构清晰,可读性好,速度快。



breze – 基于Theano的深度神经网络



pyhsmm -贝叶斯隐马尔可夫模型近似无监督的推理和显式时长隐半马尔可夫模型,专注于贝叶斯非参数扩展时,HDP-HMM和HDP-HSMM,大多是弱极限近似。



mrjob – 使得Python程序可以跑在Hadoop上。



SKLL – 简化的scikit-learn接口,易于做实验



neurolab – https://github.com/zueve/neurolab



薄荷 – 贝叶斯算法的优化。方法见于论文:机器学习算法的实践贝叶斯优化。Jasper Snoek,Hugo Larochelle和Ryan P. Adams。2012年神经信息处理系统进展。



Pebl – 贝叶斯学习的Python环境



Theano – 优化GPU元编程代码,生成面向矩阵的优化的数学编译器



TensorFlow – 用数据流图进行数值计算的开源软件库



yahmm – 隐马尔可夫模型,用Cython实现



python-timbl – 包装了完整的TiMBL C ++编程接口。Timbl是一个精心制作的ķ最近邻机器学习工具包。



deap – 进化算法框架



pydeep – Python深度学习



mlxtend – 对数据科学和机器学习任务非常有用的工具库。



霓虹灯 – 高性能深度学习框架



Optunity – 致力于自动化超参数优化过程,使用一个简单的,轻量级的API,以方便直接替换网格搜索。



惹恼 -近似最近邻居执行



skflow – TensorFlow的简化界面,类似Scikit Learn。



TPOT – 自动创建并利用遗传编程优化机器学习的管道。将它看作您的数据科学助理,自动化机器学习中大部分的枯燥工作。



数据分析,可视化




SciPy – 一个基于Python的数据,科学和工程开源软件生态系统。



NumPy – 用Python进行科学计算的基础软件包。



Numba – Python JIT(及时)编译为LLVM,由Cython和NumPy的开发人员针对科学Python。



NetworkX – 复杂网络的高生产率软件。



熊猫 – 提供高性能,易于使用的数据结构和数据分析工具的库。



开放采矿 – Python中的商业智能(BI)(熊猫网络界面)



PyMC – 马尔可夫链蒙特卡洛取样工具包。



zipline – 一个Pythonic算法交易库。



PyDy – Python Dynamics的简称,用于协助基于NumPy,SciPy,IPython和matplotlib的动态运动建模中的工作流程。



SymPy – 符号数学的Python库。



statsmodels – Python中的统计建模和计量经济学。



astropy – 一个用于天文学的社区Python库。



matplotlib – 一个Python 2D绘图库。



散景 – Python的互动网络绘图。



剧情 – Python和matplotlib的协作网络绘图。



vincent – 一个Python到Vega翻译器。



d3py -一个plottling库的Python,基于D3.js。



ggplot – 与ggplot2相同的API



ggfortify – ggplot2流行的R包的统一接口。



Kartograph.py – 在Python中呈现美丽的SVG地图。



pygal – 一个Python SVG图表创建者。



PyQtGraph – 一个基于PyQt4 / PySide和NumPy的纯python图形和GUI库。


pycascading



Petrel – 用于编写,提交,调试和监视纯Python中的风暴拓扑的工具。



Blaze – NumPy和Pandas与Big Data接口。



emcee – 仿射不变MCMC的Python集合采样工具包。



windML – 风能分析与预测的Python框架



vispy – 基于GPU的高性能交互式OpenGL 2D / 3D数据可视化库



cerebro2 NuPIC的基于Web的可视化和调试平台。

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能机器学习频道!


本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程