技术能力案例和项目_第1页
技术能力案例和项目_第2页
技术能力案例和项目_第3页
技术能力案例和项目_第4页
技术能力案例和项目_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l 技术能力:深入理解分类、回归、聚类、降维、模型选择等常见机器学习算法的产生原因、数学推导、参数的意义l 熟练掌握常用算法l 有Linux环境下编程经验 l 熟练掌握python语言l 熟练掌握TensorFlowl 熟悉tensorflow深度学习框架及tflearn机器学习模块,熟悉Linux。l 熟悉深度学习、机器学习算法(CNN,RNN,LSTM,逻辑回归,等), 技术能力注意事项:机器学习相关:1、监督学习算法:贝叶斯,决策树,随机森林和GBDT(可以适当了解下)等算法2、非监督:k-means深度学习相关:1、图像方面:CNN,AlexNet,FAST-CNN(了解)2、自然语言处理:RNN/LSTM等,word-embedding技术,语言模型等都可以写框架技术:tensorflow和scikit-learn等等案例(没有经验的可以多写点kaggle案例做一些比较好的,有经验的可以结合公司业务):机器学习(传统算法)方面(中间也有一些涉及深度学习但是不是主要的):样例1:*公司智能投顾系统开发1. 根据华软资本已有的对其投资公司的各项指标评分和财务数据,对机器学习模型进行训练,从而对未来是否投资的公司进行智能评分和财务预测。2. 使用爬虫技术爬取相关财务数据,并使用t-SNE对数据进行可视化,并进行数据清理;3. 分别使用传统的算法随机森林、Adaboost以及深度学习算法CNN等建立分类模型,并采用投票方式选择最终结果;4. 分别使用使用传统算法线性回归、logistic以及LSTM进行财务预测;5. 采用TensorFlow serving进行线上部署。样例2:基于深度学习的糖尿病视网膜病变远程辅助筛查系统的设计1、基于深度学习的眼底图像水平分类l 解决传统图像处理泛化性差的问题及在小样本情况下训练深度神经网络易过拟合问题l 负责数据预处理(数据不平衡),预训练,特征提取(CNN),模型融合(集成学习,SVM,softmax)2、基于弱监督学习的眼底图像的病灶定位l 解决病灶分割标签的难以获得的问题l 负责模型的训练(迁移学习)与弱监督学习算法的设计(ResNet-50,GAP,CAM)3、基于病灶水平的病变检测l 解决早期病变难以检测l 负责数据集构建,模型设计与调参(patchNet,overlapping策略)4:像素水平的分类l 解决病灶的精准分割l 负责分割模型的选择与调参(SegNet,编解码框架)样例3:1、原始数据解析整理入库对于爬虫组传过来的原始数据,编写相应的python脚本,实现数据字段,文本结构解析及清洗入库。2、企业画像标签系统标签清洗及整理根据有用字段清洗、分词、去停用词及自定义词典等处理对企业制作标签词云。3、大客户数据定期匹配清洗及日常维护对于长期同规则需求,能够利用sql语句,视图,存储过程等手段自动化流程,并对期间新问题解决及更新优化流程。4、月度数据质检工作编写质检存储过程,每个月工商数据ETL流程后的,对于新月度数据通过质检脚本的结果,前后月指标对比及异常值分析并进行反馈。5、各种模型数据指标统计及处理产业规模及信用评分模型中部分指标统计,利用python中pandas模块对缺失数据及异常数据进行处理。对于数量级较大的数据利用python及elasticsearch结合进行数据统计。6、招投标数据质量检测及文本分类对于定期传来的招投标数据各指标统计,检查数据质量并反馈。利用TensorFlow搭建文本分类框架,根据招投标标题及内容进行类别分类,调参数,提高正确率。7、日常数据库维护、数据统计、各种需求Python程序编写、sql语句编写及存储过程编写。样例4:情感分析负责情感分析算法的开发、优化以及词库的维护2016.09 - 至今情感的倾向由两个方面来衡量:情感倾向方向;情感倾向度。情感倾向方向包括正面、负面、中性。情感倾向度是指主体对客体表达正面情感或负面情感时的强弱程度。由于有丰富的情感词典资源,缺乏大规模人工标注的语料,在这里采用基于情感词典的方法。目标:给出一段文本,可以获得相应的情感值(包括极性和情感程度)思路:1. 对文本内容按照标点符号进行切割2. 对切割后得到的文本按照情感词再次进行切割3. 获取这个最小粒度文本片段中的情感词的情感值4. 处理这个最小粒度文本片段中的反转词及修饰副词5. 情感值汇总样例5:某电影科技公司:主要负责公司产品核心算法的设计与实现,包括:1、电影院日人流预测利用LSTM神经网络,我们将影院日人流预测的MAPE值由原来的0.36降到了0.20以下,显著提高了模型预测的性能,达到了生产需求。作为项目的负责人,我主导了整个项目的具体流程,包括数据预处理、特征工程以及模型的搭建和参数寻优。2、 电影票房等级预测利用机器学习中的树类算法,我们选取电影的演员、导演、编剧、主题、国家等特征对一部待上映电影的票房等级进行预测,取得了较高的准确率。在项目中,我主要负责数据的处理和特征选择过程。样例6:*音乐流行趋势预测项目描述:通过对*音乐平台上每个阶段艺人的试 听量的预测,挖掘出即将成为潮流的个人贡献:1. 参与数据清洗与聚合;筛选出艺人类型、日期类型、 播放量、收藏量、均值、方差等特征;2. 设计朴素均值方法、均值滑动窗口方法、滑动窗口+ 规则方法等基于规则的方法;3. 设计 RF、GBDT 等基于机器学习模型的方法;4. 设计规则+模型的混合方法;深度学习(为主)方面:负责基于深度学习,设计针对不同病种的辅助诊断模型。a. 对不同的疾病照片,眼底片或病理片做不同的预处理,对病灶组织增强b. 为满足训练需求,对数据做rotation,cut,mirror,shift和color enhancement等数据增强c. 根据不同的需求,用Caffe,Tensorflow以及MXNet搭建图像分类,图像检测和图像分割模型。d. 根据不同的问题,选用不同的卷积神经网络如VGG, ResNet, Inception, Faster-RCNN,等进行训练。e. 根据不同的训练结果,调节网络参数,包括网络裁剪,参数微调等等。f. 得到performance较高的深度学习模型*科技有限公司1. 研究深度学习图像检测算法:RCNN、Fast-RCNN、Faster-RCNN等,用TensorFlow实验demo2. 研究图像分割算法和DCGAN算法,学习网络压缩相关算法和模型某某有限公司:从事基于语义分析的舆情分析平台的研发,主要相关技术包括深度学习的神经自然语言模型, word embedding技术,sentiment analysis,关键词提取,摘要自动生成等。基于用户画像的广告点击率预测模型的研发,此平台主要技术特点是基于词共现的矢量空间模型特征,其广告相关性大幅提升。基于语义分析的微博搜索主要任务是微博类的短文本语义检索,微博的关键词BM25倒排索引,基于word embedding语义模型的短文本搜索。1.爬取千万级影视对话数据作为训练集并对词汇进行word2vec建模,在tensorflow深度学习框架下搭建了基于LSTM神经网络(seq2seq对话模型)的生成式聊天机器人。2. 运用ROS机器人操作系统对室内环境进行SLAM建图,设计了基于人机交互的机器人自主避障控制方法。1) 利用深度学习技术在遥感图像上实现高精度地物分类,为林业局/国土部等完成生物量估计/地质勘探提供参考。2)利用深度学习技术完成军事目标的精确识别与检测,实现敏感区域的重点观测。3) 搭建遥感大数据平台(python实现,利用QT架构设计,包含caffe,Numpy,Scipy等库,利用GPU技术并行加速),可实现遥感图像自动化分类,并快速定位到感兴趣的热点区域,同时可实现特定目标的快速精确识别。1)针对遥感光学图像,设计并搭建基于CNN+SVM的高精度地物分类算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论