某人的学习资料总结 其中爬虫 自然语言处理 清晰 总结到位 原文截取:
可靠的分布式协调的开源项目 Databus:LinkedIn 实时低延迟数据抓取系统 数据源获取:Flume、Google Refine、Needlebase、ScraperWiki、BloomReach 序列化技术:JSON、BSON、Thrift、Avro、Google Protocol Buffers NoSql:ScyllaDB(宣称是世界上最快的NoSql)、Apache Casandra、MongoDB、Apache CouchDB、Redis、BigTable、HBase、Hypertable、Voldemort、Neo4j MapReduce相关:Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S4、MapR、Acunu、Flume、Kafka、Azkaban、Oozie、Greenplum 数据处理:R、Yahoo! Pipes、Mechanical Turk、Solr/ Lucene、ElasticSearch、Datameer、Bigsheets、Tinkerpop NLP自然语言处理:Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais 机器学习:TensorFlow(Google出品),WEKA、Mahout、scikits.learn、SkyTree 可视化技术:GraphViz、Processing、Protovis、Google Fusion Tables、Tableau、Highcharts、EChats(百度的还不错)、Raphaël.js Kettle:开源的ETL工具 Pentaho:以工作流为核心的开源BI系统 Mondrian:开源的Rolap服务器 Oozie:开源hadoop的工作流调度引擎,类似的还有:Azkaban 开源的数据分析可视化工具:Weka、Orange、KNIME Cobar:阿里巴巴的MySql分布式中间件 数据清洗:data wrangler, Google Refine Web前端
Material Design: 谷歌出品,必属精品 Vue.js: 借鉴了Angular及React的JS框架,设计理念较为先进 GRUNT: js task runner Sea.js: js模块化 knockout.js:MVVM开发前台,绑定技术 Angular.js: 使用超动感HTML & JS开发WEB应用! Highcharts.js,Flot:常用的Web图表插件 NVD3: 基于d3.js的图表库 Raw:非常不错的一款高级数据可视化工具 Rickshaw:时序图标库,可用于构建实时图表 JavaScript InfoVis Toolkit:另一款Web数据可视化插件 Pdf.js,在html中展现pdf ACE,CodeMirror:Html代码编辑器(ACE甚好啊) NProcess:绚丽的加载进度条 impress.js:让你制作出令人眩目的内容展示效果(类似的还有reveal) Threejs:3DWeb库 Hightopo:基于Html5的2D、3D可视化UI库 jQuery.dataTables.js:高度灵活的表格插件 Raphaël:js,canvas绘图库,后来发现百度指数的图形就是用它绘出来的 director.js:js路由模块,前端路由,Nodejs后端路由等,适合构造单页应用 pace.js:页面加载进度条 bower:Web包管理器 jsnice:有趣的js反编译工具,猜压缩后的变量名,http://www.jsnice.org/ D3.js: 是一个基于JavaScript数据展示库(类似的还有P5.js) Zepto.js:移动端替代jQuery的东东,当然也可以使用jquery-mobile. UI框架:Foundation,Boostrap,Pure,EasyUI,Polymer 前段UI设计师必去的几个网站:Dribbble,awwwards,unmatchedstyle,UIMaker Mozilla 开发者中心:https://developer.mozilla.org/en-US/ 图标资源:IcoMoon(我的最爱),Font Awesome, Themify Icons,FreePik,Glyphicons artDialog:非常漂亮的对话框 AdminLTE:github上的一个开源项目,基于Boostrap3的后台管理页面框架 Respond.js:让不懂爱的IE6-8支持响应式设计 require.js: js模块加载库 select2:比chosen具有更多特性的选择框替代库 AngularUI:集成angular.js的UI库 normalize.css: 采用了现代化标准让各浏览器渲染出的html保持一致的库 CreateJS:Html5游戏引擎 Less,Compass:简化CSS开发 emojify.js:用于自动识别网页上的Emoji文字并将其显示为图像 simditor:一个不错的开源的html编辑器,简洁高效 Sencha: 基于html5的移动端开发框架 SuperScrollorama+TweenMax+skrollr:打造超酷的视差滚动效果网页动画 jquery-smooth-scroll:同上,平滑滚动插件 Animate.css:实现了各种动画效果的css库 Emmet:前端工程师必备,前身为 Zen Coding React: facebook出品的js UI库 highlight.js:专门用来做语法高亮的库 GoJS: Html5交互式图表库,看demo更适合层次结构的图表。 10 Pure CSS (Mostly) Flat Mobile Devices: http://marvelapp.github.io/devices.css/ CodePen: http://codepen.io/ jsfiddle: http://jsfiddle.net/ 前端js,html,css测试利器 语言篇
折腾中:Scala、Python、Lua、JavaScript、Go
待折腾:
Racket OCaml Rust Julia Scala
Scala Standard Library API Scala School!: A Scala tutorial by Twitter A Tour of Scala: Tutorial introducing the main concepts of Scala Scala Overview on StackOverflow: A list of useful questions sorted by topic Programming in Scala,最新的第3版,还没有电子版,电子版是第一版 《Scala for the Impatient》 《Scala in Depth》 《Programming Scala》Dean Wampler and Alex Payne. O’Reilly 2009 Scala By Example Scala Cheatsheet学习模式匹配的好资料 Glossary of Scala and FP terms Metascala: A JVM written in Scala LMS: Program Generation and Embedded Compilers in Scala Java
常用的IDE:IntelliJ IDEA(强烈推荐),Eclipse,Netbeans fastutil: 性能更好的Java集合框架 Guava: 谷歌的Java工具包,应用广泛 Curator:Netflix公司开源的一个Zookeeper client library,用于简化Zookeeper客户端编程,现在已经是apache下的一个独立项目了。Spark的HA也用的这货。 Rx(Reactive Extensions)框架:Vert.x, RxJava(Android中用的比较多), Quasar FindBugs: 代码静态分析工具,找出代码缺陷 Java反编译工具:Luyten,JD-Gui Drools: 规则引擎 Jersey: Java RESTful 框架 canal: 阿里巴巴出品,binlog增量订阅&消费组件 Web开发相关:Tomcat、Resin、Jetty、WebLogic等,常用的组件Struts,Spring,Hibernate Netty: 异步事件驱动网络应用编程框架,用于高并发网络编程比较好(NIO框架,spark 1.2.0就用netty替代了nio) MINA:简单地开发高性能和高可靠性的网络应用程序(也是个NIO框架),不少手游服务端是用它开发的 jOOQ:java Orm框架 Janino: 超级小又快的Java编译器,Spark的Tungsten引起用的它 Activiti:工作流引擎,类似的还有jBPM、Snaker Perfuse:是一个用户界面包用来把有结构与无结构数据以具有交互性的可视化图形展示出来. Gephi:复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具 Nutch:知名的爬虫项目,hadoop就是从这个项目中发展出来的 web-harvest:Web数据提取工具 POM工具:Maven+Artifactory Akka:一款基于actor模型实现的 并发处理框架 EclEmma:覆盖测试工具 Shiro:安全框架 joda-time:简化时间处理 parboiled:表达式解析 dozer: 深拷贝神器 dubbo: 阿里巴巴出品的分布式服务框架 jackson databind: json序列化工具(fastjson,simplejson) Atomikos: 分布式事务管理 BoneCP:性能很赞的数据库连接池组件,据说比c3p0快好多 ProGuard: obconfuscation tool, 强大的混淆工具 S-99:Scala相关的99个问题 Python
原文地址:https://github.com/niuwang/guide