大数据技术发展历程——爱普生SCARA机器人
大数据的应用和技术起源于互联网,首先是网站和网页的爆炸式增长,搜索引擎公司首先感受到了海量数据的技术挑战,随后的社交网络、视频网站和移动互联网浪潮加剧了这种挑战。互联网公司发现,新数据的增长,多样性,以及处理时间限制的要求是传统数据库,商业智能垂直扩展架构无法处理的
在这种情况下,谷歌的技术系统,首次提出在2004年处理一组分布式数据的,这是一个分布式文件系统,谷歌文件系统(谷歌文件系统GFS),MapReduce的分布式计算系统和分布式数据库BigTable的,低成本一个很好的解决方案所面临的大数据的窘境,奠定了大数据技术的基础。 Apache的Hadoop的谷歌的论文的启发,实现了自己的分布式文件系统,HDFS,MapReduce的分布式计算系统和分布式数据库HBase的,并且将其开源,这是大数据技术的开源生态系统的起点。
2008年左右,雅虎*早在实际环境中搭建了大规模的Hadoop集群,这是Hadoop在互联网公司使用*早的案例,后来Hadoop生态的技术就渗透到了互联网、电信、金融乃至更多的行业。2009年UCBerkley大学的AMPLab研发出了Spark,经过5年的发展,正式替换了Hadoop生态中MapReduce的地位,成为了新一代计算引擎,而2013年纯计算的F
经过10年左右的发展,大数据技术形成了以开源为主导、多种技术和架构并存的特点。从数据在信息系统中的生命周期看,大数据技术生态主要有5个发展方向,包括数据采集与传输、数据存储、资源调度、计算处理、查询与分析。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层,HDFS已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了K-V(key-value)、列式、文档、图4类NoSQL数据库体系,HBase、Cassandra、MongoDB、Neo4j、Redis等数据库百花齐放。资源调度方面,Yarn独领风骚,Mesos有一定发展签里。计算处理引擎方面慢慢覆盖了离线批量计算、实时计算、流计算等场景,诞生了MapReduce、Spark、F
详情点击爱普生SCARA机器人