大量用户数据的存储方案

# 场景 ### 数据量   千万级用户数据的存储,其中每个用户的基本属性slot有近百个,且随时会增加。 ### 业务   类似于‎Palantir Gotham 和Lumify,业务需要在图上基于用户做关系分析、最短路径等等,对于某一个用户可以即时查询其各个属性。 # 问题   为了实现上述的场景,将用户作为节点、用户的关联关系作为边进行图存储,然后将用户对应的属性使用Hbase或Cassandra作为存储后端进行存储,这样的存储方式是否欠妥?   或者工业上满足上述业务需求的存储方式有什么是可以借鉴的?

王昊奋 - 知识图谱从业者

赞同来自: fish

取决于你要做什么操作,对于经常变化的属性,是否可以内化为property (见Neo4j的Property Graph),如果是可以,那么建议使用文档数据库(如MongoDB)来存储这块内容。另外如果你更多是图查询,那么可以用图数据库来存储和查询(见各种Graph Database,如Titan等),如果有大量的图计算包括子图挖掘,那么建议使用图计算引擎(如Spark GraphX或Apache Giraph等)

wangxiaolei

赞同来自:

请问是那个课的是问题?

要回复问题请先登录注册