-
Notifications
You must be signed in to change notification settings - Fork 2.3k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Issue]:生成.parquet文件问题 #893
Comments
设置cache 也跟踪不到文件内,要么就加新闻界,别动output |
那有个问题,增量怎么做,如果后面做成图的话,一个增量一个新文件,那维护起来都是麻烦,尤其新闻数据,天天有增量 |
插个眼 |
Please see #741 |
graphrag没有太好的增量方式,我目前是新增文件,我这边新增的文件主要是书籍,所以文件还比较合适,增加了之后,就删掉output里面的artifact文件夹,然后重新索引。如果想要删除,就先删了文件,再把parquet里面和这个关联的所有内容都删掉。 |
我最近想到一个思路,就是数据通过neo4j这种图数据库来做merge增量 |
|
我试过这个方法,就是我是在settings.yaml中graphml直接设置为True,然后使用gephi打开,再把节点和关系分别导出,然后再使用python代码连接neo4j的数据库后传入分两次传入,这个方法有几个问题: 例如:假设你正在构建一个关于“科技新闻”的知识图谱,现在你想新增一篇关于“苹果公司发布新款iPhone”的新闻到图谱中。这篇新闻涉及到的内容可能已经部分存在于图谱中,比如“苹果公司”和“iPhone”这些节点。 就算进行人为的调整确保了节点不会重复且内容可以追加到节点的属性内容后面,那也难以保证内容是不是会重复:
现在,你有一篇新的新闻,标题为:“苹果公司发布iPhone 15,带来全新摄像技术和环保材料。”你决定将这篇新闻的信息追加到“苹果公司”节点的“新闻”属性中。 手动调整后的情况:
|
首先我对neo4j不是很了解,我就查了下它有merge 命令,就比如你举得这个例子中,比如之前数据有苹果公司->iphone13 ,新增数据 苹果公司->iphone15,每次merge的时候我没试过是不是只是找苹果公司,然后其他的比如iphone13,iphone15都会自动构建到苹果公司这个树下面。我之前试过一些数据,看最后的效果好像是这样的 |
Describe the issue
Additional Information
The text was updated successfully, but these errors were encountered: