Freebase 知识图谱数据导入 Virtuoso 数据库引擎

发表于 2020-09-04 | 更新于 2021-07-31 | 分类于教程 | 阅读量

字数统计 769 字 | 阅读时长 3 分钟

数据预处理

Freebase 数据（压缩包~30G）：https://developers.google.com/freebase
数据过滤方法
法1：https://sivareddy.in/random/fix_freebase.py

法2：https://github.com/lanyunshi/Multi-hopComplexKBQA/blob/master/code/FreebaseTool/FilterEnglishTriplets.py

# 1、如果解压数据 freebase-rdf-latest.gz
gunzip -c freebase-rdf-latest.gz > freebase # 400G
nohup python -u FilterEnglishTriplets.py 0<freebase 1>FilterFreebase 2>log_err & # 125G

# 2、如果不解压数据
zcat freebase-rdf-latest.gz | python FilterEnglishTriplets.py | gzip > freebase-filter.gz # 10G

软件下载

地址：http://sourceforge.net/projects/virtuoso/files/virtuoso/
选择 7.2.5 版本的免编译版：virtuoso-opensource.x86_64-generic_glibc25-linux-gnu.tar.gz
下载链接：https://netix.dl.sourceforge.net/project/virtuoso/virtuoso/7.2.5/virtuoso-opensource.x86_64-generic_glibc25-linux-gnu.tar.gz

导入数据

tar xvpfz virtuoso-opensource.x86_64-generic_glibc25-linux-gnu.tar.gz
cd virtuoso-opensource/database/
mv virtuoso.ini.sample virtuoso.ini

# ../bin/virtuoso-t -df # 当前窗口启动服务
../bin/virtuoso-t  # 后台 启动服务
../bin/isql 1111 dba dba # 进入数据库

# 1、解压数据导入
SQL>
ld_dir('.', 'FilterFreebase', 'http://freebase.com'); # 解压过滤数据在database目录下面
rdf_loader_run();  # 加载数据，大约6天的时间【窗口不能关闭】，最终virtuoso.db大约46G

# 2、压缩包数据导入
SQL>
DB.DBA.TTLP_MT (gz_file_open ('freebase-filter.gz'), '', 'http://freebase.com', 128);  # 数据在database目录下面
# 大约4天的时间【窗口不能关闭】，最终virtuoso.db大约55G

查看状态

# 新建窗口，查看状态-查看数据集加载情况
# ll_state字段有三个值：0表示数据集还没有加载；1表示数据集正在加载；2表示数据集已经加载完成。
SQL>
select * from DB.DBA.load_list;


# 查看三元组数量
SPARQL SELECT COUNT(*) { ?s ?p ?o };

# 导入结束后，需要清理一下load_list，否则下次装载其它文件时，load_list里面的文件还会导入
delete from db.dba.load_list;

# 删除数据库【谨慎】
SQL> SPARQL CLEAR GRAPH <http://freebase.com>;

关闭服务

SQL>
shutdown(); # 停止服务

top
kill -9 进程id

# 查看1111端口占用情况
lsof -i:1111

# kill 对应的进程

访问数据

浏览器：http://localhost:8890/sparql

Python

import json
from SPARQLWrapper import SPARQLWrapper, JSON

SPARQLPATH = "http://localhost:8890/sparql"

def test():
    try:
        sparql = SPARQLWrapper(SPARQLPATH)
        sparql_txt = """PREFIX ns: <http://rdf.freebase.com/ns/>
            SELECT distinct ?name3
            WHERE {
            ns:m.0k2kfpc ns:award.award_nominated_work.award_nominations ?e1.
            ?e1 ns:award.award_nomination.award_nominee ns:m.02pbp9.
            ns:m.02pbp9 ns:people.person.spouse_s ?e2.
            ?e2 ns:people.marriage.spouse ?e3.
            ?e2 ns:people.marriage.from ?e4.
            ?e3 ns:type.object.name ?name3
            MINUS{?e2 ns:type.object.name ?name2}
            }
        """
        #print(sparql_txt)
        sparql.setQuery(sparql_txt)
        sparql.setReturnFormat(JSON)
        results = sparql.query().convert()
        print(results)
    except:
        print('Your database is not installed properly !!!')

test()

执行结果

{'head': {'link': [], 'vars': ['name3']}, 'results': {'distinct': False, 'ordered': True, 'bindings': [{'name3': {'type': 'literal', 'xml:lang': 'en', 'value': 'Jeffrey Probst'}}, {'name3': {'type': 'literal', 'xml:lang': 'en', 'value': 'Shelly Wright'}}, {'name3': {'type': 'literal', 'xml:lang': 'en', 'value': 'Lisa Ann Russell'}}]}}

格式化

{'head': {'link': [], 'vars': ['name3']},
 'results': {'bindings': [{'name3': {'type': 'literal',
                                     'value': 'Jeffrey Probst',
                                     'xml:lang': 'en'}},
                          {'name3': {'type': 'literal',
                                     'value': 'Shelly Wright',
                                     'xml:lang': 'en'}},
                          {'name3': {'type': 'literal',
                                     'value': 'Lisa Ann Russell',
                                     'xml:lang': 'en'}}],
             'distinct': False,
             'ordered': True}}

参考文章

坚持原创技术分享，您的支持将鼓励我继续创作！

0%