个人技术分享

.jsonl 文件

{"name": "Alice", "age": 30}
{"name": "Bob", "age": 25}
  • 每行是一个独立的有效 JSON 对象。
  • 每行之间没有逗号或其他分隔符。
  • 适合存储每行为独立记录的数据,如日志、传感器数据、日志行等。
  • 逐行读取文件,逐行解析 JSON 对象,一次处理一行的数据。

json文件

[
  {"name": "Alice", "age": 30},
  {"name": "Bob", "age": 25}
]
  • 使用大括号 {} 表示对象,使用方括号 [] 表示数组。
  • 整个文件是一个有效的 JSON 对象或数组。
  • 适合存储结构化的数据,如配置文件、API 响应等。
  • 一次性读取整个文件,解析成一个 JSON 对象,可以随机访问其中的数据。

jsonl文件适用以下情况:

  • 当数据以行为单位独立存储,并且每行数据之间没有明确的分隔符时。
  • 当需要逐行处理数据,以节省内存和提高处理速度时。
  • 当数据量非常大,无法一次性加载到内存中时,JSONL 格式提供了一种流式处理数据的方式。

读取jsonl文件

import json

jsonl_file = "data.jsonl"

with open(jsonl_file, "r") as file:
    for line in file:
        json_obj = json.loads(line)
        # 对 JSON 对象进行处理
        print(json_obj["name"], json_obj["age"])

 ijson 是一个流式处理 JSON 数据的 Python 库,它可以有效地处理大型 JSONL 文件。下面是一个示例代码,展示了如何使用 ijson 库来处理 JSONL 文件

import ijson

jsonl_file = "data.jsonl"

with open(jsonl_file, "rb") as file:
    # 使用 ijson.items 函数读取 JSONL 文件中的每个 JSON 对象
    for json_obj in ijson.items(file, "item"):
        # 在这里处理 JSON 对象
        print(json_obj)

参考:json文件和jsonl文件有什么区别?什么情况下适合使用jsonl文件?-CSDN博客