update notebook

2026-04-11 05:13:31 +02:00 · 2024-04-14 02:02:59 +08:00 · 2024-04-14 02:02:59 +08:00 · e88185fb9f
commit e88185fb9f
parent 8513ff8734
3 changed files with 1354 additions and 555 deletions
--- a/notebooks/data.ipynb
+++ b/notebooks/data.ipynb
@ -1,555 +0,0 @@
-{
- "cells": [
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "# Data Process Pipeline"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "First, you should add hosts in your ~/.ssh/config file"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 6,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "import os\n",
-    "import paramiko\n",
-    "import time\n",
-    "\n",
-    "HOSTS = [\"h800-80\", \"h800-81\", \"h800-82\", \"h800-83\", \"h800-84\", \"h800-85\", \"h800-86\", \"h800-170\", \"h800-171\"]\n",
-    "\n",
-    "# load from ~/.ssh/config\n",
-    "ssh_config = paramiko.SSHConfig()\n",
-    "user_config_file = os.path.expanduser(\"~/.ssh/config\")\n",
-    "if os.path.exists(user_config_file):\n",
-    "    with open(user_config_file) as f:\n",
-    "        ssh_config.parse(f)\n",
-    "\n",
-    "\n",
-    "def get_ssh_config(hostname):\n",
-    "    # get the configuration for the host\n",
-    "    user_config = ssh_config.lookup(hostname)\n",
-    "    cfg = {\n",
-    "        \"hostname\": user_config[\"hostname\"],\n",
-    "        \"username\": user_config[\"user\"],\n",
-    "        \"port\": int(user_config[\"port\"]),\n",
-    "        \"key_filename\": user_config[\"identityfile\"],\n",
-    "    }\n",
-    "    return cfg\n",
-    "\n",
-    "\n",
-    "def connect(hostname):\n",
-    "    cfg = get_ssh_config(hostname)\n",
-    "    # connect\n",
-    "    client = paramiko.SSHClient()\n",
-    "    client.set_missing_host_key_policy(paramiko.AutoAddPolicy())\n",
-    "    client.connect(**cfg)\n",
-    "    return client\n",
-    "\n",
-    "\n",
-    "def run_command(command, hostname, nohup=False, log_file=None):\n",
-    "    client = connect(hostname)\n",
-    "    print(\"HOST:\", hostname)\n",
-    "    command = f\"bash -ic '{command}'\"\n",
-    "    if log_file:\n",
-    "        command = f\"{command} >> {log_file} 2>&1\"\n",
-    "    if nohup:\n",
-    "        command = f\"nohup {command} &\"\n",
-    "    print(\"COMMAND:\", command)\n",
-    "    stdin, stdout, stderr = client.exec_command(command, get_pty=False)\n",
-    "\n",
-    "    stdout_str = stdout.read().decode()\n",
-    "    stderr_str = stderr.read().decode()\n",
-    "    if stdout_str:\n",
-    "        print(\"==== STDOUT ====\\n\", stdout_str)\n",
-    "    if stderr_str:\n",
-    "        print(\"==== STDERR ====\\n\", stderr_str)\n",
-    "\n",
-    "    client.close()\n",
-    "\n",
-    "\n",
-    "def run_command_all_hosts(command, hosts=HOSTS):\n",
-    "    for hostname in hosts:\n",
-    "        run_command(command, hostname)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Here are tools to examine machine's status."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 7,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "def nvidia_smi(host):\n",
-    "    if host:\n",
-    "        run_command(\"nvidia-smi\", host)\n",
-    "    else:\n",
-    "        run_command_all_hosts(\"nvidia-smi\")\n",
-    "\n",
-    "\n",
-    "def nvitop(host=None):\n",
-    "    if host:\n",
-    "        run_command(f\"/home/zhaowangbo/.local/bin/nvitop -1\", host)\n",
-    "    else:\n",
-    "        run_command_all_hosts(\"/home/zhaowangbo/.local/bin/nvitop -1\")\n",
-    "\n",
-    "\n",
-    "def ps(host=None, interest=\"python|sleep|torchrun|colossal\"):\n",
-    "    if host:\n",
-    "        if interest is None:\n",
-    "            run_command(\"ps ux | cat\", host)\n",
-    "        else:\n",
-    "            run_command(f'ps ux | cat | grep --color=never -E \"{interest}\"', host)\n",
-    "    else:\n",
-    "        if interest is None:\n",
-    "            run_command_all_hosts(\"ps ux | cat\")\n",
-    "        else:\n",
-    "            run_command_all_hosts(f'ps ux | cat | grep --color=never -E \"{interest}\"')\n",
-    "\n",
-    "\n",
-    "def kill(pid, host):\n",
-    "    run_command(f\"kill -KILL {pid}\", host)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Here we define different tasks."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 8,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "OPEN_SORA_HOME = \"/home/zhaowangbo/zangwei/opensora/\"\n",
-    "\n",
-    "\n",
-    "def convert_dataset_cmd(input_dir, output_file, datatype=\"video\"):\n",
-    "    commands = []\n",
-    "    commands.append(f'echo \"Converting {input_dir} to {output_file}\"')\n",
-    "    output_dir = os.path.dirname(output_file)\n",
-    "\n",
-    "    commands.append(f\"mkdir -p {output_dir}\")\n",
-    "    commands.append(f\"cd {OPEN_SORA_HOME}\")\n",
-    "    commands.append(f\"python -m tools.datasets.convert {datatype} {input_dir} --output {output_file}\")\n",
-    "    return \" && \".join(commands), output_file\n",
-    "\n",
-    "\n",
-    "def get_video_info(input_file):\n",
-    "    commands = []\n",
-    "    base, ext = os.path.splitext(input_file)\n",
-    "    output_file = f\"{base}_info{ext}\"\n",
-    "    output_format = ext[1:]\n",
-    "\n",
-    "    commands.append(f'echo \"Getting info of {input_file} to {output_file}\"')\n",
-    "    commands.append(f\"cd {OPEN_SORA_HOME}\")\n",
-    "    commands.append(\n",
-    "        f\"python -m tools.datasets.datautil {input_file} --output {output_file} --format {output_format} --info --fmin 1\"\n",
-    "    )\n",
-    "    return \" && \".join(commands), output_file\n",
-    "\n",
-    "\n",
-    "def get_caption_llava7b_video(input_file):\n",
-    "    commands = []\n",
-    "    base, ext = os.path.splitext(input_file)\n",
-    "    output_file = f\"{base}_info{ext}\"\n",
-    "    output_format = ext[1:]\n",
-    "\n",
-    "    commands.append(f'echo \"Getting info of {input_file} to {output_file}\"')\n",
-    "    commands.append(f\"cd {OPEN_SORA_HOME}\")\n",
-    "    commands.append(\n",
-    "        f\"torchrun --nproc_per_node 8 --standalone -m tools.caption.caption_llava {input_file} --dp-size 8 --tp-size 1 --model-path liuhaotian/llava-v1.6-mistral-7b --prompt video\"\n",
-    "    )\n",
-    "    commands.append(\n",
-    "        f\"python -m tools.datasets.datautil {base}_part*{ext} --output {output_file} --format {output_format} --intersection {input_file} --clean-caption --refine-llm-caption --remove-empty-caption\"\n",
-    "    )\n",
-    "\n",
-    "\n",
-    "def get_caption_load(input_file):\n",
-    "    commands = []\n",
-    "    base, ext = os.path.splitext(input_file)\n",
-    "    output_file = f\"{base}_caption{ext}\"\n",
-    "    output_format = ext[1:]\n",
-    "\n",
-    "    commands.append(f'echo \"Getting caption of {input_file} to {output_file}\"')\n",
-    "    commands.append(f\"cd {OPEN_SORA_HOME}\")\n",
-    "    commands.append(\n",
-    "        f\"python -m tools.datasets.datautil {input_file} --output {output_file} --format {output_format} --load-caption json --remove-empty-caption --clean-caption\"\n",
-    "    )\n",
-    "    return \" && \".join(commands), output_file\n",
-    "\n",
-    "\n",
-    "def get_aesthetic_score(input_file):\n",
-    "    commands = []\n",
-    "    base, ext = os.path.splitext(input_file)\n",
-    "    output_file = f\"{base}_aes{ext}\"\n",
-    "    output_format = ext[1:]\n",
-    "\n",
-    "    commands.append(f'echo \"Getting aesthetic score of {input_file} to {output_file}\"')\n",
-    "    commands.append(f\"cd {OPEN_SORA_HOME}\")\n",
-    "    commands.append(f\"torchrun --standalone --nproc_per_node 8 -m tools.scoring.aesthetic.inference {input_file}\")\n",
-    "    commands.append(\n",
-    "        f\"python -m tools.datasets.datautil {base}_part*{ext} --output {output_file} --format {output_format} --sort aes\"\n",
-    "    )\n",
-    "    return \" && \".join(commands), output_file\n",
-    "\n",
-    "\n",
-    "def get_flow_score(input_file):\n",
-    "    commands = []\n",
-    "    base, ext = os.path.splitext(input_file)\n",
-    "    output_file = f\"{base}_flow{ext}\"\n",
-    "\n",
-    "    commands.append(f'echo \"Getting flow score of {input_file} to {output_file}\"')\n",
-    "    commands.append(f\"cd {OPEN_SORA_HOME}\")\n",
-    "    commands.append(f\"torchrun --standalone --nproc_per_node 8 -m tools.scoring.optical_flow.inference {input_file}\")\n",
-    "    return \" && \".join(commands), output_file\n",
-    "\n",
-    "\n",
-    "def get_match_score(input_file):\n",
-    "    commands = []\n",
-    "    base, ext = os.path.splitext(input_file)\n",
-    "    output_file = f\"{base}_match{ext}\"\n",
-    "\n",
-    "    commands.append(f'echo \"Getting match score of {input_file} to {output_file}\"')\n",
-    "    commands.append(f\"cd {OPEN_SORA_HOME}\")\n",
-    "    commands.append(f\"torchrun --standalone --nproc_per_node 8 -m tools.scoring.matching.inference {input_file}\")\n",
-    "    return \" && \".join(commands), output_file\n",
-    "\n",
-    "\n",
-    "def get_cmotion_score(input_file):\n",
-    "    commands = []\n",
-    "    base, ext = os.path.splitext(input_file)\n",
-    "    output_file = f\"{base}_cmotion{ext}\"\n",
-    "\n",
-    "    commands.append(f'echo \"Getting cmotion score of {input_file} to {output_file}\"')\n",
-    "    commands.append(f\"cd {OPEN_SORA_HOME}\")\n",
-    "    commands.append(f\"python -m tools.caption.camera_motion_detect {input_file}\")\n",
-    "    return \" && \".join(commands), output_file\n",
-    "\n",
-    "\n",
-    "def get_commands(job_list):\n",
-    "    commands = []\n",
-    "    output_file = None\n",
-    "    for job in job_list:\n",
-    "        cmd = job.pop(\"cmd\")\n",
-    "        if output_file is None:\n",
-    "            command, output_file = cmd(**job)\n",
-    "            commands.append(command)\n",
-    "        else:\n",
-    "            job[\"input_file\"] = output_file\n",
-    "            command, output_file = cmd(**job)\n",
-    "            commands.append(command)\n",
-    "    commands.append(f'echo \"All Done!\"')\n",
-    "    return \" && \".join(commands), output_file"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "The following is the pipeline for panda."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 12,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "echo \"Getting flow score of /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption.csv to /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption_flow.csv\" && cd /home/zhaowangbo/zangwei/opensora/ && torchrun --standalone --nproc_per_node 8 -m tools.scoring.optical_flow.inference /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption.csv && echo \"All Done!\"\n",
-      "/mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption_flow.csv\n"
-     ]
-    }
-   ],
-   "source": [
-    "host = \"h800-83\"\n",
-    "log_file = os.path.join(OPEN_SORA_HOME, \"logs/data-panda-16-split.log\")\n",
-    "input_dir = \"/mnt/disk1/data-panda/16\"\n",
-    "output_file = \"/mnt/hdd/data/panda70m_by/raw/meta/split-16/meta.csv\"\n",
-    "cmd, output_file = get_commands(\n",
-    "    [\n",
-    "        # {\n",
-    "        #     \"cmd\": convert_dataset_cmd,\n",
-    "        #     \"input_dir\": input_dir,\n",
-    "        #     \"output_file\": output_file,\n",
-    "        # },\n",
-    "        # {\n",
-    "        #     \"cmd\": get_video_info,\n",
-    "        # },\n",
-    "        # {\n",
-    "        #     \"cmd\": get_caption_load,\n",
-    "        # },\n",
-    "        # {\n",
-    "        #     \"cmd\": get_aesthetic_score,\n",
-    "        # },\n",
-    "        # {\n",
-    "        #     \"cmd\": get_flow_score,\n",
-    "        # },\n",
-    "        # {\n",
-    "        #     \"cmd\": get_match_score,\n",
-    "        # },\n",
-    "        # {\n",
-    "        #     \"cmd\": get_cmotion_score,\n",
-    "        # },\n",
-    "    ]\n",
-    ")\n",
-    "print(cmd)\n",
-    "print(output_file)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 10,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "echo \"Getting info of /mnt/hdd/data/panda70m_by/raw/meta/split-8/meta_loadjson_noempty_clean.csv to /mnt/hdd/data/panda70m_by/raw/meta/split-8/meta_loadjson_noempty_clean_info.csv\" && cd /home/zhaowangbo/zangwei/opensora/ && python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-8/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-8/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1 && echo \"All Done!\"\n",
-      "/mnt/hdd/data/panda70m_by/raw/meta/split-8/meta_loadjson_noempty_clean_info.csv\n"
-     ]
-    }
-   ],
-   "source": [
-    "host = \"h800-81\"\n",
-    "split = 8\n",
-    "log_file = os.path.join(OPEN_SORA_HOME, f\"logs/data-panda-{split}-split.log\")\n",
-    "cmd, output_file = get_commands(\n",
-    "    [\n",
-    "        {\n",
-    "            \"cmd\": get_video_info,\n",
-    "            \"input_file\": f\"/mnt/hdd/data/panda70m_by/raw/meta/split-{split}/meta_loadjson_noempty_clean.csv\",\n",
-    "        },\n",
-    "    ]\n",
-    ")\n",
-    "print(cmd)\n",
-    "print(output_file)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 13,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "HOST: h800-83\n",
-      "COMMAND: nohup bash -ic 'echo \"Getting flow score of /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption.csv to /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption_flow.csv\" && cd /home/zhaowangbo/zangwei/opensora/ && torchrun --standalone --nproc_per_node 8 -m tools.scoring.optical_flow.inference /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption.csv && echo \"All Done!\"' >> /home/zhaowangbo/zangwei/opensora/logs/data-panda-16-split.log 2>&1 &\n",
-      "HOST: h800-83\n",
-      "COMMAND: bash -ic 'ps ux | cat | grep --color=never -E \"python|sleep|torchrun|colossal\"'\n",
-      "==== STDOUT ====\n",
-      " zhaowan+  891142  0.8  0.0 20886768 197296 pts/10 Sl+ 22:36   0:22 /home/zhaowangbo/.conda/envs/opensora/bin/python /home/zhaowangbo/.conda/envs/opensora/bin/torchrun --standalone --nproc_per_node 1 -m tools.scoring.aesthetic.inference /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption.csv --num_frames 2 --num_workers 0\n",
-      "zhaowan+  891294  3.0  0.0 74364928 1938304 ?    Ssl  22:36   1:15 /home/zhaowangbo/.conda/envs/opensora/bin/python -u -m tools.scoring.aesthetic.inference /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption.csv --num_frames 2 --num_workers 0\n",
-      "zhaowan+ 2100459  2.7  0.0  14180  5292 ?        S    23:17   0:00 bash -ic echo \"Getting flow score of /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption.csv to /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption_flow.csv\" && cd /home/zhaowangbo/zangwei/opensora/ && torchrun --standalone --nproc_per_node 8 -m tools.scoring.optical_flow.inference /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption.csv && echo \"All Done!\"\n",
-      "zhaowan+ 2100656 13.0  0.0 2803920 18924 ?       I    23:17   0:00 /home/zhaowangbo/.conda/envs/opensora/bin/python /home/zhaowangbo/.conda/envs/opensora/bin/torchrun --standalone --nproc_per_node 8 -m tools.scoring.optical_flow.inference /mnt/hdd/data/panda70m_by/raw/meta/split-16/meta_info_caption.csv\n",
-      "zhaowan+ 2100724 10.0  0.0  14176  5104 ?        Ss   23:17   0:00 bash -ic ps ux | cat | grep --color=never -E \"python|sleep|torchrun|colossal\"\n",
-      "zhaowan+ 2100840  0.0  0.0  12124   728 ?        S    23:17   0:00 grep --color=auto --color=never -E python|sleep|torchrun|colossal\n",
-      "\n",
-      "==== STDERR ====\n",
-      " bash: cannot set terminal process group (-1): Inappropriate ioctl for device\n",
-      "bash: no job control in this shell\n",
-      "\n"
-     ]
-    }
-   ],
-   "source": [
-    "run_command(cmd, host, log_file=log_file, nohup=True)\n",
-    "ps(host)"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Using following commands to monitor the status of the jobs."
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": 9,
-   "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "HOST: h800-80\n",
-      "COMMAND: bash -ic 'ps ux | cat | grep --color=never -E \"python|sleep|torchrun|colossal\"'\n",
-      "==== STDOUT ====\n",
-      " zhaowan+ 3707972  0.1  0.0   8492  5240 ?        S    21:07   0:00 bash -ic echo \"Getting info of /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv to /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv\" && cd /home/zhaowangbo/zangwei/opensora/ && python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1 && echo \"All Done!\"\n",
-      "zhaowan+ 3708645 33.6  0.0 17792816 399760 ?     Sl   21:07   0:21 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710337  0.4  0.0 18128668 386580 ?     Sl   21:07   0:00 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710347  3.8  0.0 17590060 397448 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710349  4.2  0.0 17590060 397468 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710351  4.1  0.0 17590060 397460 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710353  4.8  0.0 17590060 397468 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710355  4.9  0.0 17590060 397456 ?     R    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710358  4.6  0.0 17590060 397464 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710360  4.5  0.0 17590060 397456 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710362  5.4  0.0 17590060 397472 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710366  5.5  0.0 17590060 397500 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710368  5.3  0.0 17590060 397504 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710370  5.0  0.0 17590060 397496 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710377  3.6  0.0 17590060 397476 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710379  4.5  0.0 17590060 397472 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710381  4.5  0.0 17590060 397484 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710391  3.8  0.0 17590060 397468 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710401  5.2  0.0 17590060 397508 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710403  5.9  0.0 17590060 397500 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710409  4.6  0.0 17590060 397500 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710411  5.0  0.0 17590060 397472 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710425  4.0  0.0 17590060 397456 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710435  5.3  0.0 17590060 397500 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710448  5.2  0.0 17590060 397492 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710450  4.7  0.0 17590060 397512 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710459  5.1  0.0 17590060 397484 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710466  5.0  0.0 17590060 397516 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710468  4.5  0.0 17590060 397488 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710470  3.4  0.0 17590060 397492 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710472  4.6  0.0 17590060 397548 ?     R    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710474  4.7  0.0 17590060 397520 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710476  4.5  0.0 17590060 397512 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710478  4.4  0.0 17590060 397524 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710480  5.1  0.0 17590060 397524 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710482  4.5  0.0 17590060 397524 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710483  5.6  0.0 17590060 397504 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710486  4.6  0.0 17590060 397532 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710489  3.5  0.0 17590060 397520 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710491  4.5  0.0 17590060 397528 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710493  5.5  0.0 17590060 397540 ?     R    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710495  4.1  0.0 17590060 397532 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710497  4.1  0.0 17590060 397548 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710499  5.3  0.0 17590060 397536 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710501  4.1  0.0 17590060 397552 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710503  4.0  0.0 17590060 397540 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710505  4.9  0.0 17590060 397544 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710507  4.9  0.0 17590060 397544 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710509  4.6  0.0 17590060 397532 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710511  4.9  0.0 17590060 397588 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710513  4.4  0.0 17590060 397536 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710515  4.5  0.0 17590060 397536 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710517  5.5  0.0 17590060 397536 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710519  4.5  0.0 17590060 397552 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710521  5.3  0.0 17590060 397552 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710523  6.6  0.0 17590060 398028 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710525  5.7  0.0 17590060 397548 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710527  5.1  0.0 17590060 397544 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710529  6.8  0.0 17590060 397568 ?     I    21:07   0:03 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710531  3.9  0.0 17590060 397560 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710533  4.5  0.0 17590060 397572 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710535  5.6  0.0 17590060 397548 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710537  6.1  0.0 17590060 398048 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710539  5.2  0.0 17590060 397552 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710541  4.4  0.0 17590060 397536 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710543  6.8  0.0 17590060 398020 ?     R    21:07   0:03 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710545  4.4  0.0 17590060 397556 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710547  5.5  0.0 17590060 397552 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710549  4.3  0.0 17590060 397564 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710551  4.6  0.0 17590060 397564 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710553  5.1  0.0 17590060 397568 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710555  4.5  0.0 17590060 397564 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710556  5.9  0.0 17590060 397580 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710559  5.0  0.0 17590060 397568 ?     D    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710561  6.4  0.0 17590060 397588 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710563  5.0  0.0 17590060 397644 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710565  5.1  0.0 17590060 397584 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710566  5.5  0.0 17590060 397584 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710568  5.1  0.0 17590060 397588 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710571  4.4  0.0 17590060 397600 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710573  5.1  0.0 17590060 397644 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710575  4.4  0.0 17590060 397652 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710577  4.6  0.0 17590060 397652 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710579  3.8  0.0 17590060 397596 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710581  5.0  0.0 17590060 397588 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710583  4.5  0.0 17590060 397596 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710585  4.4  0.0 17590060 397612 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710587  4.2  0.0 17590060 397596 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710589  5.7  0.0 17590060 397612 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710591  4.4  0.0 17590060 397596 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710593  5.3  0.0 17590060 397604 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710595  5.2  0.0 17590060 397604 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710597  4.5  0.0 17590060 397608 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710599  5.2  0.0 17590060 397608 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710601  5.2  0.0 17590060 397620 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710603  5.4  0.0 17590060 397600 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710605  3.5  0.0 17590060 397572 ?     I    21:07   0:01 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710607  5.1  0.0 17590060 397612 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3710609  6.0  0.0 17590060 397628 ?     I    21:07   0:02 python -m tools.datasets.datautil /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean.csv --output /mnt/hdd/data/panda70m_by/raw/meta/split-6/meta_loadjson_noempty_clean_info.csv --format csv --info --fmin 1\n",
-      "zhaowan+ 3862481  5.0  0.0   8488  5328 ?        Ss   21:08   0:00 bash -ic ps ux | cat | grep --color=never -E \"python|sleep|torchrun|colossal\"\n",
-      "zhaowan+ 3868112  0.0  0.0   6412   724 ?        S    21:08   0:00 grep --color=auto --color=never -E python|sleep|torchrun|colossal\n",
-      "\n",
-      "==== STDERR ====\n",
-      " bash: cannot set terminal process group (-1): Inappropriate ioctl for device\n",
-      "bash: no job control in this shell\n",
-      "\n"
-     ]
-    }
-   ],
-   "source": [
-    "ps(host)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "nvitop(host)"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "kill(, host)"
-   ]
-  }
- ],
- "metadata": {
-  "kernelspec": {
-   "display_name": "Python 3",
-   "language": "python",
-   "name": "python3"
-  },
-  "language_info": {
-   "codemirror_mode": {
-    "name": "ipython",
-    "version": 3
-   },
-   "file_extension": ".py",
-   "mimetype": "text/x-python",
-   "name": "python",
-   "nbconvert_exporter": "python",
-   "pygments_lexer": "ipython3",
-   "version": "3.9.13"
-  }
- },
- "nbformat": 4,
- "nbformat_minor": 2
-}
--- a/notebooks/launch.ipynb
+++ b/notebooks/launch.ipynb
--- a/scripts/train.py
+++ b/scripts/train.py
@ -304,6 +304,7 @@ def main():
            dataloader.sampler.set_start_index(0)
        if cfg.dataset.type == "VariableVideoTextDataset":
            dataloader.batch_sampler.set_epoch(epoch + 1)
+            print("Epoch done, recomputing batch sampler")
        start_step = 0