ALL-teach_sys/frontend_化工/extract_complete_data.py

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import json
import re

def extract_sections(content):
    """从项目内容中提取各个部分"""
    # 提取项目概述
    overview_match = re.search(r'# 一、项目概述\s*\n\n(.*?)(?=\n# 二、|\n\n# 二、|$)', content, re.DOTALL)
    overview = overview_match.group(1).strip() if overview_match else ""

    # 提取项目整体流程介绍
    process_match = re.search(r'# 二、项目整体流程介绍\s*\n\n(.*?)(?=\n# 三、|\n\n# 三、|$)', content, re.DOTALL)
    process = process_match.group(1).strip() if process_match else ""

    # 提取项目案例关键技术点
    keypoints_match = re.search(r'# 三、项目案例关键技术点\s*\n\n(.*?)$', content, re.DOTALL)
    keypoints = keypoints_match.group(1).strip() if keypoints_match else ""

    return overview, process, keypoints

def main():
    # 读取原始数据
    with open('网页未导入数据/化工产业/化工项目案例.json', 'r', encoding='utf-8') as f:
        data = json.load(f)

    # 为每个项目生成完整的数据
    complete_projects = []
    for i, project in enumerate(data):
        project_id = i + 1
        content = project['项目案例内容']
        overview, process, keypoints = extract_sections(content)

        complete_projects.append({
            'id': project_id,
            'name': project['案例名称'],
            'overview': overview,
            'process': process,
            'keypoints': keypoints
        })

        print(f"项目 {project_id}: {project['案例名称']}")
        print(f"  概述长度: {len(overview)}")
        print(f"  流程长度: {len(process)}")
        print(f"  技术点长度: {len(keypoints)}")

    # 保存提取的完整数据
    with open('extracted_project_data.json', 'w', encoding='utf-8') as f:
        json.dump(complete_projects, f, ensure_ascii=False, indent=2)

    print(f"\n✅ 已提取 {len(complete_projects)} 个项目的完整数据到 extracted_project_data.json")

if __name__ == "__main__":
    main()
初始化12个产业教务系统项目主要内容： - 包含12个产业的完整教务系统前端代码 - 智能启动脚本 (start-industry.sh) - 可视化产业导航页面 (index.html) - 项目文档 (README.md) 优化内容： - 删除所有node_modules和.yoyo文件夹，从7.5GB减少到2.7GB - 添加.gitignore文件避免上传不必要的文件 - 自动依赖管理和智能启动系统产业列表： 1. 文旅产业 (5150) 2. 智能制造 (5151) 3. 智能开发 (5152) 4. 财经商贸 (5153) 5. 视觉设计 (5154) 6. 交通物流 (5155) 7. 大健康 (5156) 8. 土木水利 (5157) 9. 食品产业 (5158) 10. 化工产业 (5159) 11. 能源产业 (5160) 12. 环保产业 (5161) 🤖 Generated with Claude Code Co-Authored-By: Claude <noreply@anthropic.com> 2025-09-24 14:14:14 +08:00			`#!/usr/bin/env python3`
			`# -- coding: utf-8 --`
			`import json`
			`import re`

			`def extract_sections(content):`
			`"""从项目内容中提取各个部分"""`
			`# 提取项目概述`
			`overview_match = re.search(r'# 一、项目概述\s\n\n(.?)(?=\n# 二、\|\n\n# 二、\|$)', content, re.DOTALL)`
			`overview = overview_match.group(1).strip() if overview_match else ""`

			`# 提取项目整体流程介绍`
			`process_match = re.search(r'# 二、项目整体流程介绍\s\n\n(.?)(?=\n# 三、\|\n\n# 三、\|$)', content, re.DOTALL)`
			`process = process_match.group(1).strip() if process_match else ""`

			`# 提取项目案例关键技术点`
			`keypoints_match = re.search(r'# 三、项目案例关键技术点\s\n\n(.?)$', content, re.DOTALL)`
			`keypoints = keypoints_match.group(1).strip() if keypoints_match else ""`

			`return overview, process, keypoints`

			`def main():`
			`# 读取原始数据`
			`with open('网页未导入数据/化工产业/化工项目案例.json', 'r', encoding='utf-8') as f:`
			`data = json.load(f)`

			`# 为每个项目生成完整的数据`
			`complete_projects = []`
			`for i, project in enumerate(data):`
			`project_id = i + 1`
			`content = project['项目案例内容']`
			`overview, process, keypoints = extract_sections(content)`

			`complete_projects.append({`
			`'id': project_id,`
			`'name': project['案例名称'],`
			`'overview': overview,`
			`'process': process,`
			`'keypoints': keypoints`
			`})`

			`print(f"项目 {project_id}: {project['案例名称']}")`
			`print(f" 概述长度: {len(overview)}")`
			`print(f" 流程长度: {len(process)}")`
			`print(f" 技术点长度: {len(keypoints)}")`

			`# 保存提取的完整数据`
			`with open('extracted_project_data.json', 'w', encoding='utf-8') as f:`
			`json.dump(complete_projects, f, ensure_ascii=False, indent=2)`

			`print(f"\n✅ 已提取 {len(complete_projects)} 个项目的完整数据到 extracted_project_data.json")`

			`if __name__ == "__main__":`
			`main()`