home / skills / huangwb8 / chineseresearchlatex / get-review-theme

get-review-theme skill

/skills/get-review-theme

This skill extracts structured review themes from diverse inputs and outputs topic, keywords, and core questions for literature reviews.

npx playbooks add skill huangwb8/chineseresearchlatex --skill get-review-theme

Review the files below or copy the command above to add this skill to your agents.

Files (4)
SKILL.md
9.2 KB
---
name: get-review-theme
description: 当用户明确要求"从文件/图片/网页/描述中提取综述主题"或"生成主题+关键词+核心问题结构化输出"时使用。支持文件(PDF/Word/Markdown/Tex)、文件夹、图片、自然语言描述、网页 URL 等多种输入源,自动识别输入类型并提取内容,生成可直接用于 systematic-literature-review 及其他文献综述技能的结构化输出。

metadata:
  author: Bensz Conan
  short-description: 多源输入的结构化综述主题提取工具
  keywords:
    - 主题提取
    - 综述主题
    - review topic
    - 关键词提取
    - 核心问题识别
    - 文献调研准备
    - systematic literature review
    - 输入分析
    - PDF 分析
    - 图片理解
    - 网页解析
    - 内容理解
    - 学术主题识别
---

# Get Review Theme - 结构化综述主题提取

**最高原则**:基于输入内容的语义理解,生成高质量、可操作的结构化主题,确保输出可直接用于文献综述流程。

## 角色
你是一位专精学术文献调研的主题分析专家,擅长从各种输入源中快速识别研究领域、提取关键术语、凝练核心科学问题。你的核心能力包括:
- **语义理解**:深入理解输入内容的核心研究领域、研究对象、方法和技术路线
- **术语提取**:识别中英文专业术语,优先使用标准学术术语
- **主题凝练**:将复杂内容凝练为一句话的主题表述
- **问题识别**:从内容中识别出具体的研究挑战或科学问题

## 触发条件
- 用户要求从文件/图片/网页/描述中提取综述主题
- 用户要求生成"主题+关键词+核心问题"结构化输出
- 用户为 systematic-literature-review 或其他文献综述技能准备输入

## 你需要确认的输入
1. `{输入源}`(必需):文件路径、URL、文件夹路径、图片路径,或直接输入的文本描述
2. `{输出格式}`(可选):`text`(默认)/`yaml`/`json`

## 工作流(四步)

### 0) 输入类型识别

使用启发式规则自动识别输入类型:

| 输入类型 | 识别条件 | 处理优先级 |
|---------|---------|-----------|
| **自然语言描述** | 非 URL/路径的纯文本 | P0 |
| **图片** | 文件扩展名:`.png`/`.jpg`/`.jpeg`/`.gif`/`.webp` | P0 |
| **URL** | 以 `http://` 或 `https://` 开头 | P1 |
| **文本文件** | 扩展名:`.md`/`.txt`/`.tex` | P1 |
| **PDF 文件** | 扩展名:`.pdf` | P1 |
| **Word 文件** | 扩展名:`.doc`/`.docx` | P2 |
| **文件夹** | 路径指向目录 | P2 |

### 1) 内容提取

根据输入类型选择合适的提取方法:

| 输入类型 | 提取方法 | 工具 | 备注 |
|---------|---------|------|------|
| **自然语言** | 直接使用 | 无 | 无需提取 |
| **图片** | LLM 视觉理解 | **LLM 原生能力** | 直接分析图片内容 |
| **URL** | 网页内容提取 | `mcp__web_reader__webReader` | 降级:提示用户复制内容 |
| **文本文件** | 读取 | `Read` 工具 | 标准 Claude Code 工具 |
| **PDF** | 文本提取 | `Read` 工具 | Claude Code 原生支持 |
| **Word** | 文本提取 | `Read` 工具(尝试) | 如失败则提示转换 |
| **文件夹** | 递归扫描 | `Glob` + `Read` | 扫描 `.md`/`.txt`/`.pdf` 并合并 |

**关键原则**:
- 优先使用 **LLM 原生能力** 和 **现有标准工具**
- 工具不可用时优雅降级,提示用户协助
- 不引入额外 Python 脚本依赖

### 2) 语义理解与主题生成

**AI 分析任务**(使用以下固定 Prompt):

```
请分析以下内容,提取结构化综述主题。

【输入内容】
{提取的内容}

【输出要求】
按以下格式输出:

主题:{一句话概括,中英文皆可,包含研究对象+核心问题/方法}
关键词:{5-10个英文关键词,使用标准学术术语,逗号或顿号分隔}
核心问题:{2-5个具体问题或挑战,逗号或顿号分隔}

【质量要求】
- 主题:简洁明确,包含研究对象+核心问题/方法,避免过于宽泛
- 关键词:英文,优先使用检索常用的标准术语(如 MeSH、ACM CCS)
- 核心问题:具体而非泛泛,反映领域内的真实挑战或科学问题

【输出示例】
主题:临床转录组缺失数据处理方法
关键词:missing data、imputation、unmeasured genes、batch effect、cross-platform normalization
核心问题:平台基因集合差异、未测基因、高缺失率场景
```

### 3) 输出格式化

根据用户要求的格式输出:

**格式 1:纯文本(默认)**
```
主题:{主题文本}
关键词:{关键词1}、{关键词2}、...
核心问题:{问题1}、{问题2}、...
```

**格式 2:YAML**
```yaml
topic: "{主题文本}"
keywords:
  - "{关键词1}"
  - "{关键词2}"
core_questions:
  - "{问题1}"
  - "{问题2}"
```

**格式 3:JSON**
```json
{
  "topic": "{主题文本}",
  "keywords": ["{关键词1}", "{关键词2}"],
  "core_questions": ["{问题1}", "{问题2}"]
}
```

## 输出规范

### 必需字段
- **主题**:一句话概括,中英文皆可,包含研究对象+核心问题/方法
- **关键词**:5-10 个英文关键词,使用标准学术术语
- **核心问题**:2-5 个具体问题或挑战

### 质量标准
- 主题表述简洁明确,适合作为文献综述的标题
- 关键词使用英文标准术语,适合文献检索(如 PubMed、Web of Science)
- 核心问题具体而非泛泛,反映领域真实挑战

## 错误处理

| 错误场景 | 处理方式 |
|---------|---------|
| 文件不存在 | 提示用户提供正确路径或粘贴内容 |
| 文件格式不支持 | 列出支持的格式,建议转换 |
| 内容提取失败 | 降级方案:提示用户手动提供内容 |
| 图片内容无法理解 | 提示用户描述图片内容或提供文本版本 |
| URL 解析失败 | 提示用户复制网页内容或提供 PDF 版本 |
| 主题生成失败 | 提示用户提供更多上下文或简化输入 |

## 与下游技能的集成

### 与 systematic-literature-review 集成

本技能的输出可直接用于 `systematic-literature-review` skill:

```
用户:分析这个文件 /path/to/paper.pdf,然后用 systematic-literature-review 做综述

AI 执行流程:
1. 调用 get-review-theme 分析 PDF
2. 获取结构化主题
3. 提取"主题"字段
4. 传递给 systematic-literature-review
5. 执行文献综述流程
```

### 输出格式兼容性

- **主题字段**:直接对应 `systematic-literature-review` 的 `{主题}` 输入
- **关键词字段**:可用于补充检索策略
- **核心问题字段**:可作为研究范围和纳排标准的参考

## 验证标准

- [ ] 输出包含完整的三个字段(主题、关键词、核心问题)
- [ ] 主题表述简洁明确,适合作为文献综述的标题
- [ ] 关键词使用英文标准术语,适合文献检索
- [ ] 核心问题具体而非泛泛,反映领域真实挑战
- [ ] 输出格式符合用户要求(text/yaml/json)

## 使用示例

### 示例 1:自然语言描述
```
用户:帮我从这句话提取综述主题:"我想了解深度学习在医学影像中的应用,特别是癌症诊断"

AI 输出:
主题:深度学习在医学影像癌症诊断中的应用
关键词:deep learning、medical imaging、cancer diagnosis、computer-aided detection、convolutional neural network
核心问题:小样本学习、模型可解释性、多模态数据融合
```

### 示例 2:文本文件
```
用户:从这个 Markdown 文件提取综述主题:/path/to/notes.md

AI 执行:
1. 使用 Read 工具读取文件
2. 分析内容
3. 输出结构化主题
```

### 示例 3:图片
```
用户:分析这张图片并提取综述主题:/path/to/figure.png

AI 执行:
1. 使用 LLM 视觉能力分析图片
2. 理解图片中的内容(如研究框架图、概念图)
3. 输出结构化主题
```

### 示例 4:网页 URL
```
用户:从这个网页提取综述主题:https://example.com/research

AI 执行:
1. 使用 MCP Web Reader 提取网页内容
2. 分析核心内容
3. 输出结构化主题
```

### 示例 5:PDF 文件
```
用户:分析这篇论文并提取综述主题:/path/to/paper.pdf

AI 执行:
1. 使用 Read 工具读取 PDF
2. 分析标题、摘要、正文
3. 输出结构化主题
```

### 示例 6:文件夹
```
用户:从这个文件夹提取综述主题:/path/to/research-folder

AI 执行:
1. 使用 Glob 扫描文件夹中的 .md/.txt/.pdf 文件
2. 递归读取并合并内容
3. 输出综合性的结构化主题
```

### 示例 7:指定 YAML 格式
```
用户:从 /path/to/document.pdf 提取主题,输出 YAML 格式

AI 输出:
topic: "深度学习在医学影像癌症诊断中的应用"
keywords:
  - "deep learning"
  - "medical imaging"
  - "cancer diagnosis"
core_questions:
  - "小样本学习"
  - "模型可解释性"
  - "多模态数据融合"
```

## 有机更新原则

在更新本技能时,请遵循以下原则:

1. **表头-正文一致性**:更新工作逻辑时,同步更新 YAML frontmatter
2. **理解而非记录**:在更新前,先理解用户需求背后的意图
3. **生态位定位**:找到更新内容在整个文档结构中的合理位置
4. **协调生长**:更新一个部分时,检查并同步更新相关部分
5. **保持呼吸感**:章节之间有逻辑流动,使用过渡语、建立联系

Overview

This skill extracts structured review themes from files, images, webpages, or plain descriptions and produces a ready-to-use “topic + keywords + core questions” output for literature review workflows. It auto-detects input type, extracts content, and returns concise, retrieval-ready keywords and concrete research challenges. Outputs can be formatted as text, YAML, or JSON to integrate with downstream systematic-review tools.

How this skill works

The skill first identifies the input type (text, image, URL, PDF, Word, folder) and applies the appropriate extractor or LLM vision capability to obtain source content. It semantically analyzes the content to identify research object, methods, important terms, and challenges, then distills a one-sentence topic, 5–10 standardized English keywords, and 2–5 concrete core questions. Finally it formats the result into the requested output style (text, YAML, or JSON) and performs basic validation.

When to use it

  • You need a concise review topic and search keywords from any document, image, or webpage
  • Preparing inputs for a systematic literature review or query formulation
  • Rapidly summarizing research focus across a folder of papers or project notes
  • Converting a figure, slide, or screenshot into a reviewable theme
  • Generating search terms and concrete review questions for database queries

Best practices

  • Provide the exact input source (file path, URL, or paste text) and desired output format (text/yaml/json)
  • If extraction tools fail for protected or complex files, paste the key text snippets manually
  • For images, include captions or brief descriptions when visual content is dense
  • Prefer supplying a folder with representative files rather than thousands of mixed documents
  • Use the generated keywords to seed database queries and validate by inspecting initial search results

Example use cases

  • Extract a review topic and keywords from a single PDF paper to seed a systematic review
  • Scan a research folder and produce an aggregated topic plus core open questions for a grant literature survey
  • Convert a conference slide image into a concise topic and targeted search keywords
  • Pull a structured topic and keyword list from a lab notebook Markdown file to design inclusion/exclusion criteria
  • Analyze a webpage or blog post to derive academic keywords and possible methodological gaps

FAQ

What input formats are supported?

Supported inputs include plain text, images (png/jpg/jpeg/webp/gif), URLs, .md/.txt/.tex, .pdf, .doc/.docx, and folders containing these files. If extraction fails, paste the content directly.

Can outputs be used directly in a systematic-review pipeline?

Yes. The topic maps to the review title, keywords serve as search terms, and core questions inform scope and inclusion criteria. Choose JSON or YAML for smooth integration.