Slash Command430 repo starsupdated 7mo ago

do-all

The `do-all` command automates an end-to-end data analysis workflow that sequentially executes data quality assessment, exploratory analysis, hypothesis generation, visualization, code generation, and report compilation. Use this command when you need comprehensive analysis of a dataset with human approval checkpoints at critical stages, specifying the dataset location, analysis domain (user-behavior, business-impact, technical-performance, or custom), and desired output format (markdown, html, pdf, or docx).

View source Repository: claude-data-analysis

Install in Claude Code

Copy

mkdir -p ~/.claude/commands && curl -fsSL https://raw.githubusercontent.com/liangdabiao/claude-data-analysis/HEAD/.claude/commands/do-all.md -o ~/.claude/commands/do-all.md

Then start a new Claude Code session; the slash command loads automatically.

Definition

do-all.md

# 全自动化数据分析命令

使用 `do-all` 命令自动化完成整个数据分析工作流程，整合所有现有的commands功能。

## Context
- 数据集位置: @data_storage/$1
- 分析领域: $2 (user-behavior, business-impact, technical-performance, custom)
- 输出格式: $3 (markdown, html, pdf, docx)
- 工作目录: !`pwd`
- 输出目录: ./complete_analysis/
- 人类反馈检查点: 关键步骤暂停等待用户确认

## Your Task

按照以下工作流程自动执行完整的数据分析：

### 1. 数据质量检查 (Quality Assurance)
- 执行数据质量检查和验证
- 识别数据问题和异常
- 生成质量评估报告
- **人类反馈点**: 等待用户确认数据质量可接受

### 2. 探索性数据分析 (Data Exploration)
- 执行全面的探索性数据分析
- 生成统计摘要和描述性分析
- 识别关键模式和关系
- 发现数据中的趋势和异常

### 3. 研究假设生成 (Hypothesis Generation)
- 基于数据模式生成研究假设
- 设计实验验证方案
- 制定统计测试计划
- **人类反馈点**: 等待用户确认假设方向

### 4. 数据可视化 (Visualization)
- 创建全面的数据可视化
- 生成交互式仪表板
- 制作关键发现图表
- 设计可视化故事板

### 5. 代码生成 (Code Generation)
- 生成可重现的分析代码
- 创建数据处理管道
- 编写自动化脚本
- 生成测试用例

### 6. 综合报告生成 (Report Generation)
- 整合所有分析结果
- 创建完整的分析报告
- 包含执行摘要和建议
- 生成技术附录

## 工作流程设计

### 阶段 1: 数据质量评估
```python
def data_quality_assessment(dataset_path):
    """执行全面的数据质量评估"""
    # 数据加载和基础检查
    quality_results = {
        'completeness': assess_completeness(dataset_path),
        'accuracy': assess_accuracy(dataset_path),
        'consistency': assess_consistency(dataset_path),
        'timeliness': assess_timeliness(dataset_path),
        'overall_score': calculate_overall_score()
    }

    return quality_results
```

### 阶段 2: 探索性分析
```python
def exploratory_analysis(dataset_path):
    """执行探索性数据分析"""
    # 统计分析
    statistical_results = perform_statistical_analysis(dataset_path)

    # 模式发现
    patterns = discover_patterns(dataset_path)

    # 相关性分析
    correlations = analyze_correlations(dataset_path)

    # 异常检测
    anomalies = detect_anomalies(dataset_path)

    return {
        'statistical': statistical_results,
        'patterns': patterns,
        'correlations': correlations,
        'anomalies': anomalies
    }
```

### 阶段 3: 假设生成
```python
def generate_hypotheses(analysis_results, domain):
    """基于分析结果生成研究假设"""
    hypotheses = []

    # 基于相关性生成假设
    if analysis_results['correlations']['strong_correlations']:
        hypotheses.extend(create_correlation_hypotheses(
            analysis_results['correlations'], domain
        ))

    # 基于模式生成假设
    if analysis_results['patterns']['significant_patterns']:
        hypotheses.extend(create_pattern_hypotheses(
            analysis_results['patterns'], domain
        ))

    # 基于异常生成假设
    if analysis_results['anomalies']['significant_anomalies']:
        hypotheses.extend(create_anomaly_hypotheses(
            analysis_results['anomalies'], domain
        ))

    return hypotheses
```

### 阶段 4: 可视化创建
```python
def create_comprehensive_visualizations(dataset_path, analysis_results):
    """创建全面的数据可视化"""
    visualizations = {
        'overview': create_overview_dashboard(dataset_path),
        'trends': create_trend_analysis_charts(analysis_results),
        'correlations': create_correlation_matrix(analysis_results),
        'distributions': create_distribution_plots(analysis_results),
        'comparative': create_comparative_analysis(analysis_results)
    }

    return visualizations
```

### 阶段 5: 代码生成
```python
def generate_analysis_code(dataset_path, workflow_config):
    """生成完整的分析代码"""
    code = {
        'data_preprocessing': generate_preprocessing_code(dataset_path),
        'quality_checks': generate_quality_check_code(),
        'analysis_functions': generate_analysis_functions(workflow_config),
        'visualization_code': generate_visualization_code(),
        'reporting_code': generate_reporting_code(),
        'tests': generate_unit_tests(),
        'documentation': generate_code_documentation()
    }

    return code
```

### 阶段 6: 报告生成
```python
def generate_comprehensive_report(all_results, output_format):
    """生成综合分析报告"""
    report = {
        'executive_summary': create_executive_summary(all_results),
        'data_overview': create_data_overview_section(all_results),
        'methodology': create_methodology_section(all_results),
        'findings': create_findings_section(all_results),
        'hypotheses': create_hypotheses_section(all_results),
        'visualizations': create_visualizations_section(all_results),
        'recommendations': create_recommendations_section(all_results),
        'appendices': create_appendices_section(all_results)
    }

    return format_report(report, output_format)
```

## 人类反馈检查点

### 检查点 1: 数据质量确认
```
数据质量评估完成:
- 整体质量得分: 85/100
- 发现的主要问题:
  * 缺失值: 5.2%
  * 异常值: 12个
  * 一致性问题: 3个

您是否确认数据质量可接受并继续分析? (Y/N)
```

### 检查点 2: 分析方向确认
```
探索性分析完成，发现的主要模式:
1. 用户参与度与转化率呈正相关 (r=0.78)
2. 移动端用户留存率较高
3. 周末活跃度显著提升

基于这些发现，建议的研究方向:
- 用户参与度优化实验
- 移动端体验改进
- 周末营销策略优化

您是否同意这些研究方向，还是希望调整分析重点? (Y/调整)
```

### 检查点 3: 可视化策略确认
```
可视化策略建议:
1. 交互式仪表板 - 展示关键指标和趋势
2. 相关性热图 - 显示变量间关系
3. 时间序列图 - 展示用户行为变化
4. 分群分析图 - 比较不同用户群体

您是否同意此可视化策略，还是有特定需求? (Y/自定义)
```

## 预期输出

### 完整分析包
```
complete_analysis/
├── data_quality_report/
│   ├── quality_assessment.json
│   ├── data_issues.log
│   └── quality_improvement_recommendations.md
├── exploratory_analysis/
│   ├── statistical_summary.csv
│   ├── pattern_analysis.md
│   └── correlation_analysis.json
├── hypothesis_reports/
│   ├── research_hypotheses.md
│   ├── experimental_design.md
│   └── validation_plan.md
├── visualizations/
│   ├── interactive_dashboard.html
│   ├── analysis_charts.png
│   └── visualization_code.py
├── generated_code/
│   ├── complete_analysis_pipeline.py
│   ├── data_preprocessing.py
│   ├── quality_checks.py
│   └── analysis_functions.py
├── final_report/
│   ├── comprehensive_analysis_report.$3
│   ├── executive_summary.$3
│   ├── technical_appendix.$3
│   └── presentation_slides.$3
└── workflow_log/
    ├── analysis_progress.log
    ├── human_feedback.log
    └── execution_summary.md
```

### 质量保证检查清单
- [ ] 数据质量达到可接受标准 (≥75分)
- [ ] 所有分析步骤都有文档记录
- [ ] 代码经过测试和验证
- [ ] 可视化清晰且信息丰富
- [ ] 报告包含执行摘要和技术细节
- [ ] 所有人类反馈都已处理
- [ ] 工作流程完全可重现

## 错误处理和恢复

### 常见问题和解决方案
1. **数据质量问题**: 自动修复或提供人工干预选项
2. **分析失败**: 重新执行失败步骤或跳过可选步骤
3. **内存不足**: 数据分块处理或采样分析
4. **依赖缺失**: 自动安装缺失的库
5. **用户超时