-
Notifications
You must be signed in to change notification settings - Fork 0
Description
「実務で使えるか」を正面から測るなら、**“開発〜運用の一連の価値の出し方”**をフレームワーク横断で同条件に固定して比較するのが要点です。TDD強制/テレメトリ/セキュリティを内包させることで(Lighthouse・a11y・パフォーマンス、OpenTelemetry、OWASP系の観点がREADMEに明記)そのまま“評価ハーネス”の核にできます。([GitHub]1)
以下、「何を測るか → どう測るか(実装案) → スコアリングと運用 → 今すぐ入れられるPR雛形」の順で提案します。
1) 何を測るか(実務価値KPI)
A. デリバリ性能(DORA 4指標)
デプロイ頻度/変更リードタイム/変更失敗率/復旧時間を収集。実務価値との相関が高く、外部比較もしやすい標準指標です。([dora.dev]2, [docs.gitlab.com]3, [Google Cloud]4)
B. プロダクト品質
- Web品質:Lighthouse(Performance/Accessibility/Best Practices/SEO)をCIで継続計測。([Chrome for Developers]5, [googlechrome.github.io]6)
- テストの実効性:コードカバレッジ+Mutation Score(Stryker)。([stryker-mutator.io]7)
- 仕様準拠:要件→テスト→実装のトレーサビリティ整合率(
ae-frameworkのフェーズ検証と相性◎)。([GitHub]1)
C. 運用性/可観測性
OpenTelemetryでトレース・メトリクスを既定収集。スパン網羅率、p95/p99レイテンシ、エラー率、ビルド/テスト時間など。([OpenTelemetry]8)
D. セキュリティ/コンプライアンス
- OWASP ASVSレベル準拠の点検観点を採用(自動/半自動チェック表)。([owasp.org]9, [GitHub]10)
- **Policy as Code(OPA/Rego+Conftest)**で設定・ルール違反を自動検出。([openpolicyagent.org]11, [conftest.dev]12)
E. DX(開発者体験)とAI活用効率
Time-to-First-Value(新規着手→最初のE2E成功までの時間)、手作業コマンド数、ドキュメント到達率。AI生成比率、リトライ回数、**自動修復成功率(CEGIS)**などは ae-framework の自動化機能から取得。([GitHub]1)
2) どう測るか(ae-frameworkに組み込む実装案)
A. 評価プロトコルを固定(EVAL_PROTOCOL.md)
- マシン資源・シード・温度・ツール許可・タイムアウトを固定。
- “同一提出物→同一スコア再現”を品質基準に明記。
B. シナリオ・課題セット(同難易度で複数)
- CRUD+認証API+UI(Lighthouse閾値付き)
- ストリーム/イベント処理
- DDD/検索/集計を含むバックエンド
各シナリオは「要件YAML→自動生成テスト→実装→検証」を共通パイプラインで実行。ae-frameworkの6フェーズ(Intent→Formal→Tests→Code→Verify→Operate)とCLIを標準化I/Fにします。([GitHub]1)
C. 自動計測の配線
- Lighthouse CI:PRごとに実行、LHCIサーバへ蓄積・しきい値アサート。([googlechrome.github.io]6, [GitHub]13)
- StrykerJS:Mutationスコアを閾値評価(例:≧65%)。([stryker-mutator.io]7)
- OpenTelemetry:ビルド/テスト/アプリのスパン発行、メトリクス相関。([OpenTelemetry]8)
- ASVSチェック:自動化できる項目をまず優先(認証・セッション・入力検証等)。([owasp.org]9)
- OPA/Conftest:依存/設定/セキュリティポリシをRegoで検査(例:秘密直コミット禁止、ヘッダ設定、CI権限最小化)。([conftest.dev]12)
D. “ゴールデンパス”比較
社内の**定番テンプレ(Golden Path)**と、素のNext.jsやNxなどの“素”とを同シナリオでAB比較。ゴールデンパスは開発の迷いを減らし実務効率を上げる考え方なので、導入前後のDORA/品質差分が示せます。([Spotify Engineering]14, [redhat.com]15)
3) スコアリング設計(例)
-
総合スコア
S = 0.30*Deliver + 0.30*Quality + 0.20*Ops + 0.15*Security + 0.05*DX- Deliver:DORAを標準化(z-score)して合成。([dora.dev]2)
- Quality:Lighthouse平均/閾値達成率+Mutation Score。([Chrome for Developers]5, [stryker-mutator.io]7)
- Ops:OTel由来のp95、失敗率、テスト/ビルド時間。([OpenTelemetry]8)
- Security:ASVS自動化項目の充足率+Conftest違反0件。([owasp.org]9, [conftest.dev]12)
- DX:TTFV、手作業コマンド数、AI自動修復成功率(CEGIS)。
-
プロファイル:Bronze/Silver/Gold(例:Goldは Lighthouse全項目≥90、Mutation≥65%、ASVS L2主要項目OK、DORAで上位四分位)。([Chrome for Developers]5, [stryker-mutator.io]7, [owasp.org]9)
4) ベンチ運用(透明性と再現性)
- 結果スキーマ(
results/schema.json):モデル/設定/資源/リトライ/トークン/壁時計/ピークメモリ/各小項目スコアをJSON固定。 - 公開テスト+非公開テスト:リーク対策と頑健性のため二層構成。
- ダッシュボード:LHCI+OTelバックエンドで履歴と傾向を可視化。([GitHub]13, [OpenTelemetry]8)
- 異議申し立て手順:再評価条件とログ添付要件をCONTRIBUTINGに定義。
5) 今すぐ入れられる PR(雛形)
BENCHMARKS.md:シナリオ定義・評価式・合格基準。EVAL_PROTOCOL.md:資源/シード/温度/ツール可否/丸め規則。.github/workflows/bench.yml:LHCI+Stryker+ASVSチェック+OPA/Conftest+OTelエクスポートの一括実行。([googlechrome.github.io]6, [stryker-mutator.io]7, [owasp.org]9, [conftest.dev]12)policies/:Regoサンプル(依存のライセンス/秘密/HTTPヘッダ等)。([conftest.dev]12)docs/scoring.md:DORAの計測方法(GitHub/Actions/Incidentsの突合例)。([Google Cloud]4)reports/:結果JSON→HTML整形(ランキング/レーダーチャート)。
必要なら、上記ファイル一式(BENCHMARKS.md / EVAL_PROTOCOL.md / bench.yml / scoring.md / Rego例 / schema.json)をこの前提に合わせたドラフトとしてすぐに書き起こします。