مدیریتِ مؤثرِ هزینه‌ها

Claude Code بر اساس مصرفِ توکنِ API هزینه می‌گیرد. برای قیمت‌گذاریِ پلن‌های اشتراکی (Pro, Max, Team, Enterprise)، به claude.com/pricing مراجعه کن. هزینه‌ی هر توسعه‌دهنده بسته به انتخابِ مدل، اندازه‌ی کدبیس و الگوهای استفاده — مثل اجرای چند نمونه به‌صورت هم‌زمان یا خودکارسازی — تفاوتِ زیادی دارد.

در مجموعِ استقرارهای enterprise، هزینه‌ی متوسط حدودِ $13 به‌ازای هر توسعه‌دهنده در هر روزِ فعال و $150 تا 250 به‌ازای هر توسعه‌دهنده در ماه است، و برای ۹۰٪ از کاربران زیرِ $30 در هر روزِ فعال باقی می‌ماند. برای برآوردِ هزینه‌ی تیمِ خودت، با یک گروهِ آزمایشیِ کوچک شروع کن و پیش از گسترشِ بیشتر، با ابزارهای رهگیریِ زیر یک خطِ مبنا بساز.

این صفحه به این موارد می‌پردازد: رهگیریِ هزینه‌ها، مدیریتِ هزینه برای تیم‌ها، و کاهشِ مصرفِ توکن.

رهگیریِ هزینه‌ها

استفاده از دستورِ `/usage`

بخشِ Session در بالای /usage آمارِ دقیقِ مصرفِ توکن برای نشستِ جاری‌ات را نشان می‌دهد. رقمِ دلاری یک برآورد است که به‌صورتِ محلی از شمارشِ توکن‌ها محاسبه می‌شود و ممکن است با صورت‌حسابِ واقعی‌ات تفاوت داشته باشد. برای صورت‌حسابِ معتبر، به صفحه‌ی Usage در Claude Console مراجعه کن.

Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

در پلنِ Pro، Max، Team یا Enterprise، دستورِ /usage تفکیکی از این‌که چه چیزی در برابرِ سقفِ پلن‌ات حساب می‌شود را هم نشان می‌دهد. مصرفِ اخیر را به skillها، ساب‌ایجنت‌ها، plugins و تک‌تکِ سرورهای MCP نسبت می‌دهد و هر کدام را به‌صورتِ درصدی از کل نشان می‌دهد. کلیدِ d یا w را بزن تا بینِ ۲۴ ساعتِ گذشته و ۷ روزِ گذشته جابه‌جا شوی. این ارقام تقریبی هستند و از تاریخچه‌ی نشستِ محلی روی همین دستگاه محاسبه می‌شوند، پس مصرف از دستگاه‌های دیگر یا claude.ai در آن لحاظ نمی‌شود.

در افزونه‌ی VS Code، همین تفکیک در پنجره‌ی Account & usage با یک کلیدِ Day و Week ظاهر می‌شود. به Claude Code نسخه‌ی v2.1.174 یا بالاتر نیاز دارد.

مدیریتِ هزینه برای تیم‌ها

هنگامِ استفاده از Claude API، می‌توانی سقفِ هزینه‌ی workspace را تنظیم کنی تا مجموعِ هزینه‌ی workspace مربوط به Claude Code محدود شود. ادمین‌ها می‌توانند گزارشِ هزینه و مصرف را ببینند در Console.

در پلن‌های Pro و Max، می‌توانی با دستورِ /usage-credits یک سقفِ هزینه‌ی ماهانه روی usage credits بگذاری. اگر به آن سقف برسی در حالی که هنوز usage credits در دسترس داری، Claude Code از تو می‌خواهد سقف را بالا ببری یا برداری تا بتوانی بدونِ خروج از CLI ادامه دهی. تغییرِ سقف به دسترسیِ صورت‌حساب روی حساب نیاز دارد.

وقتی برای نخستین بار Claude Code را با حسابِ Claude Console‌ات احراز هویت می‌کنی، یک workspace به نامِ “Claude Code” به‌صورتِ خودکار برایت ساخته می‌شود. این workspace رهگیری و مدیریتِ متمرکزِ هزینه را برای همه‌ی مصرفِ Claude Code در سازمان‌ات فراهم می‌کند. نمی‌توانی برای این workspace کلیدِ API بسازی؛ این workspace منحصراً برای احراز هویت و مصرفِ Claude Code است.

برای سازمان‌هایی با rate limitهای سفارشی، ترافیکِ Claude Code در این workspace در برابرِ rate limitهای کلیِ API سازمان‌ات حساب می‌شود. می‌توانی روی صفحه‌ی Limits این workspace در Claude Console یک rate limit برای workspace بگذاری تا سهمِ Claude Code را محدود کنی و از دیگر بارهای کاریِ production محافظت کنی.

روی Bedrock، Vertex و Foundry، Claude Code هیچ متریکی از فضای ابریِ تو نمی‌فرستد. برای به‌دست‌آوردنِ متریکِ هزینه، چند enterpriseِ بزرگ گزارش داده‌اند که از LiteLLM استفاده کرده‌اند — ابزاری متن‌باز که به شرکت‌ها کمک می‌کند هزینه را به‌ازای هر key رهگیری کنند. این پروژه وابسته به Anthropic نیست و از نظرِ امنیتی ممیزی نشده است.

توصیه‌های rate limit

هنگامِ راه‌اندازیِ Claude Code برای تیم‌ها، این توصیه‌های Token Per Minute (TPM) و Request Per Minute (RPM) به‌ازای هر کاربر را بر اساسِ اندازه‌ی سازمان‌ات در نظر بگیر:

اندازه‌ی تیم	TPM به‌ازای کاربر	RPM به‌ازای کاربر
۱ تا ۵ کاربر	200k-300k	5-7
۵ تا ۲۰ کاربر	100k-150k	2.5-3.5
۲۰ تا ۵۰ کاربر	50k-75k	1.25-1.75
۵۰ تا ۱۰۰ کاربر	25k-35k	0.62-0.87
۱۰۰ تا ۵۰۰ کاربر	15k-20k	0.37-0.47
۵۰۰+ کاربر	10k-15k	0.25-0.35

برای مثال، اگر ۲۰۰ کاربر داشته باشی، ممکن است برای هر کاربر 20k TPM درخواست کنی، یا در مجموع ۴ میلیون TPM (200*20,000 = 4 million).

مقدارِ TPM به‌ازای هر کاربر با بزرگ‌شدنِ تیم کاهش می‌یابد، چون در سازمان‌های بزرگ‌تر کاربرانِ کمتری معمولاً به‌صورتِ هم‌زمان از Claude Code استفاده می‌کنند. این rate limitها در سطحِ سازمان اعمال می‌شوند، نه به‌ازای هر کاربرِ فردی، یعنی کاربرانِ فردی می‌توانند به‌صورتِ موقت بیش از سهمِ محاسبه‌شده‌شان مصرف کنند وقتی دیگران فعالانه از سرویس استفاده نمی‌کنند.

هزینه‌ی توکنِ تیمِ ایجنت

تیم‌های ایجنت چند نمونه‌ی Claude Code را به‌وجود می‌آورند که هر کدام پنجره‌ی کانتکستِ خودش را دارد. مصرفِ توکن با تعدادِ هم‌تیمی‌های فعال و مدتِ اجرای هر کدام مقیاس می‌گیرد.

برای این‌که هزینه‌ی تیمِ ایجنت قابلِ‌مدیریت بماند:

برای هم‌تیمی‌ها از Sonnet استفاده کن. برای کارهای هماهنگی تعادلِ خوبی بینِ توانمندی و هزینه برقرار می‌کند.
تیم‌ها را کوچک نگه دار. هر هم‌تیمی پنجره‌ی کانتکستِ خودش را اجرا می‌کند، پس مصرفِ توکن تقریباً متناسب با اندازه‌ی تیم است.
پرامپت‌های spawn را متمرکز نگه دار. هم‌تیمی‌ها CLAUDE.md، سرورهای MCP و skillها را به‌صورتِ خودکار بار می‌کنند، اما هر چیزی در پرامپتِ spawn از همان آغاز به کانتکستِ آن‌ها اضافه می‌شود.
وقتی کار تمام شد تیم‌ها را پاک‌سازی کن. هم‌تیمی‌های فعال حتی در حالتِ بیکار هم به مصرفِ توکن ادامه می‌دهند.
تیم‌های ایجنت به‌صورتِ پیش‌فرض غیرفعال‌اند. برای فعال‌کردنشان CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 را در settings.json یا محیط‌ات تنظیم کن. به فعال‌کردنِ تیم‌های ایجنت نگاه کن.

کاهشِ مصرفِ توکن

هزینه‌ی توکن با اندازه‌ی کانتکست مقیاس می‌گیرد: هرچه Claude کانتکستِ بیشتری پردازش کند، توکنِ بیشتری مصرف می‌کنی. Claude Code به‌صورتِ خودکار هزینه‌ها را از طریقِ prompt caching بهینه می‌کند — که هزینه‌ی محتوای تکراری مثلِ پرامپت‌های سیستمی را کاهش می‌دهد — و auto-compaction، که وقتی به مرزِ کانتکست نزدیک می‌شویم تاریخچه‌ی گفت‌وگو را خلاصه می‌کند.

راهبردهای زیر کمک می‌کنند کانتکست را کوچک نگه داری و هزینه‌ی هر پیام را کاهش دهی.

کانتکست را پیش‌دستانه مدیریت کن

از /usage برای بررسیِ مصرفِ فعلیِ توکن‌ات استفاده کن، یا status line را پیکربندی کن تا آن را به‌صورتِ مداوم نشان دهد.

بینِ کارها پاک کن: وقتی به کاری بی‌ربط جابه‌جا می‌شوی، از /clear استفاده کن تا تازه شروع کنی. کانتکستِ کهنه در هر پیامِ بعدی توکن هدر می‌دهد. پیش از پاک‌کردن از /rename استفاده کن تا بعداً به‌راحتی نشست را پیدا کنی، سپس با /resume به آن برگرد.
دستورالعملِ سفارشیِ compaction اضافه کن: /compact Focus on code samples and API usage به Claude می‌گوید هنگامِ خلاصه‌سازی چه چیزی را حفظ کند.

رفتارِ compaction را می‌توانی در CLAUDE.md هم سفارشی کنی:

# Compact instructions

When you are using compact, please focus on test output and code changes

مدلِ درست را انتخاب کن

Sonnet بیشترِ کارهای کدنویسی را خوب از پس برمی‌آید و کم‌هزینه‌تر از Opus است. Opus را برای تصمیم‌های معماریِ پیچیده یا استدلالِ چندمرحله‌ای نگه دار. از /model برای جابه‌جاییِ مدل در میانه‌ی نشست استفاده کن، یا یک پیش‌فرض در /config تنظیم کن. برای کارهای ساده‌ی ساب‌ایجنت، model: haiku را در پیکربندیِ ساب‌ایجنت‌ات مشخص کن.

سربارِ سرورِ MCP را کاهش بده

تعریفِ ابزارهای MCP به‌صورتِ پیش‌فرض به تعویق می‌افتد، پس تا وقتی Claude از ابزارِ مشخصی استفاده نکند فقط نامِ ابزارها واردِ کانتکست می‌شود. /context را اجرا کن تا ببینی چه چیزی فضا را اشغال می‌کند.

هرجا ممکن بود ابزارهای CLI را ترجیح بده: ابزارهایی مثلِ gh، aws، gcloud و sentry-cli هنوز از سرورهای MCP کارآمدتر در مصرفِ کانتکست هستند، چون هیچ فهرستِ به‌ازای هر ابزار اضافه نمی‌کنند. Claude می‌تواند دستورهای CLI را مستقیماً اجرا کند.
سرورهای بلااستفاده را غیرفعال کن: /mcp را اجرا کن تا سرورهای پیکربندی‌شده را ببینی و هر کدام را که فعالانه استفاده نمی‌کنی غیرفعال کن.

برای زبان‌های typed، پلاگین‌های هوشِ کد نصب کن

پلاگین‌های هوشِ کد به Claude پیمایشِ دقیقِ نمادها را به‌جای جستجوی متن‌محور می‌دهند، و خواندنِ بی‌موردِ فایل‌ها را هنگامِ کاوشِ کدِ ناآشنا کاهش می‌دهند. یک فراخوانِ «go to definition» جایگزینِ چیزی می‌شود که وگرنه می‌توانست یک grep و سپس خواندنِ چند فایلِ نامزد باشد. سرورهای زبانِ نصب‌شده پس از ویرایش‌ها خطاهای نوع را هم به‌صورتِ خودکار گزارش می‌دهند، پس Claude اشتباهات را بدونِ اجرای کامپایلر می‌گیرد.

پردازش را به hooks و skills واگذار کن

hooksِ سفارشی می‌توانند داده را پیش از آن‌که Claude ببیند پیش‌پردازش کنند. به‌جای آن‌که Claude یک فایلِ لاگِ ۱۰٬۰۰۰ خطی را برای یافتنِ خطاها بخواند، یک hook می‌تواند برای ERROR گرپ بزند و فقط خطوطِ منطبق را برگرداند، و کانتکست را از ده‌ها هزار توکن به چند صد توکن کاهش دهد.

یک skill می‌تواند به Claude دانشِ تخصصی بدهد تا مجبور به کاوش نباشد. برای مثال، یک skillِ «codebase-overview» می‌تواند معماریِ پروژه‌ات، دایرکتوری‌های کلیدی و قراردادهای نام‌گذاری را شرح دهد. وقتی Claude آن skill را فرامی‌خواند، این کانتکست را فوراً به‌دست می‌آورد به‌جای آن‌که برای فهمِ ساختار توکن صرفِ خواندنِ چند فایل کند.

برای مثال، این hookِ PreToolUse خروجیِ تست را فیلتر می‌کند تا فقط شکست‌ها را نشان دهد:

settings.json
filter-test-output.sh

این را به settings.json‌ات اضافه کن تا hook پیش از هر دستورِ Bash اجرا شود:

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

این hook این اسکریپت را فرامی‌خواند، که بررسی می‌کند آیا دستور یک test runner است و آن را تغییر می‌دهد تا فقط شکست‌ها را نشان دهد:

#!/bin/bash
input=$(cat)
cmd=$(echo "$input" | jq -r '.tool_input.command')

# If running tests, filter to show only failures
if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
  filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
  echo "{\"hookSpecificOutput\":{\"hookEventName\":\"PreToolUse\",\"permissionDecision\":\"allow\",\"updatedInput\":{\"command\":\"$filtered_cmd\"}}}"
else
  echo "{}"
fi

دستورالعمل‌ها را از CLAUDE.md به skills منتقل کن

فایلِ CLAUDE.mdِ تو در آغازِ نشست به کانتکست بار می‌شود. اگر دستورالعمل‌های مفصلی برای ورک‌فلوهای خاص (مثلِ بازبینیِ PR یا مهاجرتِ پایگاه‌داده) داشته باشد، آن توکن‌ها حتی وقتی کارِ بی‌ربطی انجام می‌دهی هم حاضرند. Skills فقط هنگامِ فراخوانی به‌صورتِ on-demand بار می‌شوند، پس انتقالِ دستورالعمل‌های تخصصی به skillها کانتکستِ پایه‌ات را کوچک‌تر نگه می‌دارد. هدف‌ات این باشد که CLAUDE.md را با گنجاندنِ فقط مواردِ ضروری زیرِ ۲۰۰ خط نگه داری.

extended thinking را تنظیم کن

extended thinking به‌صورتِ پیش‌فرض فعال است چون عملکرد را در کارهای پیچیده‌ی برنامه‌ریزی و استدلال به‌طورِ چشمگیری بهبود می‌دهد. توکن‌های thinking به‌عنوانِ توکنِ خروجی صورت‌حساب می‌شوند، و بودجه‌ی پیش‌فرض بسته به مدل می‌تواند ده‌ها هزار توکن در هر درخواست باشد. برای کارهای ساده‌تر که استدلالِ عمیق لازم نیست، می‌توانی با پایین‌آوردنِ سطحِ effort با /effort یا در /model، با غیرفعال‌کردنِ thinking در /config، یا — روی مدل‌هایی با بودجه‌ی ثابتِ thinking — با پایین‌آوردنِ بودجه با MAX_THINKING_TOKENS=8000 هزینه‌ها را کاهش دهی. مدل‌های adaptive-reasoning بودجه‌های ناصفر را نادیده می‌گیرند، پس در آن‌جا به‌جایش از سطوحِ effort استفاده کن. غیرفعال‌کردنِ thinking روی Fable 5 در دسترس نیست، چون همیشه از extended thinking استفاده می‌کند.

عملیاتِ پرحجم را به ساب‌ایجنت‌ها واگذار کن

اجرای تست‌ها، واکشیِ مستندات، یا پردازشِ فایل‌های لاگ می‌تواند کانتکستِ چشمگیری مصرف کند. این‌ها را به ساب‌ایجنت‌ها واگذار کن تا خروجیِ پرحجم در کانتکستِ ساب‌ایجنت بماند و فقط یک خلاصه به گفت‌وگوی اصلی‌ات برگردد.

هزینه‌ی تیمِ ایجنت را مدیریت کن

تیم‌های ایجنت وقتی هم‌تیمی‌ها در حالتِ plan اجرا می‌شوند تقریباً ۷ برابرِ نشست‌های استاندارد توکن مصرف می‌کنند، چون هر هم‌تیمی پنجره‌ی کانتکستِ خودش را نگه می‌دارد و به‌عنوانِ یک نمونه‌ی جداگانه‌ی Claude اجرا می‌شود. کارهای تیمی را کوچک و خوداتکا نگه دار تا مصرفِ توکن به‌ازای هر هم‌تیمی محدود بماند. برای جزئیات به تیم‌های ایجنت نگاه کن.

پرامپت‌های مشخص بنویس

درخواست‌های مبهم مثلِ «این کدبیس را بهتر کن» اسکنِ گسترده را به راه می‌اندازند. درخواست‌های مشخص مثلِ «به تابعِ login در auth.ts اعتبارسنجیِ ورودی اضافه کن» به Claude اجازه می‌دهند با کمترین خواندنِ فایل کارآمد کار کند.

روی کارهای پیچیده کارآمد کار کن

برای کارهای طولانی‌تر یا پیچیده‌تر، این عادت‌ها کمک می‌کنند از هدررفتنِ توکن به‌خاطرِ رفتن به مسیرِ اشتباه جلوگیری کنی:

برای کارهای پیچیده از plan mode استفاده کن: پیش از پیاده‌سازی، Shift+Tab را بزن تا واردِ plan mode شوی. Claude کدبیس را کاوش می‌کند و رویکردی برای تأییدِ تو پیشنهاد می‌دهد، و وقتی جهتِ اولیه اشتباه باشد از دوباره‌کاریِ پرهزینه جلوگیری می‌کند.
زود مسیر را اصلاح کن: اگر Claude شروع به رفتن در جهتِ اشتباه کرد، Escape را بزن تا فوراً متوقف شود. از /rewind یا دو بار زدنِ Escape استفاده کن تا گفت‌وگو و کد را به یک checkpointِ قبلی برگردانی.
هدف‌های تأیید بده: در پرامپت‌ات موردهای تست بگنجان، اسکرین‌شات بچسبان، یا خروجیِ موردِ انتظار را تعریف کن. وقتی Claude بتواند کارِ خودش را تأیید کند، مشکلات را پیش از آن‌که نیاز باشد درخواستِ رفع کنی می‌گیرد.
به‌صورتِ تدریجی تست کن: یک فایل بنویس، تست‌اش کن، سپس ادامه بده. این کار مشکلات را زود می‌گیرد، وقتی رفع‌شان ارزان است.

مصرفِ توکنِ پس‌زمینه

Claude Code برای برخی قابلیت‌های پس‌زمینه حتی در حالتِ بیکار هم توکن مصرف می‌کند:

خلاصه‌سازیِ گفت‌وگو: کارهای پس‌زمینه‌ای که گفت‌وگوهای قبلی را برای قابلیتِ claude --resume خلاصه می‌کنند
پردازشِ دستور: برخی دستورها مثلِ /usage ممکن است درخواست‌هایی برای بررسیِ وضعیت تولید کنند

این فرایندهای پس‌زمینه مقدارِ کمی توکن مصرف می‌کنند (معمولاً زیرِ $0.04 در هر نشست) حتی بدونِ تعاملِ فعال.

درکِ تغییراتِ رفتارِ Claude Code

Claude Code مرتب به‌روزرسانی‌هایی دریافت می‌کند که ممکن است نحوه‌ی کارِ قابلیت‌ها، از جمله گزارشِ هزینه، را تغییر دهند. claude --version را اجرا کن تا نسخه‌ی فعلی‌ات را ببینی. برای پرسش‌های مشخصِ صورت‌حساب، از طریقِ حسابِ Console‌ات با پشتیبانیِ Anthropic تماس بگیر.