高度な​音声認識

音声認識API

業界を​リードする​パフォーマンスで​日本語の​高精度音声テキスト変換。​日本語音声に​最適化された​精度と​スピードで​音声を​テキストに​変換します。

音声認識デモ
オーディオを​録音して、​すぐに​テキスト化
💡 ヒント:1~10秒の​間で​録音してください。​停止後、​自動的に​テキスト化が​開始されます。

業界を​リードする​精度

実際の​日本語音声で​ベンチマークされた​パフォーマンス

98.5%
総合精度
クリーンな​音声環境
95.2%
騒音環境
背景ノイズ処理
<0.5秒
レスポンスタイム
1分間の​音声あたり
97.8%
混合言語
日英コードスイッチング
ドメイン別精度比較
カスタマーサービス通話96.5%
ビジネスミーティング97.2%
医療相談95.8%
法的手続き98.1%
技術的な​議論96.9%

日本語音声向けに​構築

日本語音声認識専用に​設計された​機能

複数方​言サポート
標準日本語、​関西弁、​東北弁、​その​他の​地域方​言を​正確に​認識
リアルタイムストリーミング
リアルタイムで​音声ストリームを​処理し、​ライブ文字起こしと​即座の​結果を​提供
話者ダイアライゼーション
会話内の​複数の​話者を​自動的に​識別して​分離
超高速
最適化された​推論パイプラインで​数時間の​音声を​数分で​処理
エンタープライズセキュリティ
エンドツーエンド暗号化と​セキュアな​音声処理で​SOC 2準拠
カスタム語彙
業界固有の​用語、​ブランド名、​カスタムフレーズを​追加して​精度を​向上

信頼される​ユースケース

企業が​ASR APIを​どのように​活用しているかを​ご覧ください

コールセンター文字起こし
品質保証、​コンプライアンス、​インサイトの​ために​カスタマーサービスの​通話を​自動的に​文字起こし。
  • 品質監視
  • コンプライアンス記録
  • エージェントトレーニング
  • 顧客センチメント分析
会議メモ
会議、​インタビュー、​ディスカッションを​検索可能で​実用的な​テキスト文書に​変換。
  • ビジネスミーティング
  • インタビュー記録
  • 会議録音
  • チームスタンドアップ
字幕と​キャプション
ビデオ、​ライブストリーム、​放送用の​正確な​字幕を​リアルタイムまたは​バッチモードで​生成。
  • ビデオ字幕
  • ライブイベントキャプション
  • 放送文字起こし
  • アクセシビリティ準拠

API Key

APIキーを​設定
以下に​APIキーを​入力すると、​この​ページの​すべての​コード例が​自動的に​更新されます
ホットワードと​カスタム語彙
テキストプロンプトに​ホットワードを​含める​ことで、​専門用語の​文字起こし精度を​向上させます。​ホットワードは、​モデルが​次の​ものを​正しく​認識するのに​役立ちます:
{
  "audio": "<base64-encoded audio>"
}

クイックスタートガイド

3つの​簡単な​ステップで​音声認識APIを​開始

1. APIキーを​取得

Shisa AIアカウントに​サインアップし、​開発者ダッシュボードから​APIキーを​取得します。​Authorizationヘッダーに​'shsk:'プレフィックスを​付けて​含めます:

Authorization: Bearer shsk:YOUR_API_KEY
2. 音声を​準備

APIは​様々な​形式の​base64エンコードされた​音声を​受け付けます。​サポートされている​音声形式は​次の​とおりです:

  • OGG​(Opus、​Vorbis)
  • WAV​(PCM、​16ビット)
  • MP3、​WebM、​M4A、​FLAC
3. 最初の​リクエストを​送信

音声データと​設定を​含むPOSTリクエストを​APIエンドポイントに​送信します。​cURLを​使用した​基本的な​例:

curl -s -XPOST 'https://api.shisa.ai/asr/srt/audio_llm' \
  -H 'Authorization: Bearer shsk:YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "audio": "'$(base64 -w0 audio.ogg)'"
  }'

Minimal request

Only the audio field is required. Language is auto-detected and tuning parameters use sensible defaults.

Expected Response

The API returns a JSON response with the transcribed text, detected language, and confidence score.

{
  "text": "こんにちは、シサAIです。",
  "language": "ja",
  "confidence": 0.98
}

APIエンドポイント

音声認識APIは、​最大限の​柔軟性と​コンテキスト認識の​ために​チャット形式の​インターフェースを​使用します

音声認識エンドポイント
POSThttps://api.shisa.ai/asr/srt/audio_llm

この​マルチモーダルエンドポイントは、​テキストの​指示と​音声コンテンツの​両方を​受け付け、​精度向上の​ために​コンテキストと​カスタム語彙​(ホットワード)を​提供できます。

リクエストパラメータ

これらの​パラメータで​文字起こしリクエストを​設定

リクエストボディパラメータ
パラメータ必須説明
audiostringRequiredBase64-encoded audio data (WAV, OGG, MP3, or FLAC)
languagestringOptionalLanguage code (e.g. "ja", "en"). Omit for automatic language detection (LID).
hotwordsstring[]OptionalArray of words/phrases to boost recognition accuracy for domain-specific terms
temperaturefloatOptionalサンプリング温度​(0.0-2.0)。​低い値は​出力を​より​決定的にします。​デフォルト: 0.0
Default: 0.0
top_pfloatOptionalニュークレアスサンプリングパラメータ​(0.0-1.0)。​出力の​多様性を​制御。​デフォルト: 0.85
Default: 0.85
frequency_penaltyfloatOptional頻出トークンに​ペナルティ​(-2.0〜2.0)。​繰り返しを​減らします。​デフォルト: 0.5
Default: 0.5
repetition_penaltyfloatOptionalトークンの​繰り返しに​ペナルティ​(1.0-2.0)。​1.0より​大きい値は​繰り返しを​抑制。​デフォルト: 1.05
Default: 1.05
vadintegerOptionalVoice activity detection mode
Default: 1
音声入力形式

音声は​次の​形式の​base64エンコードされた​データURLと​して​提供する​必要が​あります:

"audio": "SGVsbG8gV29ybGQ..."

Pass raw base64-encoded audio data in the audio field. The server auto-detects the format from the binary header.

サポートされている​音声形式:

FormatMIME TypeDetection
WAVaudio/wavRIFF header
OGGaudio/oggOggS header
MP3audio/mpegID3 tag or MPEG sync bytes
FLACaudio/flacfLaC header

音声を​Base64に​エンコード

次の​コマンドを​使用して​音声ファイルを​base64に​変換します:

# Encode any supported format to base64
base64 -w0 audio.ogg    # Linux
base64 -i audio.ogg     # macOS

# Use in a curl request
curl -s -XPOST 'https://api.shisa.ai/asr/srt/audio_llm' \\
  -H 'Authorization: Bearer shsk:YOUR_API_KEY' \\
  -H 'Content-Type: application/json' \\
  -d '{ "audio": "'$(base64 -w0 audio.ogg)'" }'
Supported Languages (LID)

The API supports automatic language identification (LID) for the following languages. The detected language is returned in the language field of the response.

Primary Languages

jaJapanese
enEnglish
zhChinese

レスポンス形式

APIレスポンス構造の​理解

成功レスポンス
{
  "text": "こんにちは、シサAIです。",
  "language": "ja",
  "confidence": 0.98
}

レスポンスフィールド:

  • text: The transcribed text from the audio
  • language: The detected or specified language code
  • confidence: Transcription confidence score (0 to 1)

エラー処理

一般的な​エラーと​解決方​法

エラーレスポンス形式
{
  "code": 400,
  "error": "No audio data provided"
}
401 Authentication Error

Returned when the API key is missing, invalid, or expired. Check that your Authorization header includes a valid token.

{
  "context": ["authMiddleware"],
  "code": 104,
  "name": "ErrAuthenticationFailed",
  "error": "Authentication error: Invalid token"
}
Error Codes
CodeCauseError Message
400Missing audio fieldNo audio data provided
400Audio decodes to emptyNo audio data provided
400Not base64 encodedInvalid base64 audio data
400Base64 decode failsInvalid base64 audio data
400Unsupported audio formatUnsupported audio format
500Services not readyTranscription service not available
500Backend failureTranscription failed: ...

コード例

人気の​ある​プログラミング言語での​統合例

cURL - クイックスタート
cURLを​使用して​音声ファイルを​文字起こしする​基本的な​例
curl -s -XPOST 'https://api.shisa.ai/asr/srt/audio_llm' \
  -H 'Authorization: Bearer shsk:YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "audio": "'$(base64 -w0 audio.ogg)'"
  }'
Python - 完全な​例
base64エンコードと​ホットワードサポートを​含む完全な​Python関数
import base64
import requests

# Read and encode audio file
with open("audio.ogg", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode("utf-8")

url = "https://api.shisa.ai/asr/srt/audio_llm"
headers = {
    "Authorization": "Bearer shsk:YOUR_API_KEY",
    "Content-Type": "application/json"
}

payload = {
    "audio": audio_data
}

response = requests.post(url, headers=headers, json=payload)
response.raise_for_status()
print(response.json())
JavaScript - ブラウザ統合
FileReader APIを​使用した​クライアント側JavaScript例
async function transcribeAudio(audioFile) {
  // Read file and convert to base64
  const fileBuffer = await audioFile.arrayBuffer();
  const base64Audio = btoa(
    new Uint8Array(fileBuffer).reduce(
      (data, byte) => data + String.fromCharCode(byte),
      ''
    )
  );

  const response = await fetch('https://api.shisa.ai/asr/srt/audio_llm', {
    method: 'POST',
    headers: {
      'Authorization': 'Bearer shsk:YOUR_API_KEY',
      'Content-Type': 'application/json'
    },
    body: JSON.stringify({
      audio: base64Audio
    })
  });

  if (!response.ok) {
    throw new Error(`API request failed: ${response.status}`);
  }

  return await response.json();
}

// Example usage with file input
document.querySelector('#audioInput').addEventListener('change', async (e) => {
  const file = e.target.files[0];
  if (file) {
    const result = await transcribeAudio(file);
    console.log('Transcription:', result);
  }
});

音声を​精密に​テキストに​変換

月間180分​(3時間)の​無料文字起こしから​始められます。​成長に​合わせて​スケール。