言語ガイド (エディション)
このガイドでは、プロトコルバッファデータ構造化のためのプロトコルバッファ言語の使用方法について説明します。これには、.proto
ファイルの構文や、.proto
ファイルからデータアクセスC++クラスを生成する方法が含まれます。プロトコルバッファ言語の2023年版について説明します。エディションがproto2およびproto3と概念的にどのように異なるかについては、Protobuf Editions概要を参照してください。
proto2構文に関する情報は、Proto2言語ガイドを参照してください。
proto3構文に関する情報は、Proto3言語ガイドを参照してください。
これはリファレンスガイドです。このドキュメントで説明されている多くの機能を使用したステップバイステップの例については、選択した言語のチュートリアルを参照してください。
メッセージ型の定義
まず、非常に簡単な例を見てみましょう。検索リクエストメッセージ形式を定義したいとします。各検索リクエストには、クエリ文字列、関心のある結果ページ、ページごとの結果数が含まれます。メッセージタイプを定義するために使用する.proto
ファイルは次のとおりです。
edition = "2023";
message SearchRequest {
string query = 1;
int32 page_number = 2;
int32 results_per_page = 3;
}
ファイルの最初の行は、protobuf言語仕様の2023年版を使用していることを指定します。
edition
(またはproto2/proto3の場合はsyntax
)は、ファイルの最初の非空白、非コメント行である必要があります。edition
またはsyntax
が指定されていない場合、プロトコルバッファコンパイラはproto2を使用していると仮定します。
SearchRequest
メッセージ定義は、3つのフィールド(名前/値のペア)を指定しています。これらは、このタイプのメッセージに含めたい各データに対応しています。各フィールドには名前と型があります。
フィールド型の指定
前の例では、すべてのフィールドはスカラー型です。2つの整数(page_number
とresults_per_page
)と文字列(query
)です。フィールドには、列挙型や、他のメッセージ型のような複合型も指定できます。
フィールド番号の割り当て
メッセージ定義の各フィールドには、1
から536,870,911
までの番号を、以下の制限付きで与える必要があります。
- 指定された番号は、そのメッセージのすべてのフィールドの中で一意でなければなりません。
- フィールド番号
19,000
から19,999
は、Protocol Buffersの実装のために予約されています。メッセージでこれらの予約済みフィールド番号を使用すると、プロトコルバッファコンパイラは文句を言います。 - 以前に予約されたフィールド番号や、拡張機能に割り当てられたフィールド番号は使用できません。
この番号は、メッセージのワイヤー形式でフィールドを識別するため、メッセージタイプが使用されてからは変更できません。「フィールド番号の変更」は、そのフィールドを削除し、同じ型で新しい番号を持つ新しいフィールドを作成することと同じです。これを正しく行う方法については、フィールドの削除を参照してください。
フィールド番号は決して再利用すべきではありません。予約済みリストからフィールド番号を取り出して、新しいフィールド定義で再利用しないでください。フィールド番号の再利用による影響を参照してください。
最も頻繁に設定されるフィールドには、フィールド番号1から15を使用する必要があります。フィールド番号が小さいほど、ワイヤー形式での占有スペースが少なくなります。たとえば、1から15の範囲のフィールド番号は、エンコードに1バイトかかります。16から2047の範囲のフィールド番号は、2バイトかかります。これについては、プロトコルバッファエンコーディングで詳しく知ることができます。
フィールド番号の再利用による影響
フィールド番号を再利用すると、ワイヤーフォーマットメッセージのデコードが曖昧になります。
Protobufのワイヤーフォーマットは無駄がなく、ある定義でエンコードされたフィールドを別の定義でデコードしたことを検出する方法を提供していません。
ある定義を使用してフィールドをエンコードし、その後、その同じフィールドを別の定義でデコードすると、以下のような事態につながる可能性があります。
- デバッグに費やされる開発者の時間
- パース/マージエラー(最良のシナリオ)
- 個人情報/機密情報の漏洩
- データの破損
フィールド番号の再利用の一般的な原因
フィールドの番号変更(見た目の美しい番号順にするために行われることがあります)。番号変更は、事実上、番号変更に関わるすべてのフィールドを削除して再追加することになり、互換性のないワイヤーフォーマットの変更をもたらします。
フィールドを削除し、将来の再利用を防ぐために番号を予約しないこと。
フィールド番号は32ビットではなく29ビットに制限されています。これは、3ビットがフィールドのワイヤーフォーマットを指定するために使用されるためです。詳細については、エンコーディングのトピックを参照してください。
フィールドカーディナリティの指定
メッセージフィールドは、次のいずれかになります。
単数形:
単数形フィールドには明示的なカーディナリティラベルがありません。これには2つの可能な状態があります。
- フィールドが設定されており、明示的に設定されたか、ワイヤーから解析された値が含まれています。ワイヤーにシリアライズされます。
- フィールドが設定されておらず、デフォルト値を返します。ワイヤーにシリアライズされません。
値が明示的に設定されたかどうかを確認できます。
エディションに移行されたProto3の暗黙的なフィールドは、
field_presence
機能セットをIMPLICIT
値に設定して使用します。エディションに移行されたProto2の
required
フィールドも、field_presence
機能を使用しますが、LEGACY_REQUIRED
に設定されます。repeated
: このフィールド型は、整形式のメッセージ内で0回以上繰り返すことができます。繰り返された値の順序は保持されます。map
: これはキーと値のペアのフィールド型です。このフィールド型の詳細については、マップを参照してください。
繰り返しフィールドはデフォルトでパックされます。
Protoエディションでは、スカラー数値型のrepeated
フィールドはデフォルトでpacked
エンコーディングを使用します。
`packed`エンコーディングについての詳細は、Protocol Bufferエンコーディングで確認できます。
整形式メッセージ
「整形式」という用語は、protobufメッセージに適用される場合、シリアライズ/デシリアライズされたバイトを指します。protocパーサーは、与えられたproto定義ファイルが解析可能であることを検証します。
単一フィールドは、ワイヤー形式のバイトで複数回出現する場合があります。パーサーは入力を受け入れますが、生成されたバインディングを介してアクセスできるのは、そのフィールドの最後のインスタンスのみです。このトピックの詳細については、最後のものが優先されるを参照してください。
メッセージ型の追加
複数のメッセージタイプを単一の.proto
ファイルで定義できます。これは、関連する複数のメッセージを定義する場合に役立ちます。たとえば、SearchResponse
メッセージタイプに対応する返信メッセージ形式を定義したい場合、同じ.proto
ファイルに追加できます。
message SearchRequest {
string query = 1;
int32 page_number = 2;
int32 results_per_page = 3;
}
message SearchResponse {
...
}
メッセージの結合は肥大化を招く 複数のメッセージタイプ(メッセージ、列挙型、サービスなど)を単一の.proto
ファイルで定義できますが、依存関係が異なる多数のメッセージが単一のファイルで定義されている場合、依存関係の肥大化を招く可能性もあります。.proto
ファイルごとに含めるメッセージタイプをできるだけ少なくすることをお勧めします。
コメントの追加
`.proto`ファイルにコメントを追加するには:
.protoコード要素の前の行に、C/C++/Javaの行末スタイルコメント「//」を使用することを推奨します。
Cスタイルのインライン/複数行コメント `/* ... */` も受け入れられます。
- 複数行コメントを使用する場合、マージン行として「*」を使用することが推奨されます。
/**
* SearchRequest represents a search query, with pagination options to
* indicate which results to include in the response.
*/
message SearchRequest {
string query = 1;
// Which page number do we want?
int32 page_number = 2;
// Number of results to return per page.
int32 results_per_page = 3;
}
フィールドの削除
フィールドを削除することは、適切に行われないと深刻な問題を引き起こす可能性があります。
フィールドが不要になり、クライアントコードからすべての参照が削除された場合、メッセージからフィールド定義を削除できます。ただし、削除されたフィールド番号を予約する必要があります。削除されたフィールド番号を予約しないと、将来、開発者がその番号を再利用する可能性があります。
また、メッセージのJSONおよびTextFormatエンコーディングが引き続き解析できるように、フィールド名を予約する必要もあります。
予約済みフィールド番号
メッセージタイプを更新する際に、フィールドを完全に削除したり、コメントアウトしたりすると、将来の開発者はそのタイプに独自の更新を行う際にフィールド番号を再利用できます。これは、フィールド番号の再利用による影響で説明されているように、深刻な問題を引き起こす可能性があります。これを防ぐには、削除したフィールド番号をreserved
リストに追加します。
将来の開発者がこれらの予約済みフィールド番号を使用しようとすると、protocコンパイラはエラーメッセージを生成します。
message Foo {
reserved 2, 15, 9 to 11;
}
予約済みフィールド番号の範囲は包括的です(`9 to 11`は`9, 10, 11`と同じです)。
予約済みのフィールド名
古いフィールド名を後で再利用することは一般的に安全ですが、TextProtoやJSONエンコーディングを使用している場合、フィールド名がシリアライズされるため例外です。このリスクを避けるために、削除したフィールド名を`reserved`リストに追加することができます。
予約された名前は、ランタイムの動作ではなく、protoc コンパイラの動作にのみ影響します。ただし、TextProto の実装では、解析時に予約された名前を持つ不明なフィールドを (他の不明なフィールドのようにエラーを発生させずに) 破棄する場合があります (現在、C++ と Go の実装のみがこれを行います)。ランタイムの JSON 解析は、予約された名前の影響を受けません。
message Foo {
reserved 2, 15, 9 to 11;
reserved foo, bar;
}
同じ`reserved`文にフィールド名とフィールド番号を混在させることはできないことに注意してください。
.proto
から何が生成されるか
.proto
ファイルに対してプロトコルバッファコンパイラを実行すると、コンパイラは、ファイルで記述したメッセージ型(フィールド値の取得と設定、出力ストリームへのメッセージのシリアル化、入力ストリームからのメッセージの解析など)を操作するために必要なコードを、選択した言語で生成します。
- C++の場合、コンパイラは各`.proto`から`.h`と`.cc`ファイルを生成し、ファイルで記述された各メッセージ型に対応するクラスを作成します。
- Javaの場合、コンパイラは各メッセージ型に対応するクラスを含む`.java`ファイルを生成します。また、メッセージクラスのインスタンスを作成するための特別な`Builder`クラスも生成します。
- Kotlinの場合、Javaの生成コードに加えて、コンパイラは各メッセージタイプに対して、改善されたKotlin APIを持つ
.kt
ファイルを生成します。これには、メッセージインスタンスの作成を簡素化するDSL、null許容フィールドアクセサー、コピー関数が含まれます。 - Pythonは少し異なります。Pythonコンパイラは、
.proto
ファイル内の各メッセージタイプの静的記述子を持つモジュールを生成します。これはその後、実行時に必要なPythonデータアクセスC++クラスを作成するためにメタクラスとともに使用されます。 - Goの場合、コンパイラは`.pb.go`ファイルを生成し、そのファイル内の各メッセージ型に対応する型を作成します。
- Rubyの場合、コンパイラはメッセージ型を含むRubyモジュールを持つ`.rb`ファイルを生成します。
- Objective-Cの場合、コンパイラは各`.proto`から`pbobjc.h`と`pbobjc.m`ファイルを生成し、ファイルで記述された各メッセージ型に対応するクラスを作成します。
- C#の場合、コンパイラは各`.proto`から`.cs`ファイルを生成し、ファイルに記述された各メッセージ型に対応するクラスを作成します。
- PHPの場合、コンパイラはファイルで記述された各メッセージタイプに対して
.php
メッセージファイルを生成し、コンパイルする各.proto
ファイルに対して.php
メタデータファイルを生成します。メタデータファイルは、有効なメッセージタイプを記述子プールにロードするために使用されます。 - Dartの場合、コンパイラはファイル内の各メッセージタイプに対応するクラスを持つ`.pb.dart`ファイルを生成します。
各言語のAPIの使用方法についての詳細は、選択した言語のチュートリアルを参考にしてください。さらに詳細なAPI情報については、関連するAPIリファレンスを参照してください。
スカラー値型
スカラーメッセージフィールドは以下のいずれかの型を持つことができます。表は`.proto`ファイルで指定された型と、自動生成されるクラスでの対応する型を示しています。
Proto 型 | 注釈 |
---|---|
double | |
float | |
int32 | 可変長エンコーディングを使用します。負の数のエンコードには非効率です。フィールドが負の値を持つ可能性が高い場合は、代わりにsint32を使用してください。 |
int64 | 可変長エンコーディングを使用します。負の数のエンコードには非効率です。フィールドが負の値を持つ可能性が高い場合は、代わりにsint64を使用してください。 |
uint32 | 可変長エンコーディングを使用します。 |
uint64 | 可変長エンコーディングを使用します。 |
sint32 | 可変長エンコーディングを使用します。符号付き整数値。これらは通常のint32よりも効率的に負の数をエンコードします。 |
sint64 | 可変長エンコーディングを使用します。符号付き整数値。これらは通常のint64よりも効率的に負の数をエンコードします。 |
fixed32 | 常に4バイト。値が228より大きいことが多い場合、uint32より効率的です。 |
fixed64 | 常に8バイト。値が256より大きいことが多い場合、uint64より効率的です。 |
sfixed32 | 常に4バイト。 |
sfixed64 | 常に8バイト。 |
bool | |
string | 文字列は常にUTF-8エンコードまたは7ビットASCIIテキストを含んでいる必要があり、232より長くすることはできません。 |
bytes | 232以下の任意のバイトシーケンスを含むことができます。 |
Proto 型 | C++ 型 | Java/Kotlin 型[1] | Python 型[3] | Go 型 | Ruby 型 | C# 型 | PHP 型 | Dart 型 | Rust 型 |
---|---|---|---|---|---|---|---|---|---|
double | double | double | float | float64 | Float | double | float | double | f64 |
float | float | float | float | float32 | Float | float | float | double | f32 |
int32 | int32_t | int | int | int32 | Fixnum または Bignum (必要に応じて) | int | integer | int | i32 |
int64 | int64_t | long | int/long[4] | int64 | Bignum | long | integer/string[6] | Int64 | i64 |
uint32 | uint32_t | int[2] | int/long[4] | uint32 | Fixnum または Bignum (必要に応じて) | uint | integer | int | u32 |
uint64 | uint64_t | long[2] | int/long[4] | uint64 | Bignum | ulong | integer/string[6] | Int64 | u64 |
sint32 | int32_t | int | int | int32 | Fixnum または Bignum (必要に応じて) | int | integer | int | i32 |
sint64 | int64_t | long | int/long[4] | int64 | Bignum | long | integer/string[6] | Int64 | i64 |
fixed32 | uint32_t | int[2] | int/long[4] | uint32 | Fixnum または Bignum (必要に応じて) | uint | integer | int | u32 |
fixed64 | uint64_t | long[2] | int/long[4] | uint64 | Bignum | ulong | integer/string[6] | Int64 | u64 |
sfixed32 | int32_t | int | int | int32 | Fixnum または Bignum (必要に応じて) | int | integer | int | i32 |
sfixed64 | int64_t | long | int/long[4] | int64 | Bignum | long | integer/string[6] | Int64 | i64 |
bool | bool | boolean | bool | bool | TrueClass/FalseClass | bool | boolean | bool | bool |
string | string | String | str/unicode[5] | string | String (UTF-8) | string | string | String | ProtoString |
bytes | string | ByteString | str (Python 2), bytes (Python 3) | []byte | String (ASCII-8BIT) | ByteString | string | List | ProtoBytes |
[1] Kotlinは、Java/Kotlin混合コードベースでの互換性を確保するため、符号なし型であってもJavaの対応する型を使用します。
[2] Javaでは、符号なし32ビットおよび64ビット整数は、符号付きの対応物を使用して表現され、最上位ビットは単に符号ビットに格納されます。
[3] すべての場合において、フィールドに値を設定する際には、それが有効であることを確認するための型チェックが実行されます。
[4] 64ビットまたは符号なし32ビット整数は、デコード時には常にlongとして表現されますが、フィールドを設定する際にintが与えられた場合はintになることがあります。すべての場合において、設定される値は表現される型に収まる必要があります。[2]を参照してください。
[5] Pythonの文字列はデコード時にはユニコードとして表現されますが、ASCII文字列が与えられた場合はstrになることがあります(これは変更される可能性があります)。
[6] 64ビットマシンではIntegerが使用され、32ビットマシンではstringが使用されます。
メッセージをシリアライズする際にこれらの型がどのようにエンコードされるかについての詳細は、Protocol Bufferエンコーディングで確認できます。
フィールドのデフォルト値
メッセージがパースされる際、エンコードされたメッセージバイトに特定のフィールドが含まれていない場合、パースされたオブジェクトでそのフィールドにアクセスすると、そのフィールドのデフォルト値が返されます。デフォルト値は型によって異なります。
- 文字列の場合、デフォルト値は空文字列です。
- bytesの場合、デフォルト値は空のバイト列です。
- boolの場合、デフォルト値はfalseです。
- 数値型の場合、デフォルト値はゼロです。
- メッセージフィールドの場合、フィールドは設定されていません。その正確な値は言語に依存します。詳細については、生成コードガイドを参照してください。
- 列挙型の場合、デフォルト値は最初に定義された列挙値であり、これは0でなければなりません。列挙型のデフォルト値を参照してください。
repeatedフィールドのデフォルト値は空です(通常、適切な言語での空のリスト)。
マップフィールドのデフォルト値は空です(通常、適切な言語での空のマップ)。
デフォルトのスカラー値のオーバーライド
protobuf editionsでは、単一の非メッセージフィールドに明示的なデフォルト値を指定できます。たとえば、SearchRequest.result_per_page
フィールドにデフォルト値として10を設定したいとします。
int32 result_per_page = 3 [default = 10];
送信者がresult_per_page
を指定しない場合、受信者は以下の状態を観察します。
result_per_page
フィールドは存在しません。つまり、has_result_per_page()
(ハザメソッド)メソッドはfalse
を返します。result_per_page
の値(「getter」から返される)は10
です。
送信者がresult_per_page
の値を送信した場合、デフォルト値の10は無視され、送信者の値が「getter」から返されます。
生成されたコードにおけるデフォルト値の動作に関する詳細は、選択した言語の生成コードガイドを参照してください。
field_presence
機能がIMPLICIT
に設定されているフィールドには、明示的なデフォルト値を指定できません。
列挙型
メッセージタイプを定義する際、そのフィールドの1つが、事前に定義された値のリストのいずれか1つのみを持つようにしたい場合があります。たとえば、各SearchRequest
にcorpus
フィールドを追加したいとします。ここで、corpusはUNIVERSAL
、WEB
、IMAGES
、LOCAL
、NEWS
、PRODUCTS
、またはVIDEO
のいずれかになります。これを非常に簡単に行うには、各可能な値の定数を持つenum
をメッセージ定義に追加します。
以下の例では、すべての可能な値を持つ`Corpus`という`enum`と、`Corpus`型のフィールドを追加しました。
enum Corpus {
CORPUS_UNSPECIFIED = 0;
CORPUS_UNIVERSAL = 1;
CORPUS_WEB = 2;
CORPUS_IMAGES = 3;
CORPUS_LOCAL = 4;
CORPUS_NEWS = 5;
CORPUS_PRODUCTS = 6;
CORPUS_VIDEO = 7;
}
message SearchRequest {
string query = 1;
int32 page_number = 2;
int32 results_per_page = 3;
Corpus corpus = 4;
}
列挙型のデフォルト値
`SearchRequest.corpus`フィールドのデフォルト値は`CORPUS_UNSPECIFIED`です。なぜなら、それがenumで定義された最初の値だからです。
Edition 2023では、enum定義で最初に定義された値は**必ず**ゼロの値を持つ必要があり、ENUM_TYPE_NAME_UNSPECIFIED
またはENUM_TYPE_NAME_UNKNOWN
という名前を持つべきです。これは以下の理由によるものです。
- 明示的に異なる値が指定されない限り、最初の列挙値がデフォルトとなるproto2のセマンティクスとの互換性のために、ゼロ値が最初の要素である必要があります。
- ゼロ値が、このenumタイプを使用するすべての暗黙的なプレゼンスフィールドのデフォルト値として使用されるproto3のセマンティクスとの互換性のために、ゼロ値が存在する必要があります。
また、この最初のデフォルト値は、「この値は指定されなかった」以外の意味を持たないことが推奨されます。
SearchRequest.corpus
フィールドのような列挙型フィールドのデフォルト値は、次のように明示的にオーバーライドできます。
Corpus corpus = 4 [default = CORPUS_UNIVERSAL];
option features.enum_type = CLOSED;
を使用してproto2から移行されたenum型の場合、enumの最初の値には制限がありません。これらの種類のenumの最初の値を変更することはお勧めしません。なぜなら、明示的なフィールドのデフォルトがない場合、そのenum型を使用するすべてのフィールドのデフォルト値が変更されるためです。
列挙値のエイリアス
異なるenum定数に同じ値を割り当てることで、エイリアスを定義できます。これを行うには、allow_alias
オプションをtrue
に設定する必要があります。そうしないと、プロトコルバッファコンパイラはエイリアスが見つかったときに警告メッセージを生成します。すべてのエイリアス値はシリアル化に対して有効ですが、デシリアル化時には最初の値のみが使用されます。
enum EnumAllowingAlias {
option allow_alias = true;
EAA_UNSPECIFIED = 0;
EAA_STARTED = 1;
EAA_RUNNING = 1;
EAA_FINISHED = 2;
}
enum EnumNotAllowingAlias {
ENAA_UNSPECIFIED = 0;
ENAA_STARTED = 1;
// ENAA_RUNNING = 1; // Uncommenting this line will cause a warning message.
ENAA_FINISHED = 2;
}
Enum定数
列挙子定数は32ビット整数の範囲内である必要があります。enum
値はワイヤー上でvarintエンコーディングを使用するため、負の値は非効率であり、推奨されません。前の例のように、メッセージ定義内でenum
を定義することも、外側で定義することもできます。これらのenum
は、.proto
ファイル内の任意のメッセージ定義で再利用できます。また、構文_MessageType_._EnumType_
を使用して、あるメッセージで宣言されたenum
タイプを別のメッセージのフィールドのタイプとして使用することもできます。
言語固有のEnumの実装
enum
を使用する.proto
に対してプロトコルバッファコンパイラを実行すると、生成されたコードには、Java、Kotlin、またはC++に対応するenum
、または実行時に生成されたC++クラスで整数値を持つシンボリック定数のセットを作成するために使用されるPython用の特殊なEnumDescriptor
クラスが含まれます。
重要
生成されたコードは、列挙子の数に関する言語固有の制限(ある言語では数千程度)の対象となる場合があります。使用を計画している言語の制限を確認してください。デシリアライズ中、認識されない列挙値はメッセージ内に保持されますが、これがデシリアライズ時にどのように表現されるかは言語に依存します。C++やGoなど、指定されたシンボルの範囲外の値を持つオープン列挙型をサポートする言語では、不明な列挙値は単にその基になる整数表現として格納されます。Javaなど、クローズド列挙型を持つ言語では、列挙型内のケースが認識されない値を表現するために使用され、基になる整数は特別なアクセサーでアクセスできます。いずれの場合も、メッセージがシリアライズされた場合、認識されない値はメッセージとともにシリアライズされます。
重要
enumがどのように動作すべきかと、異なる言語で現在どのように動作するかの対比については、Enumの動作を参照してください。アプリケーションでメッセージの`enum`を扱う方法についての詳細は、選択した言語の生成コードガイドを参照してください。
予約値
enumエントリを完全に削除したり、コメントアウトしたりしてenumタイプを更新すると、将来のユーザーはタイプに独自の更新を行うときに数値値を再利用できます。これは、後で同じ.proto
の古いインスタンスをロードした場合に、データ破損やプライバシーバグなど、深刻な問題を引き起こす可能性があります。これを確実に防ぐ1つの方法は、削除されたエントリの数値値(および/または名前。JSONシリアライズにも問題を引き起こす可能性があります)をreserved
として指定することです。プロトコルバッファコンパイラは、将来のユーザーがこれらの識別子を使用しようとすると警告を発します。予約された数値範囲がmax
キーワードを使用して可能な最大値まで拡張されるように指定できます。
enum Foo {
reserved 2, 15, 9 to 11, 40 to max;
reserved FOO, BAR;
}
同じ`reserved`文にフィールド名と数値を混在させることはできません。
他のメッセージ型の使用
他のメッセージタイプをフィールドタイプとして使用できます。たとえば、各SearchResponse
メッセージにResult
メッセージを含めたいとします。これを行うには、同じ.proto
でResult
メッセージタイプを定義し、SearchResponse
でResult
タイプのフィールドを指定します。
message SearchResponse {
repeated Result results = 1;
}
message Result {
string url = 1;
string title = 2;
repeated string snippets = 3;
}
定義のインポート
先の例では、`Result`メッセージ型は`SearchResponse`と同じファイルで定義されています。フィールド型として使用したいメッセージ型が既に別の`.proto`ファイルで定義されている場合はどうなるでしょうか。
他の`.proto`ファイルからの定義を*インポート*することで使用できます。別の`.proto`の定義をインポートするには、ファイルの先頭にimport文を追加します。
import "myproject/other_protos.proto";
デフォルトでは、直接インポートされた.proto
ファイルからの定義のみを使用できます。しかし、.proto
ファイルを新しい場所に移動する必要がある場合があります。.proto
ファイルを直接移動し、すべての呼び出し元を単一の変更で更新する代わりに、古い場所にプレースホルダーの.proto
ファイルを配置して、import public
の概念を使用してすべてのインポートを新しい場所に転送できます。
公開インポート機能は、Java、Kotlin、TypeScript、JavaScript、GCL、およびprotobuf静的リフレクションを使用するC++ターゲットでは利用できないことに注意してください。
`import public`の依存関係は、`import public`文を含むプロトをインポートする任意のコードによって推移的に依存される可能性があります。例えば:
// new.proto
// All definitions are moved here
// old.proto
// This is the proto that all clients are importing.
import public "new.proto";
import "other.proto";
// client.proto
import "old.proto";
// You use definitions from old.proto and new.proto, but not other.proto
プロトコルコンパイラは、-I
/--proto_path
フラグを使用してプロトコルコンパイラのコマンドラインで指定されたディレクトリのセットでインポートされたファイルを検索します。フラグが指定されていない場合、コンパイラが呼び出されたディレクトリを検索します。一般的に、--proto_path
フラグをプロジェクトのルートに設定し、すべてのインポートに完全修飾名を使用する必要があります。
proto2とproto3のメッセージタイプを使用する
proto2およびproto3のメッセージタイプをインポートし、edition 2023のメッセージで使用することができます。
ネストされた型
次の例のように、他のメッセージタイプの内部でメッセージタイプを定義し、使用することができます。ここでは、`Result`メッセージが`SearchResponse`メッセージの内部で定義されています。
message SearchResponse {
message Result {
string url = 1;
string title = 2;
repeated string snippets = 3;
}
repeated Result results = 1;
}
このメッセージ型を親メッセージ型の外部で再利用したい場合は、`_Parent_._Type_`として参照します。
message SomeOtherMessage {
SearchResponse.Result result = 1;
}
メッセージは好きなだけ深くネストできます。以下の例では、`Inner`という名前の2つのネストされた型は、異なるメッセージ内で定義されているため、完全に独立していることに注意してください。
message Outer { // Level 0
message MiddleAA { // Level 1
message Inner { // Level 2
int64 ival = 1;
bool booly = 2;
}
}
message MiddleBB { // Level 1
message Inner { // Level 2
int32 ival = 1;
bool booly = 2;
}
}
}
メッセージタイプの更新
既存のメッセージタイプがすべてのニーズを満たさなくなった場合(たとえば、メッセージ形式に余分なフィールドを追加したい場合)でも、古い形式で作成されたコードを使用したい場合でも、心配はいりません!バイナリワイヤー形式を使用すると、既存のコードを壊すことなくメッセージタイプを更新することは非常に簡単です。
注意
Protocol Buffersメッセージを保存するためにProtoJSONまたはprotoテキスト形式を使用する場合、proto定義で行える変更は異なります。ProtoJSONワイヤー形式の安全な変更はこちらで説明されています。Protoのベストプラクティスと以下のルールを確認してください。
バイナリワイヤー形式で安全でない変更
ワイヤー非安全な変更とは、古いスキーマを使用してシリアライズされたデータを、新しいスキーマを使用しているパーサーで解析した場合(またはその逆)、破損するスキーマ変更のことです。データのすべてのシリアライザーとデシリアライザーが新しいスキーマを使用していることがわかっている場合にのみ、ワイヤー非安全な変更を行ってください。
- 既存のフィールドのフィールド番号を変更することは安全ではありません。
- フィールド番号を変更することは、そのフィールドを削除し、同じ型で新しいフィールドを追加することと同等です。フィールドの番号を付け替えたい場合は、フィールドの削除の手順を参照してください。
- フィールドを既存の`oneof`に移動することは安全ではありません。
バイナリワイヤー形式で安全な変更
ワイヤーセーフな変更とは、データの損失や新たなパース失敗のリスクなしに、スキーマをこの方法で進化させることが完全に安全な変更です。
ワイヤーセーフな変更であっても、特定の言語のアプリケーションコードにとって破壊的な変更となる可能性があることに注意してください。例えば、既存の列挙型に値を追加することは、その列挙型に対して網羅的なswitch文を持つコードのコンパイルを中断させるでしょう。このため、Googleは公開メッセージに対してこれらのタイプの変更の一部を避ける場合があります。AIPには、これらの変更のうちどれが安全であるかについてのガイダンスが含まれています。
- 新しいフィールドの追加は安全です。
- フィールドの削除は安全です。
- 更新されたメッセージタイプで同じフィールド番号を再度使用してはなりません。代わりにフィールドの名前を変更するか、おそらく「OBSOLETE_」というプレフィックスを追加するか、またはフィールド番号を予約して、将来の
.proto
ユーザーが誤ってその番号を再利用しないようにすることをお勧めします。
- 更新されたメッセージタイプで同じフィールド番号を再度使用してはなりません。代わりにフィールドの名前を変更するか、おそらく「OBSOLETE_」というプレフィックスを追加するか、またはフィールド番号を予約して、将来の
- enumに値を追加することは安全です。
- 単一の明示的な存在フィールドまたは拡張を**新しい** `oneof`のメンバーに変更することは安全です。
- 1つのフィールドのみを含む`oneof`を明示的な存在フィールドに変更することは安全です。
- フィールドを同じ番号と型の拡張に変更することは安全です。
バイナリワイヤー形式で互換性のある変更(条件付きで安全)
ワイヤーセーフな変更とは異なり、ワイヤー互換性とは、特定の変更の前と後で同じデータを解析できることを意味します。ただし、この種類の変更ではデータの解析に損失が生じる可能性があります。たとえば、int32をint64に変更するのは互換性のある変更ですが、INT32_MAXを超える値が書き込まれた場合、int32として読み取るクライアントは数値の上位ビットを破棄します。
システムへの展開を慎重に管理する場合にのみ、スキーマに互換性のある変更を加えることができます。たとえば、int32をint64に変更できますが、新しいスキーマがすべてのエンドポイントに展開されるまで合法的なint32値のみを書き込み続け、その後により大きな値の書き込みを開始するようにします。
スキーマが組織外に公開されている場合、新しいスキーマの展開を管理して、異なる値の範囲がいつ安全に使用できるかを知ることができないため、一般的にワイヤー互換の変更を行うべきではありません。
- `int32`、`uint32`、`int64`、`uint64`、および`bool`はすべて互換性があります。
- ワイヤーから解析された数値が対応する型に収まらない場合、C++でその数値をその型にキャストした場合と同じ効果が得られます(たとえば、64ビットの数値がint32として読み取られると、32ビットに切り捨てられます)。
- `sint32`と`sint64`は互いに互換性がありますが、他の整数型とは互換性が*ありません*。
- 書き込まれた値がINT_MINとINT_MAXの範囲内であれば、どちらの型でも同じ値として解析されます。その範囲外のsint64値が書き込まれ、sint32として解析された場合、varintは32ビットに切り詰められ、その後ジグザグデコードが行われます(これにより異なる値が観察されます)。
- `string`と`bytes`は、バイト列が有効なUTF-8である限り互換性があります。
- 埋め込みメッセージは、バイト列がメッセージのエンコードされたインスタンスを含んでいる場合、`bytes`と互換性があります。
- `fixed32`は`sfixed32`と互換性があり、`fixed64`は`sfixed64`と互換性があります。
- `string`、`bytes`、およびメッセージフィールドの場合、単数形は`repeated`と互換性があります。
- 繰り返しフィールドのシリアライズされたデータが入力として与えられた場合、このフィールドが単一であると想定するクライアントは、プリミティブ型フィールドの場合は最後の入力値を取得し、メッセージ型フィールドの場合はすべての入力要素をマージします。これは、boolやenumを含む数値型の場合、一般的に安全では**ありません**。数値型の繰り返しフィールドは、デフォルトでpacked形式でシリアライズされますが、単一フィールドが想定されている場合は正しく解析されません。
- `enum`は`int32`、`uint32`、`int64`、`uint64`と互換性があります。
- メッセージがデシリアライズされると、クライアントコードがそれらを異なる方法で扱う可能性があることに注意してください。たとえば、認識されないproto3の
enum
値はメッセージ内に保持されますが、メッセージがデシリアライズされるときにこれがどのように表現されるかは言語に依存します。
- メッセージがデシリアライズされると、クライアントコードがそれらを異なる方法で扱う可能性があることに注意してください。たとえば、認識されないproto3の
- フィールドを `map<K, V>` と対応する `repeated` メッセージフィールドとの間で変更することは、バイナリ互換です(メッセージレイアウトやその他の制約については、下記の マップ を参照してください)。
- ただし、変更の安全性はアプリケーションに依存します。メッセージをデシリアライズして再シリアライズする場合、
repeated
フィールド定義を使用するクライアントは意味的に同一の結果を生成します。ただし、map
フィールド定義を使用するクライアントは、エントリの順序を変更したり、重複するキーを持つエントリを削除したりする可能性があります。
- ただし、変更の安全性はアプリケーションに依存します。メッセージをデシリアライズして再シリアライズする場合、
未知のフィールド
不明なフィールドとは、パーサーが認識しないフィールドを表す、適切に形成されたProtocol Buffersシリアライズデータのことです。たとえば、古いバイナリが新しいフィールドを持つ新しいバイナリから送信されたデータを解析する場合、それらの新しいフィールドは古いバイナリで不明なフィールドになります。
Editionsメッセージは、未知のフィールドを保持し、解析中およびシリアル化された出力にそれらを含め、proto2およびproto3の動作と一致します。
未知のフィールドの保持
一部の操作により、未知のフィールドが失われる可能性があります。たとえば、次のいずれかを行うと、未知のフィールドは失われます。
- プロトをJSONにシリアライズする。
- メッセージ内のすべてのフィールドを反復処理して、新しいメッセージを生成する。
未知のフィールドを失わないようにするには、次のことを行ってください。
- バイナリを使用し、データ交換にテキスト形式を使用しないようにする。
- フィールドごとにコピーするのではなく、`CopyFrom()` や `MergeFrom()` などのメッセージ指向の API を使用してデータをコピーする。
TextFormatは少し特殊なケースです。TextFormatにシリアライズすると、未知のフィールドはフィールド番号を使用して出力されます。しかし、TextFormatデータをバイナリプロトに戻してパースすると、フィールド番号を使用するエントリがある場合に失敗します。
エクステンション
拡張機能は、コンテナメッセージの外部で定義されたフィールドです。通常、コンテナメッセージの.proto
ファイルとは別の.proto
ファイルにあります。
なぜ拡張機能を使用するのか?
拡張機能を使用する主な理由は2つあります。
- コンテナメッセージの
.proto
ファイルは、インポート/依存関係が少なくなります。これにより、ビルド時間を改善し、循環依存関係を解消し、結合度の低い関係を促進できます。拡張機能はこれに非常に適しています。 - 最小限の依存関係と調整で、システムがコンテナメッセージにデータを添付できるようにします。拡張機能は、フィールド番号の空間が限られていることや、フィールド番号の再利用による影響があるため、これに対する優れた解決策ではありません。非常に多数の拡張機能に対して非常に低い調整が必要なユースケースの場合は、代わりに
Any
メッセージ型の使用を検討してください。
拡張機能の例
拡張機能を使用するプロセスは2段階です。まず、拡張したいメッセージ(「コンテナ」)で、拡張機能用のフィールド番号の範囲を予約する必要があります。次に、別のファイルで拡張フィールド自体を定義します。
これは、一般的なUserContent
メッセージに子猫動画の拡張機能を追加する方法を示す例です。
ステップ1:コンテナメッセージに拡張範囲を予約します。
コンテナメッセージは、他のユーザーが使用するためにフィールド番号の範囲を予約するためにextensions
キーワードを使用する必要があります。追加する予定の特定の拡張機能のdeclaration
も追加することが最善の方法です。この宣言は前方宣言として機能し、開発者が拡張機能を発見し、フィールド番号の再利用を回避することを容易にします。
// media/user_content.proto
edition = "2023";
package media;
// A container for user-created content.
message UserContent {
extensions 100 to 199 [
declaration = {
number: 126,
full_name: ".kittens.kitten_videos",
type: ".kittens.Video",
repeated: true
}
];
}
この宣言は、別の場所で定義される拡張機能のフィールド番号、完全名、型、およびカーディナリティを指定します。
ステップ2:別のファイルで拡張機能を定義します。
拡張機能自体は別の.proto
ファイルで定義され、通常は特定の機能(子猫動画など)に焦点を当てています。これにより、一般的なコンテナから特定の機能への依存関係の追加を回避できます。
// kittens/video_ext.proto
edition = "2023";
import "media/user_content.proto"; // Imports the container message
import "kittens/video.proto"; // Imports the extension's message type
package kittens;
// This defines the extension field.
extend media.UserContent {
repeated Video kitten_videos = 126;
}
extend
ブロックは、新しいkitten_videos
フィールドをmedia.UserContent
メッセージに結び付け、コンテナで予約されたフィールド番号126
を使用します。
拡張フィールドのワイヤー形式エンコーディングは、同じフィールド番号、型、カーディナリティを持つ標準フィールドと比較して違いはありません。したがって、標準フィールドをコンテナから拡張機能に移動したり、拡張フィールドをそのコンテナメッセージに標準フィールドとして移動したりすることは、フィールド番号、型、カーディナリティが一定である限り安全です。
ただし、拡張機能はコンテナメッセージの外部で定義されているため、特定の拡張フィールドを取得および設定するための特殊なアクセサーは生成されません。この例では、protobufコンパイラはAddKittenVideos()
またはGetKittenVideos()
アクセサーを生成しません。代わりに、拡張機能は、HasExtension()
、ClearExtension()
、GetExtension()
、MutableExtension()
、AddExtension()
のようなパラメータ化された関数を介してアクセスされます。
C++では、次のようになります。
UserContent user_content;
user_content.AddExtension(kittens::kitten_videos, new kittens::Video());
assert(1 == user_content.GetRepeatedExtension(kittens::kitten_videos).size());
user_content.GetRepeatedExtension(kittens::kitten_videos)[0];
拡張範囲の定義
コンテナメッセージの所有者である場合は、メッセージへの拡張機能の拡張範囲を定義する必要があります。
拡張フィールドに割り当てられたフィールド番号は、標準フィールドに再利用することはできません。
拡張範囲を定義後に拡張することは安全です。良いデフォルトは、比較的小さな番号を1000個割り当て、拡張宣言を使用してその空間を密に埋めることです。
message ModernExtendableMessage {
// All extensions in this range should use extension declarations.
extensions 1000 to 2000 [verification = DECLARATION];
}
実際の拡張の前に拡張宣言の範囲を追加する場合、この新しい範囲で宣言が使用されるように強制するためにverification = DECLARATION
を追加する必要があります。このプレースホルダーは、実際の宣言が追加された後に削除できます。
既存の拡張範囲を、同じ合計範囲をカバーする個別の範囲に分割することは安全です。これは、レガシーメッセージタイプを拡張宣言に移行するために必要になる場合があります。たとえば、移行前は次のように範囲が定義されていたかもしれません。
message LegacyMessage {
extensions 1000 to max;
}
そして、移行後(範囲を分割した後)は次のようになります。
message LegacyMessage {
// Legacy range that was using an unverified allocation scheme.
extensions 1000 to 524999999 [verification = UNVERIFIED];
// Current range that uses extension declarations.
extensions 525000000 to max [verification = DECLARATION];
}
拡張範囲を移動または縮小するために、開始フィールド番号を増やすことや終了フィールド番号を減らすことは安全ではありません。これらの変更は、既存の拡張機能を無効にする可能性があります。
プロトのほとんどのインスタンスで設定される標準フィールドには、フィールド番号1から15を使用することを推奨します。これらの番号を拡張機能に使用することは推奨されません。
番号付けの慣例に非常に大きなフィールド番号を持つ拡張機能が含まれる可能性がある場合、max
キーワードを使用して拡張範囲が可能な最大フィールド番号までであることを指定できます。
message Foo {
extensions 1000 to max;
}
max
は229 - 1、つまり536,870,911です。
拡張番号の選択
拡張は、コンテナメッセージの外部で指定できる単なるフィールドです。フィールド番号の割り当てに関するすべての同じルールが拡張フィールド番号にも適用されます。同じフィールド番号の再利用による影響も拡張フィールド番号の再利用に適用されます。
コンテナメッセージが拡張宣言を使用している場合、一意の拡張フィールド番号を選択することは簡単です。新しい拡張機能を定義するときは、コンテナメッセージで定義された最も高い拡張範囲から、他のすべての宣言よりも低いフィールド番号を選択してください。たとえば、コンテナメッセージが次のように定義されている場合、
message Container {
// Legacy range that was using an unverified allocation scheme
extensions 1000 to 524999999;
// Current range that uses extension declarations. (highest extension range)
extensions 525000000 to max [
declaration = {
number: 525000001,
full_name: ".bar.baz_ext",
type: ".bar.Baz"
}
// 525,000,002 is the lowest field number above all other declarations
];
}
Container
の次の拡張機能は、番号525000002
で新しい宣言を追加する必要があります。
未検証の拡張番号割り当て(非推奨)
コンテナメッセージの所有者は、独自の未検証の拡張番号割り当て戦略を採用するために拡張宣言を放棄することを選択できます。
未検証の割り当て方式では、protobufエコシステム外のメカニズムを使用して、選択した拡張範囲内で拡張フィールド番号を割り当てます。例として、モノレポのコミット番号を使用することが考えられます。このシステムは、protobufコンパイラの観点からは「未検証」です。なぜなら、拡張機能が適切に取得された拡張フィールド番号を使用しているかどうかを確認する方法がないためです。
未検証システムが拡張宣言のような検証済みシステムに比べて優れている点は、コンテナメッセージの所有者と調整することなく拡張機能を定義できることです。
未検証システムの欠点は、protobufコンパイラが参加者を拡張フィールド番号の再利用から保護できないことです。
**未検証の拡張フィールド番号割り当て戦略は推奨されません。**なぜなら、フィールド番号の再利用による影響は、メッセージを拡張するすべての拡張機能に及ぶためです(推奨事項に従わなかった開発者だけでなく)。非常に低い調整が必要なユースケースの場合は、代わりに`Any`メッセージの使用を検討してください。
未検証の拡張フィールド番号割り当て戦略は、1から524,999,999の範囲に制限されています。フィールド番号525,000,000以上は、拡張宣言でのみ使用できます。
拡張タイプの指定
拡張機能は、oneof
とmap
を除くすべてのフィールドタイプにすることができます。
ネストされた拡張機能(非推奨)
別のメッセージのスコープ内で拡張機能を宣言できます。
import "common/user_profile.proto";
package puppies;
message Photo {
extend common.UserProfile {
int32 likes_count = 111;
}
...
}
この場合、この拡張機能にアクセスするためのC++コードは次のようになります。
UserProfile user_profile;
user_profile.SetExtension(puppies::Photo::likes_count, 42);
言い換えれば、唯一の効果はlikes_count
がpuppies.Photo
のスコープ内で定義されることです。
これはよくある混乱の原因です。メッセージ型の内部にネストされたextend
ブロックを宣言しても、外部型と拡張型との間に何らかの関係があることを意味するわけではありません。特に、前の例はPhoto
がUserProfile
のサブクラスの一種であることを意味しません。それは単にlikes_count
シンボルがPhoto
のスコープ内で宣言されていることを意味し、単に静的メンバに過ぎません。
よくあるパターンは、拡張機能のフィールド型のスコープ内で拡張機能を定義することです。たとえば、media.UserContent
に対するpuppies.Photo
型の拡張機能で、拡張機能がPhoto
の一部として定義されている例を次に示します。
import "media/user_content.proto";
package puppies;
message Photo {
extend media.UserContent {
Photo puppy_photo = 127;
}
...
}
ただし、メッセージ型を持つ拡張機能がその型内で定義されるという要件はありません。標準の定義パターンも使用できます。
import "media/user_content.proto";
package puppies;
message Photo {
...
}
// This can even be in a different file.
extend media.UserContent {
Photo puppy_photo = 127;
}
この**標準(ファイルレベル)の構文が、混乱を避けるために推奨されます**。ネストされた構文は、拡張機能にまだ慣れていないユーザーによってサブクラス化と誤解されることがよくあります。
Any
Any
メッセージタイプを使用すると、.proto定義なしでメッセージを埋め込み型として使用できます。Any
は、任意のシリアル化されたメッセージをbytes
として、そのメッセージのタイプとして機能し、解決されるグローバルに一意な識別子であるURLとともに含みます。Any
タイプを使用するには、google/protobuf/any.proto
をインポートする必要があります。
import "google/protobuf/any.proto";
message ErrorStatus {
string message = 1;
repeated google.protobuf.Any details = 2;
}
特定のメッセージ型のデフォルトの型URLは `type.googleapis.com/_packagename_._messagename_` です。
さまざまな言語実装では、Any
値を型安全な方法でパックおよびアンパックするためのランタイムライブラリヘルパーをサポートします。たとえば、JavaではAny
型には特別なpack()
およびunpack()
アクセサーがあり、C++ではPackFrom()
およびUnpackTo()
メソッドがあります。
// Storing an arbitrary message type in Any.
NetworkErrorDetails details = ...;
ErrorStatus status;
status.add_details()->PackFrom(details);
// Reading an arbitrary message from Any.
ErrorStatus status = ...;
for (const google::protobuf::Any& detail : status.details()) {
if (detail.Is<NetworkErrorDetails>()) {
NetworkErrorDetails network_error;
detail.UnpackTo(&network_error);
... processing network_error ...
}
}
含まれるメッセージを少数のタイプに制限し、リストに新しいタイプを追加する前に許可を要求したい場合は、Any
メッセージタイプではなく、拡張宣言を持つ拡張機能の使用を検討してください。
Oneof
多くの単数フィールドを持つメッセージで、同時に最大1つのフィールドのみが設定される場合、oneof機能を使用することで、この動作を強制し、メモリを節約できます。
Oneofフィールドは単数形フィールドと似ていますが、oneof内のすべてのフィールドがメモリを共有し、同時に最大1つのフィールドのみを設定できる点が異なります。oneofの任意のメンバーを設定すると、他のすべてのメンバーが自動的にクリアされます。選択した言語に応じて、特別なcase()
またはWhichOneof()
メソッドを使用して、oneof内でどの値が設定されているか(もしあれば)を確認できます。
複数の値が設定された場合、proto内の順序で決定される最後に設定された値が、以前のすべての値を上書きすることに注意してください。
oneofフィールドのフィールド番号は、それを囲むメッセージ内で一意でなければなりません。
Oneofの使用
`.proto`でoneofを定義するには、`oneof`キーワードの後にoneof名、この場合は`test_oneof`を続けます。
message SampleMessage {
oneof test_oneof {
string name = 4;
SubMessage sub_message = 9;
}
}
次に、oneofフィールドをoneof定義に追加します。マップフィールドと繰り返しフィールドを除く、あらゆるタイプのフィールドを追加できます。繰り返しフィールドをoneofに追加する必要がある場合は、繰り返しフィールドを含むメッセージを使用できます。
生成されたコードでは、oneof フィールドは通常のフィールドと同じゲッターとセッターを持ちます。また、oneof 内のどの値 (もしあれば) が設定されているかを確認するための特別なメソッドも取得できます。選択した言語の oneof API の詳細については、該当するAPI リファレンスで確認できます。
Oneofの機能
oneofフィールドを設定すると、oneofの他のすべてのメンバーが自動的にクリアされます。そのため、複数のoneofフィールドを設定した場合、最後に設定したフィールドのみが値を持ち続けます。
SampleMessage message; message.set_name("name"); CHECK(message.has_name()); // Calling mutable_sub_message() will clear the name field and will set // sub_message to a new instance of SubMessage with none of its fields set. message.mutable_sub_message(); CHECK(!message.has_name());
パーサーがワイヤー上で同じoneofの複数のメンバーを検出した場合、解析されたメッセージでは最後に検出されたメンバーのみが使用されます。ワイヤー上のデータを解析する際、バイトの先頭から開始し、次の値を評価して、以下の解析ルールを適用します。
まず、同じoneof内の*異なる*フィールドが現在設定されているかを確認し、設定されていればそれをクリアします。
次に、そのフィールドがoneof内にないかのように内容を適用します。
- プリミティブは、既に設定されている値を上書きします。
- メッセージは、すでに設定されている値にマージされます。
Oneofは拡張機能をサポートしていません。
oneofは`repeated`にできません。
リフレクションAPIはoneofフィールドに対して機能します。
oneofフィールドをデフォルト値に設定した場合(例えば、int32のoneofフィールドを0に設定するなど)、そのoneofフィールドの「ケース」が設定され、値はワイヤー上でシリアライズされます。
C++を使用している場合は、コードがメモリクラッシュを引き起こさないように注意してください。以下のサンプルコードは、`set_name()`メソッドを呼び出すことによって`sub_message`がすでに削除されているため、クラッシュします。
SampleMessage message; SubMessage* sub_message = message.mutable_sub_message(); message.set_name("name"); // Will delete sub_message sub_message->set_... // Crashes here
再びC++で、oneofを持つ2つのメッセージを`Swap()`すると、各メッセージは他方のoneofケースを持つことになります。以下の例では、`msg1`は`sub_message`を持ち、`msg2`は`name`を持つことになります。
SampleMessage msg1; msg1.set_name("name"); SampleMessage msg2; msg2.mutable_sub_message(); msg1.swap(&msg2); CHECK(msg1.has_sub_message()); CHECK(msg2.has_name());
後方互換性の問題
Oneofフィールドの追加または削除には注意が必要です。oneofの値の確認がNone
/NOT_SET
を返す場合、oneofが設定されていないか、oneofの異なるバージョンでフィールドが設定されている可能性があります。ワイヤー上の不明なフィールドがoneofのメンバーであるかどうかを知る方法がないため、違いを区別する方法はありません。
タグの再利用に関する問題
- 単数形フィールドをoneofに移動またはoneofから移動する:メッセージがシリアライズおよびパースされた後、一部の情報(一部のフィールドがクリアされます)が失われる可能性があります。ただし、単一フィールドを**新しい**oneofに安全に移動でき、1つだけが設定されていることが分かっている場合は複数のフィールドを移動できる場合があります。詳細については、メッセージタイプの更新を参照してください。
- oneofフィールドを削除して再度追加する: メッセージがシリアライズされ、パースされた後、現在設定されているoneofフィールドがクリアされる可能性があります。
- oneofの分割または結合:これは、単一フィールドの移動と同様の問題があります。
マップ
データ定義の一部として連想マップを作成したい場合、プロトコルバッファは便利なショートカット構文を提供します。
map<key_type, value_type> map_field = N;
…ここで、key_type
は任意の整数型または文字列型(つまり、浮動小数点型とbytes
を除くすべてのスカラー型)にすることができます。列挙型もprotoメッセージもkey_type
として有効ではありません。value_type
は、別のマップを除く任意の型にすることができます。
したがって、たとえば、各`Project`メッセージが文字列キーに関連付けられているプロジェクトのマップを作成したい場合、次のように定義できます。
map<string, Project> projects = 3;
マップの機能
- マップでは拡張機能はサポートされていません。
- Mapフィールドは
repeated
にすることはできません。 - マップ値のワイヤーフォーマットの順序とマップの反復順序は未定義であるため、マップ項目が特定の順序であることに依存することはできません。
- `.proto`のテキストフォーマットを生成する際、マップはキーによってソートされます。数値キーは数値的にソートされます。
- ワイヤーからパースする場合やマージする場合、重複したマップキーが存在すると、最後に見つかったキーが使用されます。テキストフォーマットからマップをパースする場合、重複したキーがあるとパースに失敗することがあります。
- マップフィールドにキーは提供するが値を提供しない場合、フィールドがシリアライズされる際の動作は言語に依存します。C++、Java、Kotlin、Pythonでは型のデフォルト値がシリアライズされますが、他の言語では何もシリアライズされません。
- シンボル `FooEntry` は、マップ `foo` と同じスコープに存在できません。なぜなら、`FooEntry` はマップの実装によってすでに使用されているからです。
生成されたマップAPIは、現在サポートされているすべての言語で利用可能です。選択した言語のマップAPIの詳細については、関連するAPIリファレンスで確認できます。
後方互換性
マップ構文は、ワイヤー上では以下のものと等価であるため、マップをサポートしていないプロトコルバッファ実装でもデータを処理できます。
message MapFieldEntry {
key_type key = 1;
value_type value = 2;
}
repeated MapFieldEntry map_field = N;
マップをサポートするプロトコルバッファ実装は、以前の定義で受け入れ可能なデータを生成し、受け入れる必要があります。
パッケージ
プロトコルメッセージタイプ間の名前の衝突を防ぐために、`.proto`ファイルにオプションの`package`指定子を追加できます。
package foo.bar;
message Open { ... }
その後、メッセージタイプのフィールドを定義する際にパッケージ指定子を使用できます。
message Foo {
...
foo.bar.Open open = 1;
...
}
パッケージ指定子が生成されたコードにどのように影響するかは、選択した言語によって異なります。
- C++では、生成されたクラスはC++の名前空間内にラップされます。たとえば、`Open`は`foo::bar`という名前空間に入ります。
- JavaおよびKotlinでは、`.proto`ファイルで明示的に`option java_package`を指定しない限り、パッケージはJavaのパッケージとして使用されます。
- Pythonでは、Pythonモジュールはファイルシステム内の場所によって整理されるため、`package`ディレクティブは無視されます。
- Goでは、
package
ディレクティブは無視され、生成された.pb.go
ファイルは対応するgo_proto_library
Bazelルールにちなんで名付けられたパッケージに配置されます。オープンソースプロジェクトの場合、go_package
オプションを指定するか、Bazel-M
フラグを設定するかの**いずれか**を行う必要があります。 - Rubyでは、生成されたクラスはネストされたRuby名前空間でラップされ、必要なRubyの大文字小文字スタイルに変換されます(最初の文字が大文字になります。最初の文字が文字でない場合は、
PB_
が前置されます)。たとえば、Open
はFoo::Bar
名前空間に配置されます。 - PHPでは、
.proto
ファイルで明示的にoption php_namespace
を指定しない限り、パッケージはPascalCaseに変換された後、名前空間として使用されます。例えば、Open
はFoo\Bar
名前空間になります。 - C#では、
.proto
ファイルで明示的にoption csharp_namespace
を指定しない限り、パッケージはPascalCaseに変換された後、名前空間として使用されます。たとえば、Open
はFoo.Bar
名前空間になります。
たとえばPythonのように、package
ディレクティブが生成コードに直接影響を与えない場合でも、.proto
ファイルのパッケージを指定することは強く推奨されます。そうしないと、記述子の名前の競合が発生し、他の言語へのプロトの移植性が損なわれる可能性があります。
パッケージと名前解決
プロトコルバッファ言語における型名の解決はC++のように機能します。まず最も内側のスコープが検索され、次にその次の内側のスコープが検索されます。各パッケージはその親パッケージに対して「内側」と見なされます。先頭の'.'(例:.foo.bar.Baz
)は、代わりに最も外側のスコープから開始することを意味します。
プロトコルバッファコンパイラは、インポートされた`.proto`ファイルを解析することですべての型名を解決します。各言語のコードジェネレータは、異なるスコーピングルールを持っていても、その言語で各型を参照する方法を知っています。
サービスの定義
メッセージタイプをRPC(リモートプロシージャコール)システムで使用したい場合、.proto
ファイルでRPCサービスインターフェースを定義でき、プロトコルバッファコンパイラは選択した言語でサービスインターフェースコードとスタブを生成します。したがって、たとえば、SearchRequest
を受け取りSearchResponse
を返すメソッドを持つRPCサービスを定義したい場合、.proto
ファイルで次のように定義できます。
service SearchService {
rpc Search(SearchRequest) returns (SearchResponse);
}
Protocol Buffersで最も簡単なRPCシステムはgRPCです。gRPCはGoogleで開発された言語およびプラットフォームに依存しないオープンソースのRPCシステムです。gRPCはProtocol Buffersと特に相性が良く、特別なProtocol Buffersコンパイラプラグインを使用して.proto
ファイルから関連するRPCコードを直接生成できます。
gRPC を使用しない場合でも、独自の RPC 実装で Protocol Buffers を使用できます。詳細については、Proto2 言語ガイドを参照してください。
Protocol Buffers の RPC 実装を開発するための進行中のサードパーティプロジェクトもいくつかあります。私たちが知っているプロジェクトへのリンクの一覧は、サードパーティアドオンの wiki ページを参照してください。
JSONマッピング
標準のprotobufバイナリワイヤー形式は、protobufを使用する2つのシステム間の通信に推奨されるシリアル化形式です。protobufワイヤー形式ではなくJSONを使用するシステムとの通信には、ProtobufはProtoJSONでの標準エンコーディングをサポートしています。
オプション
.proto
ファイル内の個々の宣言には、いくつかのオプションで注釈を付けることができます。オプションは宣言の全体的な意味を変更しませんが、特定のコンテキストでの処理方法に影響を与える場合があります。利用可能なオプションの完全なリストは、/google/protobuf/descriptor.proto
で定義されています。
一部のオプションはファイルレベルのオプションであり、メッセージ、enum、またはサービス定義内ではなく、トップレベルスコープに記述する必要があります。一部のオプションはメッセージレベルのオプションであり、メッセージ定義内に記述する必要があります。一部のオプションはフィールドレベルのオプションであり、フィールド定義内に記述する必要があります。オプションはenum型、enum値、oneofフィールド、サービス型、およびサービスメソッドにも記述できますが、現在、これらのいずれにも有用なオプションは存在しません。
以下は、最も一般的に使用されるオプションのいくつかです。
java_package
(ファイルオプション): 生成される Java/Kotlin クラスに使用したいパッケージ。.proto
ファイルで明示的なjava_package
オプションが指定されていない場合、デフォルトでprotoパッケージ (.proto
ファイルの "package" キーワードで指定) が使用されます。ただし、protoパッケージは通常、リバースドメイン名で始まることが期待されていないため、良いJavaパッケージにはなりません。JavaまたはKotlinコードを生成しない場合、このオプションは効果がありません。option java_package = "com.example.foo";
java_outer_classname
(ファイルオプション): 生成したいラッパーJavaクラスのクラス名(およびファイル名)。.proto
ファイルに明示的なjava_outer_classname
が指定されていない場合、クラス名は.proto
ファイル名をキャメルケースに変換することで構築されます(例:foo_bar.proto
はFooBar.java
になります)。java_multiple_files
オプションが無効な場合、.proto
ファイル用に生成される他のすべてのクラス/enumなどは、この外側のラッパーJavaクラスの内部にネストされたクラス/enumなどとして生成されます。Javaコードを生成しない場合、このオプションは効果がありません。option java_outer_classname = "Ponycopter";
java_multiple_files
(ファイルオプション):false
の場合、この.proto
ファイルに対して1つの.java
ファイルのみが生成され、トップレベルのメッセージ、サービス、列挙型に対して生成されるすべてのJavaクラス/列挙型などは、外側のクラス(java_outer_classname
を参照)の内部にネストされます。true
の場合、トップレベルのメッセージ、サービス、列挙型に対して生成される各Javaクラス/列挙型などに対して個別の.java
ファイルが生成され、この.proto
ファイルに対して生成されるラッパーJavaクラスにはネストされたクラス/列挙型などは含まれません。これはブールオプションで、デフォルトはfalse
です。Javaコードを生成しない場合、このオプションは効果がありません。option java_multiple_files = true;
`optimize_for` (ファイルオプション): `SPEED`、`CODE_SIZE`、または`LITE_RUNTIME`に設定できます。これはC++およびJavaのコードジェネレータ(および場合によってはサードパーティのジェネレータ)に次のように影響します。
- `SPEED` (デフォルト): プロトコルバッファコンパイラは、メッセージタイプのシリアライズ、パース、その他の一般的な操作のためのコードを生成します。このコードは高度に最適化されています。
CODE_SIZE
:プロトコルバッファコンパイラは最小限のクラスを生成し、シリアル化、解析、およびその他のさまざまな操作を実装するために共有されたリフレクションベースのコードに依存します。したがって、生成されるコードはSPEED
の場合よりもはるかに小さくなりますが、操作は遅くなります。クラスは、SPEED
モードの場合とまったく同じパブリックAPIを実装します。このモードは、非常に多数の.proto
ファイルを含み、そのすべてが非常に高速である必要がないアプリで最も役立ちます。LITE_RUNTIME
:プロトコルバッファコンパイラは、「ライト」ランタイムライブラリ(libprotobuf
ではなくlibprotobuf-lite
)のみに依存するクラスを生成します。ライトランタイムはフルライブラリよりもはるかに小さく(約1桁小さい)、記述子やリフレクションなどの特定の機能は省略されます。これは、携帯電話などの制約のあるプラットフォームで実行されるアプリに特に役立ちます。コンパイラは、SPEED
モードの場合と同様に、すべてのメソッドの高速な実装を生成します。生成されるクラスは、各言語でMessageLite
インターフェースのみを実装し、これはフルMessage
インターフェースのメソッドのサブセットのみを提供します。
option optimize_for = CODE_SIZE;
cc_generic_services
、java_generic_services
、py_generic_services
(ファイルオプション):**汎用サービスは非推奨です。**プロトコルバッファコンパイラがC++、Java、Pythonでサービス定義に基づいて抽象的なサービスコードを生成するかどうかを示します。過去の理由により、これらはデフォルトでtrue
です。しかし、バージョン2.3.0(2010年1月)以降、RPC実装は、「抽象的な」サービスに依存するのではなく、各システムにより特化したコードを生成するためにコードジェネレータプラグインを提供することが好ましいとされています。// This file relies on plugins to generate service code. option cc_generic_services = false; option java_generic_services = false; option py_generic_services = false;
`cc_enable_arenas` (ファイルオプション): C++で生成されたコードに対してアリーナアロケーションを有効にします。
objc_class_prefix
(ファイルオプション): この.protoファイルから生成されるすべてのObjective-Cクラスとenumの前に付加されるObjective-Cクラスのプレフィックスを設定します。デフォルト値はありません。Appleの推奨に従い、3〜5文字の大文字のプレフィックスを使用する必要があります。2文字のプレフィックスはすべてAppleによって予約されていることに注意してください。packed
(フィールドオプション):protobufエディションでは、このオプションはtrue
にロックされています。非パックワイヤーフォーマットを使用するには、エディション機能を使用してこのオプションをオーバーライドできます。これにより、次の例に示すように、バージョン2.3.0以前のパーサーとの互換性が提供されます(めったに必要ありません)。repeated int32 samples = 4 [features.repeated_field_encoding = EXPANDED];
deprecated
(フィールドオプション):true
に設定すると、そのフィールドが非推奨であり、新しいコードで使用すべきではないことを示します。ほとんどの言語では、これは実際には効果がありません。Javaでは、これは@Deprecated
アノテーションになります。C++では、clang-tidyは非推奨フィールドが使用されるたびに警告を生成します。将来的には、他の言語固有のコードジェネレーターはフィールドのアクセサーに非推奨アノテーションを生成し、その結果、フィールドを使用しようとするコードをコンパイルする際に警告が発行されます。フィールドが誰も使用しておらず、新しいユーザーが使用するのを防ぎたい場合は、フィールド宣言をreservedステートメントに置き換えることを検討してください。int32 old_field = 6 [deprecated = true];
列挙値のオプション
Enum値のオプションがサポートされています。`deprecated`オプションを使用して、ある値がもはや使用されるべきでないことを示すことができます。拡張機能を使用してカスタムオプションを作成することもできます。
次の例は、これらのオプションを追加するための構文を示しています。
import "google/protobuf/descriptor.proto";
extend google.protobuf.EnumValueOptions {
string string_name = 123456789;
}
enum Data {
DATA_UNSPECIFIED = 0;
DATA_SEARCH = 1 [deprecated = true];
DATA_DISPLAY = 2 [
(string_name) = "display_value"
];
}
`string_name`オプションを読み取るC++コードは、次のようになるかもしれません。
const absl::string_view foo = proto2::GetEnumDescriptor<Data>()
->FindValueByName("DATA_DISPLAY")->options().GetExtension(string_name);
enum値やフィールドにカスタムオプションを適用する方法については、カスタムオプションを参照してください。
カスタムオプション
Protocol Buffersでは、独自のオプションを定義して使用することもできます。これは、ほとんどの人が必要としない**高度な機能**であることに注意してください。独自のオプションを作成する必要があると思われる場合は、詳細についてProto2言語ガイドを参照してください。カスタムオプションの作成には拡張機能が使用されることに注意してください。
オプションの保持
オプションには保持という概念があり、オプションが生成されたコードに保持されるかどうかを制御します。オプションはデフォルトでランタイム保持を持ちます。つまり、生成されたコードに保持され、生成された記述子プールでランタイム時に表示されます。ただし、retention = RETENTION_SOURCE
を設定して、オプション(またはオプション内のフィールド)がランタイム時に保持されないように指定できます。これはソース保持と呼ばれます。
オプションの保持は、ほとんどのユーザーが心配する必要のない高度な機能ですが、バイナリにオプションを保持することによるコードサイズコストを払わずに特定のオプションを使用したい場合に役立ちます。ソース保持を持つオプションは、依然としてprotoc
およびprotoc
プラグインに表示されるため、コードジェネレーターはそれらを使用して動作をカスタマイズできます。
保持は、次のようにオプションに直接設定できます。
extend google.protobuf.FileOptions {
int32 source_retention_option = 1234
[retention = RETENTION_SOURCE];
}
通常のフィールドにも設定できますが、その場合、そのフィールドがオプション内に現れる場合にのみ効果があります。
message OptionsMessage {
int32 source_retention_field = 1 [retention = RETENTION_SOURCE];
}
必要であればretention = RETENTION_RUNTIME
を設定することもできますが、これはデフォルトの動作なので効果はありません。メッセージフィールドがRETENTION_SOURCE
とマークされている場合、その内容全体は破棄されます。その内部のフィールドは、RETENTION_RUNTIME
を設定しようとしてもそれをオーバーライドすることはできません。
注意
Protocol Buffers 22.0の時点では、オプション保持のサポートはまだ進行中であり、C++とJavaのみがサポートされています。Goは1.29.0からサポートしています。Pythonのサポートは完了していますが、まだリリースには含まれていません。オプションのターゲット
フィールドにはtargets
オプションがあり、オプションとして使用される場合にフィールドが適用されるエンティティのタイプを制御します。たとえば、フィールドにtargets = TARGET_TYPE_MESSAGE
がある場合、そのフィールドはenum(または他の非メッセージエンティティ)のカスタムオプションに設定できません。Protocはこれを強制し、ターゲット制約違反がある場合はエラーを発生させます。
一見すると、この機能は不必要に見えるかもしれません。なぜなら、すべてのカスタムオプションは特定のエンティティのオプションメッセージの拡張であり、すでにオプションをその1つのエンティティに制約しているからです。しかし、オプションのターゲットは、複数のエンティティタイプに適用される共有オプションメッセージがあり、そのメッセージ内の個々のフィールドの使用法を制御したい場合に役立ちます。たとえば、
message MyOptions {
string file_only_option = 1 [targets = TARGET_TYPE_FILE];
int32 message_and_enum_option = 2 [targets = TARGET_TYPE_MESSAGE,
targets = TARGET_TYPE_ENUM];
}
extend google.protobuf.FileOptions {
MyOptions file_options = 50000;
}
extend google.protobuf.MessageOptions {
MyOptions message_options = 50000;
}
extend google.protobuf.EnumOptions {
MyOptions enum_options = 50000;
}
// OK: this field is allowed on file options
option (file_options).file_only_option = "abc";
message MyMessage {
// OK: this field is allowed on both message and enum options
option (message_options).message_and_enum_option = 42;
}
enum MyEnum {
MY_ENUM_UNSPECIFIED = 0;
// Error: file_only_option cannot be set on an enum.
option (enum_options).file_only_option = "xyz";
}
クラスの生成
.proto
ファイルで定義されたメッセージタイプを操作するために必要なJava、Kotlin、Python、C++、Go、Ruby、Objective-C、またはC#のコードを生成するには、.proto
ファイルでプロトコルバッファコンパイラprotoc
を実行する必要があります。コンパイラをインストールしていない場合は、パッケージをダウンロードし、READMEの指示に従ってください。Goの場合は、コンパイラ用の特別なコードジェネレータプラグインもインストールする必要があります。これはGitHubのgolang/protobufリポジトリでインストール手順とともに見つけることができます。
プロトコルコンパイラは次のように起動します。
protoc --proto_path=IMPORT_PATH --cpp_out=DST_DIR --java_out=DST_DIR --python_out=DST_DIR --go_out=DST_DIR --ruby_out=DST_DIR --objc_out=DST_DIR --csharp_out=DST_DIR path/to/file.proto
IMPORT_PATH
は、import
ディレクティブを解決する際に.proto
ファイルを検索するディレクトリを指定します。省略された場合、現在のディレクトリが使用されます。複数のインポートディレクトリは、--proto_path
オプションを複数回渡すことで指定できます。それらは順に検索されます。-I=_IMPORT_PATH_
は--proto_path
の省略形として使用できます。
**注:** proto_path
からの相対ファイルパスは、特定のバイナリ内でグローバルに一意でなければなりません。たとえば、proto/lib1/data.proto
とproto/lib2/data.proto
がある場合、-I=proto/lib1 -I=proto/lib2
と組み合わせてこれらの2つのファイルを使用することはできません。なぜなら、import "data.proto"
がどのファイルを意味するかが曖昧になるからです。代わりに-Iproto/
を使用し、グローバル名はlib1/data.proto
とlib2/data.proto
になります。
ライブラリを公開しており、他のユーザーがメッセージを直接使用する可能性がある場合、ファイル名の衝突を避けるために、パスに一意のライブラリ名を含めて、その下で使用されることを期待する必要があります。1つのプロジェクトに複数のディレクトリがある場合は、プロジェクトのトップレベルディレクトリに1つの-I
を設定することをお勧めします。
1つ以上の出力ディレクティブを指定できます。
--cpp_out
はDST_DIR
にC++コードを生成します。詳細については、C++生成コードリファレンスを参照してください。--java_out
はDST_DIR
にJavaコードを生成します。詳細については、Java生成コードリファレンスを参照してください。--kotlin_out
はDST_DIR
にKotlinコードを追加で生成します。詳細については、Kotlin生成コードリファレンスを参照してください。--python_out
はDST_DIR
にPythonコードを生成します。詳細については、Python生成コードリファレンスを参照してください。--go_out
はDST_DIR
にGoコードを生成します。詳細については、Go生成コードリファレンスを参照してください。--ruby_out
はDST_DIR
にRubyコードを生成します。詳細については、Ruby生成コードリファレンスを参照してください。--objc_out
はDST_DIR
にObjective-Cコードを生成します。詳細については、Objective-C生成コードリファレンスを参照してください。--csharp_out
はDST_DIR
にC#コードを生成します。詳細については、C#生成コードリファレンスを参照してください。--php_out
はDST_DIR
にPHPコードを生成します。詳細については、PHP生成コードリファレンスを参照してください。
追加の便宜として、
DST_DIR
が.zip
または.jar
で終わる場合、コンパイラは出力を指定された名前の単一のZIP形式アーカイブファイルに書き込みます。.jar
出力には、Java JAR仕様で要求されるマニフェストファイルも与えられます。出力アーカイブが既に存在する場合、上書きされることに注意してください。1つ以上の
.proto
ファイルを入力として指定する必要があります。複数の.proto
ファイルを一度に指定できます。ファイルは現在のディレクトリに対して相対的に命名されますが、コンパイラが正規名を決定できるように、各ファイルはIMPORT_PATH
のいずれかに存在する必要があります。
ファイルの場所
.proto
ファイルを他の言語ソースと同じディレクトリに置かないことを推奨します。プロジェクトのルートパッケージの下に、.proto
ファイル用のサブパッケージproto
を作成することを検討してください。
場所は言語に依存しないようにすべき
Javaコードを扱う場合、関連する.proto
ファイルをJavaソースと同じディレクトリに置くと便利です。ただし、非Javaコードが同じプロトをいつか使用する場合、パスのプレフィックスは意味をなさなくなります。したがって、一般的には、プロトを//myteam/mypackage
のような関連する言語に依存しないディレクトリに置くのが最善です。
このルールの例外は、プロトがJavaコンテキストでのみ使用されることが明確な場合、たとえばテスト用の場合です。
サポートされているプラットフォーム
に関する情報
- サポートされているオペレーティングシステム、コンパイラ、ビルドシステム、C++バージョンについては、Foundational C++ Support Policyを参照してください。
- サポートされているPHPバージョンについては、サポートされているPHPバージョンを参照してください。