HuggingFaceのdatasetsにPRを出したところ他の部分にもcommitできた話
HuggingFaceのdatasetsレポジトリに小さなPRを出したところ、色々と話が進み、最初のPR部分以外にもcommitできたので、その話を書きます。
最初のPR
大学院の研究でopus_gnome
という対訳コーパスでダウンロードしようとしたところ、ドキュメントのサンプルにミスを見つけたため、ISSUEを立ち上げました。
簡単そうな内容だったため、forkしてPRを出しました。
しばらくすると、huggingfaceのMLエンジニアの方からコメントが来ました。
Anyway, @gojiteji thanks for your contribution and this fix.
Once you have modified the opus_gnome dataset card, our Continuous Integration test suite performs some tests on it that make some additional requirements: the errors that appear have nothing to do with your contribution, but with these additional quality requirements.
どうやら僕の変更と関係がないところで、コードの品質を満たしていないところがあるようです。
CIテスト
自分には何がダメなのかよくわからなかったので、聞いてみると、マージする前のCIテストで失敗しており、
No first-level heading starting with
Dataset Card for
found in README. Skipping further validation for this README.
READMEがテンプレートに沿っていないとのこと。
['ara', 'cat', 'foo', 'gr', 'nqo', 'tmp'] are not registered tags for 'language', reference at https://github.com/huggingface/datasets/tree/main/src/datasets/utils/resources/languages.json
また、既存のlanguages.jsonというファイルを元に、利用可能な言語を指定していますが、それが元のファイルにはないものが含まれているらしい。
諸々の会話とAlbertさんの多大なるサポートを経てそれらを修正したところ、mainブランチに無事マージできました。
opus_gnome
のデータセットのリンクにアクセスすると、僕の書いた部分が見れます。
https://huggingface.co/datasets/opus_gnome
自分がよく使っているOSSに貢献できたのはとても嬉しい限りです。
とても好意的に受け入れてくださっため、自信もつきました。今後も積極的にOSSにPRを出していこうと思います。