HuggingFaceのdatasetsレポジトリに小さなPRを出したところ、色々と話が進み、最初のPR部分以外にもcommitできたので、その話を書きます。

最初のPR

大学院の研究でopus_gnomeという対訳コーパスでダウンロードしようとしたところ、ドキュメントのサンプルにミスを見つけたため、ISSUEを立ち上げました

簡単そうな内容だったため、forkしてPRを出しました

しばらくすると、huggingfaceのMLエンジニアの方からコメントが来ました

Anyway, @gojiteji thanks for your contribution and this fix.

Once you have modified the opus_gnome dataset card, our Continuous Integration test suite performs some tests on it that make some additional requirements: the errors that appear have nothing to do with your contribution, but with these additional quality requirements.

どうやら僕の変更と関係がないところで、コードの品質を満たしていないところがあるようです。

CIテスト

自分には何がダメなのかよくわからなかったので、聞いてみると、マージする前のCIテストで失敗しており

No first-level heading starting with Dataset Card for found in README. Skipping further validation for this README.

READMEがテンプレートに沿っていないとのこと。

['ara', 'cat', 'foo', 'gr', 'nqo', 'tmp'] are not registered tags for 'language', reference at https://github.com/huggingface/datasets/tree/main/src/datasets/utils/resources/languages.json

また、既存のlanguages.jsonというファイルを元に、利用可能な言語を指定していますが、それが元のファイルにはないものが含まれているらしい。

諸々の会話とAlbertさんの多大なるサポートを経てそれらを修正したところ、mainブランチに無事マージできました。

opus_gnomeのデータセットのリンクにアクセスすると、僕の書いた部分が見れます。
https://huggingface.co/datasets/opus_gnome

自分がよく使っているOSSに貢献できたのはとても嬉しい限りです。

とても好意的に受け入れてくださっため、自信もつきました。今後も積極的にOSSにPRを出していこうと思います。