Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Running on CPU Upgrade

App Files Files Community

sh1gechan commited on Oct 3

Commit

d046801

•

1 Parent(s): 36bebf5

Update app.py

Browse files

Files changed (1) hide show

app.py +84 -33

app.py CHANGED Viewed

@@ -132,8 +132,7 @@ def select_columns(df: pd.DataFrame, columns: list) -> pd.DataFrame:
         if c not in seen:
             unique_columns.append(c)
             seen.add(c)
-    if AutoEvalColumn.model.name not in unique_columns:
-        unique_columns.insert(1, AutoEvalColumn.model.name)  # Type_の次にModelを挿入
     filtered_df = df[unique_columns]
     return filtered_df
@@ -293,47 +292,105 @@ with demo:
             #     visible=True,
             # )
-            # 初期のカラム選択
             initial_columns = [c.name for c in fields(AutoEvalColumn) if c.never_hidden or c.displayed_by_default]
             leaderboard_df_filtered = select_columns(leaderboard_df, initial_columns)
-            # 'T' カラムを 'Type_' にリネーム
             leaderboard_df_filtered = leaderboard_df_filtered.rename(columns={'T': 'Type_'})
-            # 'Model' カラムからHTMLリンクを削除し、プレーンテキストに変換
-            leaderboard_df_filtered['Model'] = leaderboard_df_filtered['Model'].apply(lambda x: x.split('/')[-1] if isinstance(x, str) and '/' in x else x)
-            # データ型を文字列に変換
             for col in leaderboard_df_filtered.columns:
-                leaderboard_df_filtered[col] = leaderboard_df_filtered[col].astype(str)
             # デバッグ用出力
-            print("Columns in leaderboard_df_filtered:")
-            print(leaderboard_df_filtered.columns)
-            print("\nFirst few rows of leaderboard_df_filtered:")
             print(leaderboard_df_filtered.head())
-            # データを辞書のリストに変換
-            data_dict = leaderboard_df_filtered.to_dict('records')
-            data_dict = leaderboard_df_filtered.to_dict('records')
-            headers = list(leaderboard_df_filtered.columns)
-            datatype = {col: "str" for col in headers}
-            leaderboard_table = gr.Dataframe(
-                value=data_dict,  # 修正箇所: list of dicts に変更
-                headers=headers,
-                datatype=datatype,
                 elem_id="leaderboard-table",
                 interactive=False,
                 visible=True,
             )
-            # デバッグ情報の出力
-            print("\nLeaderboard table headers:")
-            print(leaderboard_table.headers)
             # Dummy leaderboard for handling the case when the user uses backspace key
             hidden_leaderboard_table_for_search = gr.components.Dataframe(
@@ -416,14 +473,8 @@ with demo:
                         open=False,
                     ):
                         with gr.Row():
-                            # finished_eval_table = gr.components.Dataframe(
-                            #     value=finished_eval_queue_df,
-                            #     headers=EVAL_COLS,
-                            #     datatype=EVAL_TYPES,
-                            #     row_count=5,
-                            # )
                             finished_eval_table = gr.components.Dataframe(
-                                value=finished_eval_queue_df.to_dict('records'),  # 修正箇所: list of dicts に変更
                                 headers=EVAL_COLS,
                                 datatype=EVAL_TYPES,
                                 row_count=5,

         if c not in seen:
             unique_columns.append(c)
             seen.add(c)
+    # フィルタリングされたカラムでデータフレームを作成
     filtered_df = df[unique_columns]
     return filtered_df
             #     visible=True,
             # )
             initial_columns = [c.name for c in fields(AutoEvalColumn) if c.never_hidden or c.displayed_by_default]
             leaderboard_df_filtered = select_columns(leaderboard_df, initial_columns)
+            # 重複カラムの確認と削除
+            duplicate_columns = leaderboard_df_filtered.columns[leaderboard_df_filtered.columns.duplicated()]
+            if len(duplicate_columns) > 0:
+                print(f"Duplicate columns found: {duplicate_columns.tolist()}")
+                # 重複カラムを削除（最初の出現を保持）
+                leaderboard_df_filtered = leaderboard_df_filtered.loc[:, ~leaderboard_df_filtered.columns.duplicated()]
+                print("Duplicate columns have been removed.")
+            else:
+                print("No duplicate columns found.")
+            # 'T' カラムの欠損値を確認
+            missing_T = leaderboard_df_filtered['T'].isna().sum()
+            print(f"Number of rows with missing 'T': {missing_T}")
+            # 'T' カラムが欠損している場合、埋める（ここでは空文字）
+            if missing_T > 0:
+                print("Filling missing 'T' values with empty strings.")
+                leaderboard_df_filtered['T'] = leaderboard_df_filtered['T'].fillna('')
+            # データ型を定義
+            datatype_dict = {}
+            for col in leaderboard_df_filtered.columns:
+                if col == AutoEvalColumn.model.name:  # 'Model'
+                    datatype_dict[col] = "markdown"
+                elif col in TYPES:
+                    datatype_dict[col] = TYPES[col]
+                else:
+                    datatype_dict[col] = "str"  # デフォルトのデータ型
+            # 'T' カラムがすべてのレコードに存在するか確認
+            records = leaderboard_df_filtered.to_dict('records')
+            missing_T_in_records = [i for i, record in enumerate(records) if 'T' not in record]
+            print(f"Number of records missing 'T' key: {len(missing_T_in_records)}")
+            if len(missing_T_in_records) > 0:
+                print("Records missing 'T' key:")
+                for i in missing_T_in_records[:5]:  # 最初の5件のみ表示
+                    print(f"Record {i}: {records[i]}")
+                # 欠損している場合、'T' キーを追加して空文字で埋める
+                for i in missing_T_in_records:
+                    records[i]['T'] = ''
+                # データフレームを更新
+                leaderboard_df_filtered = pd.DataFrame(records)
             leaderboard_df_filtered = leaderboard_df_filtered.rename(columns={'T': 'Type_'})
+            # 'Type_' カラムのデータ型と内容を確認
+            print(f"'Type_' カラムのデータ型: {leaderboard_df_filtered['Type_'].dtype}")
+            print(f"'Type_' カラムのユニーク値: {leaderboard_df_filtered['Type_'].unique()}")
+            # 'Type_' カラムを文字列型に変換
+            leaderboard_df_filtered['Type_'] = leaderboard_df_filtered['Type_'].astype(str)
+            # 'COLS' リストから 'T' と 'Model' を除外
+            if 'T' in COLS:
+                COLS.remove('T')
+            if 'Model' in COLS:
+                COLS.remove('Model')
+            # 'datatype_dict' を再定義
+            datatype_dict = {}
             for col in leaderboard_df_filtered.columns:
+                if col == 'Model':
+                    datatype_dict[col] = "markdown"
+                elif col in TYPES:
+                    datatype_dict[col] = TYPES[col]
+                else:
+                    datatype_dict[col] = "str"  # デフォルトのデータ型
+            # 'Type_' が 'datatype_dict' に含まれているか確認
+            if 'Type_' not in datatype_dict:
+                print("Warning: 'Type_' column not found in TYPES. Setting its datatype to 'str'.")
+                datatype_dict['Type_'] = "str"
             # デバッグ用出力
+            print("Datatype dictionary after renaming 'T' to 'Type_':", datatype_dict)
+            print("Preview of leaderboard_df_filtered after renaming:")
             print(leaderboard_df_filtered.head())
+            # カラム名を確認してスペースや特殊文字がないか確認
+            print([f"'{c}'" for c in leaderboard_df_filtered.columns])
+            # 'Type_' カラムのデータ型とユニーク値を再確認
+            print(f"'Type_' カラムのデータ型: {leaderboard_df_filtered['Type_'].dtype}")
+            print(f"'Type_' カラムのユニーク値: {leaderboard_df_filtered['Type_'].unique()}")
+            # Gradio Dataframe コンポーネントの初期化（datatype を省略）
+            leaderboard_table = gr.components.Dataframe(
+                value=leaderboard_df_filtered,
+                # datatype=datatype_dict,  # 一時的にコメントアウト
                 elem_id="leaderboard-table",
                 interactive=False,
                 visible=True,
             )
             # Dummy leaderboard for handling the case when the user uses backspace key
             hidden_leaderboard_table_for_search = gr.components.Dataframe(
                         open=False,
                     ):
                         with gr.Row():
                             finished_eval_table = gr.components.Dataframe(
+                                value=finished_eval_queue_df,
                                 headers=EVAL_COLS,
                                 datatype=EVAL_TYPES,
                                 row_count=5,